视频编码标准的演进
-
H.264
- 运动补偿
- 变换编码(可能是 DCT)
-
MPEG-4
- 亚像素运动补偿
- 帧内预测
-
H.264
- 可变大小块分区
- 环路滤波
- 多参考系
- CABAC
-
H.265/HEVC
- 四叉树结构
- CU(编码单元)/PU(预测单元)/TU(变换单元)分区
- 改进的帧内/帧间预测
-
VVC
- QTBT(四叉树加二叉树)
- 自适应多重变换
如何使用机器学习?
我们可以从视频编码的流程中提取一些问题。
三个抽象问题:
- 递归二分类
- 多类别的分类
- 递归的多类别分类
通过确定 CU 是否分裂,可以将 CU 大小决策制定为递归二元分类。
基于学习的优化编码:
- 预测编码
- 帧内预测
- 帧间预测
- 变换编码
- 增强
一些工作利用学习方法来预测一幅图像中的其他像素。 (帧内预测)
在帧内预测中,一些工作通过使用轻量级 CNN 专注于超分辨率。
帧间预测方案如下所示:
有基于 GAN 的帧内预测。
视觉质量评估指标
这里给出一些可能的指标
- 峰值信噪比
- 均方误差
- SSIM
- FSIM
- 多尺度 SSIM
- MOVIE
- ....
然而,机器很难分析视频或图像的质量。
但是,我们可以从数据中学习!
基于机器学习的视频质量分析VQA,可以被分为以下几类:
- 人工特征
- 人工特征 + 基于学习
- 也就是说,我们可以使用模型利用人工特征来进行分类。
- 基于特征学习(Feature Learning)
- 基于端到端的学习