关于av1帧内帧间编码的一些基本内容

1，划分：

从vp9的4路变10路，sb最大变成了128，128之下可以继续细分， 8×8级别以下的分区av1有更多的选择。

image.png

2，帧内编码

AV1中对8种与45至207度的角度相对应的定向模式，以及2种非定向预测器：DC和真实运动（TM）模式。

2.1帧内方向预测加强：

8个角度设为标称角度，在此基础上引入3度步长的细微角度变化，即，预测角度由标称内部角度加上角度δ来表示，该角度为-3〜3的倍数步长。由统一的方向预测器实现，该方向器将每个像素链接到边缘中的参考子像素位置，并通过2个系数双线性滤波器对参考像素进行插值。总共在AV1中启用了56个定向帧内模式。

2.2非定向帧内预测：

AV1通过添加3个新的平滑预测器SMOOTH V，SMOOTH H和SMOOTH扩展了无方向帧内模式，这些预测器在将右边缘和下边缘逼近为水平后，使用垂直或水平方向上的二次插值或其平均值来预测块。顶部边缘的最右边像素和左侧边缘的底部像素。此外，TM模式已被PAETH预测值所取代：对于每个像素，从顶部，左侧和顶部左边缘引用中复制一个，其值最接近（top + left-topleft），表示采用从具有较低坡度的方向进行参考。

2.3基于递归滤波的帧内预测器：

为了捕获边缘上具有参考的衰减空间相关性，FILTER INTRA模式通过将亮度块视为2D不可分离的马尔可夫过程而设计。为AV1预设计了五个滤波器帧内模式，每个模式由一组八个7抽头滤波器表示，反映了4×2色块中的像素与相邻的7个相邻像素之间的相关性。帧内块可以选择一个滤波器的帧内模式，并以4×2补丁的批次进行预测。通过选择的7抽头滤波器组预测每个补丁，在8个像素位置对邻居加权不同。对于那些未完全附加到块边界上的参考的补丁，将直接邻居的预测值用作参考，这意味着在补丁之间递归计算预测，以便在远程位置组合更多的边缘像素。

2.4从亮度预测的色度：

来自亮度的色度（CfL）是仅色度的帧内预测器，将色度像素建模为重合的重构亮度像素的线性函数。重建的亮度像素被二次采样为色度分辨率，然后去除直流分量以形成交流分量。为了从AC贡献中估计色度AC分量， AV1CfL根据原始色度像素确定参数并在比特流中用信号发送。这降低了解码器的复杂性并产生了更精确的预测。

2.5调色板作为预测因素：

用少量唯一的颜色来近似块。因此，AV1将调色板模式引入帧内编码器，作为通用的额外编码工具。块的每个平面的调色板预测器由（i）具有2至8种颜色的调色板和（ii）块中所有像素的颜色索引指定。基色的数量决定了保真度和紧密度之间的权衡。使用基于邻域的上下文对颜色索引进行熵编码。

2.6帧内块复制：

AV1允许其帧内编码器以相同的方式参考同一帧中先前重建的块，对于通常在同一帧中包含重复纹理，图案和字符的屏幕内容视频，这可能会非常有益。引入了IntraBC的新预测模式，它将在当前帧中复制一个重构的块作为预测。参考块的位置由位移矢量指定，其方式类似于运动补偿中的运动矢量压缩。位移矢量在亮度平面的整个像素中，并且可以引用对应色度平面上的半像素位置，其中对子像素插值应用双线性滤波。

3 帧间编码

AV1具有更强大的帧间编码器，可大大扩展参考帧和运动矢量的池，打破基于块的翻译预测的局限性，并通过使用自适应性强的加权算法和源增强复合预测。

image.png

3.1扩展参考帧范围

AV1将每个帧的参考数从3扩展到7。除了VP9的LAST（最近的过去）帧，GOLDEN（遥远的过去）帧和ALTREF（临时过滤的未来）帧之外，我们在帧附近添加了两个过去的帧（LAST2和LAST3）以及两个将来的帧（BWDREF和ALTREF2）[7]。图2演示了黄金帧组的多层结构，其中自适应数量的帧共享相同的GOLDEN和ALTREF帧。 BWDREF是不使用时间滤波而直接编码的超前帧，因此更适合用作相对较短距离的后向参考。 ALTREF2用作GOLDEN和ALTREF之间的中间过滤的将来参考。所有新参考都可以通过单个预测模式选择，也可以组合成对以形成复合模式。 AV1提供了丰富的参考帧对集合，既提供了双向复合预测又提供了单向复合预测，因此可以以更自适应和最佳的方式对具有动态时间相关特性的各种视频进行编码。

3.2动态时空运动矢量参考：

AV1结合了复杂的MV参考选择方案，可通过搜索空间和时间候选对象来获得给定块的良好MV参考。 AV1不仅搜索空间邻域以构建空间候选池，而且还利用时间运动场估计机制生成时间候选。运动场估计过程分为三个阶段：
运动矢量缓冲，
运动轨迹创建
运动矢量投影。
首先，对于编码帧，我们存储参考帧索引和关联的运动矢量。在解码当前帧之前，我们检查运动轨迹，例如图3中的MVRef2，将帧Ref2中的一个块指向帧Ref0Ref2中的某个位置，方法是通过检查并置的192×128缓冲运动场来使每个64×64处理单元通过最多3个参考。这样，对于任何8×8块，其所属的所有轨迹都将被记录。接下来，在编码块级别，一旦确定了参考帧，则通过将通过的运动轨迹线性地投影到期望的参考帧上来导出运动矢量候选，例如，将图3中的MVRef2转换为MV0或MV1。一旦所有的空间和时间候选者都聚集在池中，就对其进行分类，合并和排序，以获得最多4个最终候选者[8]。计分方案依赖于计算当前块具有特定MV作为候选者的可能性。要对MV进行编码，AV1用信号通知从列表中选择的参考MV的索引，然后根据需要对增量进行编码。在实践中，参考MV和增量的组合通过模式发出信号

image.png

3.3重叠块运动补偿

OBMC通过平滑组合从相邻运动矢量创建的预测，可以大大减少块边缘附近的预测误差。在AV1中，设计了一种两面因果重叠算法，以使OBMC轻松适合高级分区框架[9]。通过在垂直和水平方向上应用预定义的一维平滑滤波器，它逐步将基于块的预测与次要帧间预测器在上方边缘组合在一起，然后在左侧进行组合。次要预测变量仅在当前块的受限重叠区域中操作，因此它们不会在同一侧彼此缠结。 AV1 OBMC仅对使用单个参考帧的块启用，并且仅与具有两个参考帧的任何邻居的第一个预测器一起使用，因此，最坏情况下的存储带宽与传统复合预测器所要求的相同。

3.5 扭曲运动补偿

通过启用两种仿射预测模式，全局和局部扭曲运动补偿，在AV1中探索了扭曲运动模型[10]。全局运动工具旨在处理相机运动，并允许在帧级别明确传达运动模型，以用于当前帧与其任何参考之间的运动。局部扭曲运动工具旨在通过从分配给因果邻域的运动矢量所发信号的二维位移中推导块级模型参数，从而以最小的开销隐式描述变化的局部运动。两种编码工具都在块级别与转换模式竞争，只有在RD成本方面有优势时才选择它们。更重要的是，AV1中的仿射扭曲在很小的程度上受到限制，因此可以在SIMD和硬件中通过水平剪切接着垂直剪切来有效地实现仿射扭曲（图4），每个剪切点使用8抽头插值滤波器1/64像素精度。 5）高级复合预测：为AV1开发了一系列新的复合预测工具，以使其帧间编码器更加通用

image.png

3.5.1复合楔形预测：

通常很难通过网格块分区来近似移动对象的边界。 AV1中的解决方案是预定义16个可能的楔形分区的码本，并在编码单元选择以这种方式进一步分区时在位流中发信号通知楔形索引。如图5所示，针对方形和矩形块设计了16个形状的代码书，其中包含水平，垂直或倾斜度为±2或±0.5的分区方向。为了减轻通常通过直接并置两个预测变量而产生的虚假高频分量，可对预期分区周围的边缘使用软悬崖形的二维楔形掩模

3.5.2差分调制的掩盖预测：

楔形之类的直线分区并不总是有效地分离对象。因此，AV1复合预测变量还可以通过与两个预测变量的值不同的内容来创建非均匀加权。

3.5.3基于帧距离的复合预测：

除了权重不均匀以外，AV1还通过考虑帧距来利用修改后的统一加权方案。帧距离定义为两个帧的时间戳之间的绝对差。它自然表示从不同参考复制的运动补偿块的可靠性。当选择基于帧距离的复合模式时，令d1和d2（d1≥d2）表示从当前帧到参考帧的距离，从中计算p1和p2，整个块将共享一个恒定的权重m。代替使用直接线性加权，AV1定义了由d1 / d2调制的量化权重，它在重建的参考中平衡了时间相关性和量化噪声之间的折衷。

3.5.4复合帧内预测：

开发了将帧内预测p1和单参考帧间预测p2组合在一起的复合帧内预测模式，以处理出现新内容和混合了旧对象的区域。对于内部部分，支持4种常用内部模式。遮罩m（i，j）包含两种类型的平滑功能：（i）类似于为楔间交互模式设计的平滑遮罩，（ii）依赖于模式的遮罩，其按由p定向的衰减模式加权p1内部模式的主要方向。

参考文献：An Overview of Core Coding Tools in the AV1 Video Codec