视频基础知识

视频胶片

视频

视频采集装置一秒钟会捕捉几十帧数据，动画一般25帧以上，一般视频文件30帧数据，对于捕捉一些清晰动作的甚至要达到60帧以上，但是对于一组帧，帧和帧之间的变化很小，为了压缩数据，我们将第一帧（I帧）完整保存下来，没有关键帧，后面数据帧无法解码。接下来章节主要着重介绍我们经常在视频编码当中用到的 H.264编码

常用的视频编解码器

x264/x265：x265压缩比更高，占用CPU也更高
openH264：支持SVC（会将图分层，小中大，根据网络情况发送，缺点是移动端很多硬件不支持，只能使用软编，cpu消耗高）
vp8/vp9：vpx系列，vp8对应x264，vp9对应x265

H.264背景

H.264是[国际标准化组织]（[ISO]）和国际电信联盟（ITU）共同提出的继MPEG4之后的新一代数字视频压缩格式。H.264是在MPEG-4技术的基础之上建立起来的，其编解码流程主要包括5个部分：帧间和帧内预测、变换（Transform）和反变换、量化（Quantization）和反量化、环路滤波（Loop Filter）、熵编码（Entropy Coding）。与其它现有的视频编码标准相比，在相同的带宽下提供更加优秀的图象质量。通过该标准，在同等图象质量下的压缩效率比以前的标准（MPEG2）提高了2倍左右

H.264中的基本概念

I帧
I帧：关键帧，采用帧内压缩技术
P帧
P帧：向前参考帧，压缩时参考前一帧（帧间压缩技术，后面帧只存与它前一帧的差异）
B帧
B帧：双向参考帧，压缩时既参考前一帧也参考后一帧，帧间压缩技术
PTS与DTS
PTS(Presentation Time Stamp)：PTS主要用于度量解码后的视频帧什么时候被显示出来。
DTS(Decode Time Stamp)：DTS主要是标识内存中的bit流再什么时候开始送入解码器中进行解码。
备注：DTS主要用户视频的解码，在解码阶段使用。PTS主要用于视频的同步和输出，在display的时候使用。再没有B frame的时候输出顺序一样
GOF
Group of Frame(一组帧)，GOP是画面组，一个GOP是一组连续的画面，GOP一般有两个数字，如M=3，N=12（M指定I帧与P帧之间的距离，N指定两个I帧之间的距离），GOF结构格式如下：

1
IDR
在H.264中，图像以序列为单位进行组织。一个序列的第一个图像叫做 IDR 图像（立即刷新图像），IDR 图像都是 I 帧图像。H.264引入IDR图像是为了解码的重同步，当解码器解码到 IDR 图像时，立即将参考帧队列清空，将已解码的数据全部输出或抛弃，重新查找参数集，开始一个新的序列。这样，如果前一个序列出现重大错误，在这里可以获得重新同步的机会。IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码。IDR 图像一定是 I 图像，但 I 图像不一定是IDR图像。I帧之后的图像有可能会使用I帧之前的图像做运动参考

IDR
SPS与PPS
SPS：Sequence Parameter Set,序列参数集，存放帧数、参考帧数目、解码图像尺寸、帧场编码模式选择标识等
PPS：Picture Parameter Set,图像参数稽核，存放熵编码模式选择标识、片组数目、初始量化参数和去方块滤波系数调整标识等
备注：在接收一组帧之前我们首先会收到SPS和PPS，如果没有这两个参数我们是无法解码的

H.264原理与结构

主要使用压缩技术

帧内预测压缩（解决空域数据冗余问题，一幅图里面的颜色，色彩，光亮，人不是很敏感，可以删掉）
帧间预测压缩（解决时域数据冗余问题，随着时间轴的推进删除重复图）
整数离散余弦变换(DCT)，将空间上的相关性变为频域上无关的数据，然后进行量化
CABAC压缩（无损压缩）

H.264码流

SODB：String Of Data Bits原始数据比特流，长度不一定是8的倍数，由VCL层产生
RBSP：Raw Byte Sequence PayLoad (SODB + trailing bits)相当于给SODB补结束标记（在SODB最后一位补1，如果不是8字节对齐，则补0进行对齐）

RBSP序列

RBSP描述说明
EBSP：Encapsulate Byte Sequence Payload 在生成压缩流之后，在每个帧的开始处加一个起始位（起始码:00 00 01或00 00 00 01，如果实际数据有00 00那么需增加一个0x03进行冲突区分）
NALU：NAL Header（1个字节） + RBSP

NALU

备注：NAL Header 由三部分组成，forbidden_bit(1bit)，nal_reference_bit(2bits)（优先级），nal_unit_type(5bits)（类型）

H.264原始码流是由一个接一个NALU组成，它的功能分为两层，VCL(视频编码层)和 NAL(网络提取层).
VCL(Video Coding Layer) + NAL(Network Abstraction Layer)
VCL：Video Coding Layer 视频数据编码层，包括核心压缩引擎和块，宏块和片的语法级别定义，设计目标是尽可能地独立于网络进行高效的编码
NAL：Network Abstraction Layer 视频数据网络抽象层，负责将VCL产生的比特字符串适配到各种各样的网络和多元环境中，覆盖了所有片级以上的语法级别

在VCL进行数据传输或存储之前，这些编码的VCL数据，被映射或封装进NAL单元(NALU)

H.264结构

整体结构参考如下图

H264码流结构

H264码流分层

NALU单元详解

NAL Header

NAL Header

F：forbidden_zero_bit，在H.264规范中规定该位必须为0
NRI：指示重要性
Type：NALU单元类型

nal_unit_type	说明
0	没有定义
`1-23`	`NAL单元单个 NAL 单元包`
1	非IDR图像中不采用数据划分的片段
2	非IDR图像中A类数据划分片段
3	非IDR图像中B类数据划分片段
4	非IDR图像中C类数据划分片段
5	IDR图像分片
6	补充增强信息单元(SEI)
7	序列参数集（SPS）
8	图像参数集（PPS）
9	分解符
10	序列结束
11	码流结束
12	填充
13-23	保留
24	STAP-A 单一时间的组合包
25	STAP-B 单一时间的组合包
26	MTAP16 多个时间的组合包
27	MTAP24 多个时间的组合包
28	FU-A 分片的单元
29	FU-B 分片的单元
30-31	没有定义

NAL类型介绍
单一类型：一个RTP包只包含一个NALU
组合类型：一个RTP包含多个NALU，类型是24-27
分片类型：一个NALU单元分成多个RTP包，类型是28和29

单一类型

组合类型

分片类型
FU Header

FU Header

S： start bit，用于指明分片的开始
E： end bit，用于指明分片的结束
R： 未使用，设置为0
Type：指明分片NAL类型

Slice片详解

由H264码流分层图可得知，NALU的主体就是Slice(片)，片是H.264提出的新概念，通过编码图片后切分通过高效的方式整合出来的概念。一张图片有一个或者多个片，而片由NALU装载并进行网络传输的。一个Slice包含一帧图像的部分或全部数据，换言之，一帧视频图像可以编码为一个或若干个Slice。一个Slice最少包含一个宏块，最多包含整帧图像的数据。在不同的编码实现中，同一帧图像中所构成的Slice数目不一定相同。设置片的目的是为了限制误码的扩散和传输，应使编码片相互间是独立的。某片的预测不能以其他片中的宏块为参考图像，这样某一片中的预测误差才不会传播到其他片中。

一个Slice由Slice Header + Slice Data构成，如下图所示：

slice

Slice 类型

slice类型	说明
I slice	帧内编码的条带（只包含I宏块）
P slice	单向帧间编码的条带（包含P和I宏块）
B slice	双向帧间编码的条带（包含B和I宏块）
SI slice	切换I条带，用于扩展档次中码流切换使用（一种特殊类型的编码宏块）
SP slice	切换P条带，用于扩展档次中码流切换使用（包含P 和I或 I宏块,用于不同码流之间的切换）

Slice Header
Slice header中主要保存了当前slice的一些全局的信息，slice body中的宏块在进行解码时需依赖这些信息。其中比较常见的一些语法元素有

slice header参数	说明
first_mb_in_slice	第一个宏块在slice的位置
slice_type	slice的类型
pic_parameter_set_id	当前slice所依赖的pps的id；范围 0 到 255
colour_plane_id	当标识位separate_colour_plane_flag为true时，colour_plane_id表示当前的颜色分量，0、1、2分别表示Y、U、V分量
frame_num	表示当前帧序号的一种计量方式
field_pic_flag	场编码标识位。当该标识位为1时表示当前slice按照场进行编码；该标识位为0时表示当前slice按照帧进行编码
bottom_field_flag	底场标识位。该标志位为1表示当前slice是某一帧的底场；为0表示当前slice为某一帧的顶场
idr_pic_id	表示IDR帧的序号。某一个IDR帧所属的所有slice，其idr_pic_id应保持一致。该值的取值范围为[0,65535]
pic_order_cnt_lsb	表示当前帧序号的另一种计量方式
delta_pic_order_cnt_bottom	表示顶场与底场POC差值的计算方法，不存在则默认为0
slice_qp_delta	用于计算当前slice内所使用的初始qp值

slice_type

slice_type值	说明
0	P (P slice)
1	B (B slice)
2	I (I slice)
3	SP (SP slice)
4	SI (SI slice)
5	P (P slice)
6	B (B slice)
7	I (I slice)
8	SP (SP slice)
9	SI (SI slice)

宏块详解

宏块是视频信息的主要承载者。一个编码图像通常划分为多个宏块组成.包含着每一个像素的亮度和色度信息。视频解码最主要的工作则是提供高效的方式从码流中获得宏块中像素阵列。

一个宏块 = 一个16*16的亮度像素 + 一个8×8Cb + 一个8×8Cr彩色像素块组成。(YCbCr 是属于 YUV 家族的一员,在YCbCr 中 Y 是指亮度分量，Cb 指蓝色色度分量，而 Cr 指红色色度分量)

在 H.264 中，句法元素共被组织成序列、图像、片、宏块、子宏块五个层次, 句法元素的分层结构有助于更有效地节省码流。例如，再一个图像中，经常会在各个片之间有相同的数据，如果每个片都同时携带这些数据，势必会造成码流的浪费。更为有效的做法是将该图像的公共信息抽取出来，形成图像一级的句法元素，而在片级只携带该片自身独有的句法元素。宏块的具体结构如下：

宏块结构

宏块结构	说明
mb_type	宏块类型，确定该 MB 是帧内或帧间(P 或 B)编码模式，确定该 MB 分割的尺寸
mb_pred	预测类型，确定帧内预测模式(帧内宏块)确定表 0 或表 1 参考图像，和每一宏块分割的差分编码的运动矢量(帧间宏块，除 8×8 宏块分割的帧内 MB)
sub_mb_pred	预测类型，(只对 8×8MB 分割的帧内 MB)确定每一子宏块的子宏块分割，每一宏块分割的表 0 和/或表 1 的参考图象;每一宏块子分割的差分编码运动矢量
coded_block_pattern	指出哪个 8×8 块(亮度和彩色)包编码变换系数
mb_qp_delta	量化参数的改变值

YUV（YCbCr）

YUV是从电视系统衍生出来的一种颜色编码方法，Y表示明亮度，也就是灰阶值，它是基础信号，U和V表示的则是色度，UV的作用是描述影像色彩及饱和度，它们用于指定像素的颜色。YUV亮度信息（Y）与色彩信息（UV）分离，没有 UV 信息一样可以显示完整的图像，没有UV分量，则只是黑白显示，YUV 不像RGB 那样要求三个独立的视频信号同时传输，而且用 YUV 数据占用的内容更少。

YCbCr 中，Y 是指亮度分量，Cb 指蓝色色度分量，而 Cr 指红色色度分量

像素构成

YUV与RGB的相互转换

RGB转YUV：
Y = 0.299R + 0.587G + 0.114B
Cb = 0.564(B - Y)
Cr = 0.713(R - Y)

YUV转RGB：
R = Y + 1.402Cr
G = Y - 0.344Cb - 0.714Cr
B = Y + 1.772Cb

YUV常见格式

YUV4:2:0:
YUV4:2:0并不意味着只有Y和Cb两个分量，而没有Cr分量。它实际指的是对每行扫描线来说，只有一种色度分量，它以2:1的抽样率存储。例如相邻的扫描行存储不同的色度分量，也就是说，如果一行时4:2:0的话，下一行就是4:0:2，在下一行就是4:0:2，在下一行就是4:2:0进行以此类推
YUV4:2:2
YUV4:4:4

举例一副图片假设像素矩阵如下：

上图中每个像素的 3 个分量的信息是完整的，Y : Cb : Cr = 4 : 4 : 4，属于 YUV444 格式。
人类视觉系统对亮度信号比色度信号敏感的原理，我们可以省略图片的一些信息，对图片的质量影响却不会太大，比如将该像素矩阵存储为：

此时，每两个 Y 共用一组 UV 分量，Y : Cb : Cr = 4 : 2 : 2，属于 YUV422 格式。
同理我们进一步得出YUV420格式如下：

每四个 Y 共用一组 UV 分量，Cb、Cr 交替出现，在第一行数据里 Y : Cb : Cr = 4 : 2 : 0；而在第二行数据，Y : Cb : Cr = 4 : 0 : 2，这就是最常见的 YUV420 格式。

YUV存储格式分类

planar平面存储
I420（YUV420P）: YYYYYYYY UU VV
YV12（YUV420P）：YYYYYYYY VV UU
packed打包存储
NV12（YUV420SP）：YYYYYYYY UVUV
NV21（YUV420SP）：YYYYYYYY VUVU

planar 先存储所有 Y，紧接着存储所有 U，最后是 V；而 packed 则是每个像素点的 Y、U、V 连续交叉存储。

现在我们不管是移动端（安卓和IOS）也好，PC端也好，在转成YUV之后可能出现图像倒置或反转，可能和平台支持的YUV存储格式不同有关，例如安卓默认的是NV21，ios默认是NV12，PC端是I420，屏幕倒置旋转主要原因还是存储格式不一样，要让他们一样就是要做成一个统一的格式

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,012评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,628评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,653评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,485评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,574评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,590评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,596评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,340评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,794评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,102评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,276评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,940评论 5赞 339
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,583评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,201评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,441评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,173评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,136评论 2赞 352