【Android音视频开发】视频编码原理

文章版本号 变更内容 变更日期 备注
0.0.1 创建 2022/9/30 初版
0.0.2 补充视频编码原理内容 2022/10/10 完成初版编写

1. 前言

在【Android音视频开发】 这一系列文章的开头,介绍一下音视频编码的原理是很有必要的,有利于对后续出现的概念的理解。我的上一篇文章已经对音频的编码原理进行了介绍,还没看过的小伙伴可以点这里阅读,在这篇文章中我将按照同样的思路介绍一下视频的编码原理。

2. 正文

2.1 图像的本质

物体对可见光的反射,经由人眼接收后在视网膜上成像,就形成了我们所看到的“图像”。人眼可以看作一台高达5.76亿像素的“超级相机”,而对于这个“超级相机”而言,图像其实就是大量像素点(带有颜色的点)的组合-这也就是图像的本质。

2.1.1 图像的相关概念

  • 像素(点):图像由多个“带有颜色的点”组成,这里提到的“带有颜色的点”被称为像素点,像素点是构成图像的基本单位,一幅图像由多个像素点组成。例如1080p的图像就由1920x1080=2073600个像素点组成,也可以说这个图像是200万像素的,1920x1080也被称为分辨率。
  • 分辨率:图像横竖两个方向上容纳像素点的数量,分辨率越大图像越清晰、越细腻。

2.1.2 像素点的颜色表示

  • 三原色:每种颜色都能由红(Red)、绿(Green)、蓝(Blue)三种颜色调制出来,因此红绿蓝称为三原色,计算机中用RGB表示。
  • 基色分量:R\G\B也被称为“基色分量”,在计算机中每个基色分量占用的空间为8bit(1byte),因此每个基色分量的取值范围为0(0b0000 0000)~255(0b1111 1111),即256个取值。
    三个基色分量组合起来能表示的颜色有256x256x256=1677 7216种,也可简称为1600万色和24位色,这个颜色范围已经超过了人眼可见的所有颜色,所以又叫真彩色。再高的话对于人眼来说已经没有意义了,因为识别不出来。

除了使用RGB颜色模型来表示色彩外,常用的颜色模型还有YUV颜色模型,后面会提到。

2.2 视频的本质

视频,其实就是一张张图像的连续播放。 当图像的切换速度达到或超过一定数值时,对人眼来说,看到的就是我们认知中的视频效果了,这里提到的“切换速度”就是我们常说的帧率。人眼舒适放松时的可视帧数是每秒24帧(即帧率为24),集中精神时不超过30帧,眨眼时睁开眼瞬间可以捕捉到的帧数是30帧以上。

2.2.1 视频中的基本概念

(视频)帧:是视频的一个基本概念,表示一张图像,如翻页动画书中的一页,就是一帧。一个视频就是由许许多多帧组成的。

帧率:单位时间(1秒)内显示的视频帧数量,单位为:帧/秒 或 fps(frames per second),帧率越大,画面越顺滑,过渡越自然。
帧率的几个典型值:

  • 24/25 fps:1 秒 24/25 帧,一般的电影帧率;
  • 30/60 fps:1 秒 30/60 帧,游戏的帧率,30 帧可以接受,60 帧会感觉更加流畅逼真。
  • 85 fps 以上人眼基本无法察觉出来了,所以更高的帧率在视频里没有太大意义。

色彩空间:像素点颜色值的取值空间。常用的有两种,RGB 和 YUV,也可以称为颜色模型。
RGB在上面有介绍了,下面主要介绍一下YUV颜色模型(该颜色模型在后续讲视频编解码时会多次用到)。

2.2.1.1 YUV颜色模型

早期的电视都是黑白的 ,即只有亮度值 Y。有了彩色电视以后,加入了 UV 两种色度,两者组合形成了现在的 YUV,也叫 YCbCr:

  • Y:亮度,就是灰度值 。除了表示亮度信号外,还含有较多的绿色通道量;
  • U:蓝色通道与亮度的差值;
  • V:红色通道与亮度的差值。
YUV颜色模型的优势:

人眼对亮度敏感,对色度不敏感,因此减少部分 UV 的数据量,人眼无法感知出来,这样可以通过压缩 UV 的分辨率,在不影响观感的前提下,减小视频的体积。

YUV与RGB的换算公式:

Y = 0.299R + 0.587G + 0.114B
U = -0.147R - 0.289G + 0.436B
V = 0.615R- 0.515G - 0.100B
R = Y + 1.14V
G = Y - 0.39U - 0.58V
B = Y + 2.03U

常用的YUV编码格式:
  • YU12 (I420/YUV420P)
  • YV12
  • I422(YUV422P)
  • NV12(YUV420SP)
  • NV21(Android 相机(Camera)默认的输出格式)

对于YUV格式的详细介绍可以去看这篇文章,在这里我就不赘述了。

2.3 视频编码原理

编码:就是按指定的方法,将信息从一种形式(格式),转换成另一种形式(格式)。
视频编码:就是将一种视频格式,转换成另一种视频格式。


视频的编码原理与音频编码类似,也是通过减少冗余量进行压缩编码,不过与音频编码不同的是,视频编码利用的是人眼在视频观测上的冗余

2.3.1 未编码的视频有多大

以一个分辨率1920×1280,帧率30的视频为例,每帧图像为1920×1280=2,073,600(Pixels 像素),每个像素点是24bit(RGB颜色模型,每个颜色分量为1byte=8bit),也就是每幅图片为2073600×24=49766400 bit,即49766400bit=6220800byte≈6.22MB,这是一幅1920×1280图片的原始大小,还要乘以帧率30。
也就是说:每秒视频的大小是186.6MB,每分钟大约是11GB,一部90分钟的电影,约是1000GB。
这样庞大的数据量对传输和存储的技术、成本要求都是巨大的,因此对视频进行编码压缩是很有必要的。

2.3.2 视频图像存在的冗余



视频图像中存在的冗余主要有上方表格所示的几类,视频编码的目的就在于在尽可能去除上面的这些冗余量的同时保留最好的图像效果。
而在这几类冗余中,视频编码技术优先消除的目标是空间冗余和时间冗余。接下来,就和大家介绍一下,究竟需要采用什么样的办法,才能干掉它们。

2.3.3 编码技术实现

视频是由不同的帧画面连续播放形成的。
这些帧,主要分为三类,分别是:

  1. I帧;
  2. B帧;
  3. P帧。

I帧:是自带全部信息的独立帧,是最完整的画面(占用的空间最大),无需参考其它图像便可独立进行解码。视频序列中的第一个帧,始终都是I帧。
B帧:“双向预测编码帧”,以前帧后帧作为参考帧。不仅参考前面,还参考后面的帧,所以,它的压缩率最高,可以达到200:1。不过,因为依赖后面的帧,所以不适合实时传输(例如视频会议)。

P帧:“帧间预测编码帧”,需要参考前面的I帧和/或P帧的不同部分,才能进行编码。P帧对前面的P和I参考帧有依赖性。但是,P帧压缩率比较高,占用的空间较小(相对于I帧)。

通过对帧的分类处理,可以大幅压缩视频的大小。毕竟,要处理的对象,大幅减少了(从整个图像,变成图像中的一个区域)。

帧分类压缩示意图.png

我们来通过一个例子看一下。
这有两个帧:

好像是一样的?
不对,将这两个图做成GIF动图,就能看出来,是不一样的:

人在动,背景是没有在动的,两张图之间的差值如下:

也就是说,图一到图二,只有部分像素进行了移动。移动轨迹如下:

在已知图一信息的情况下,只需要知道这些移动轨迹,就能参考得出图二,这个,就是运动估计和补偿。

当然了,如果总是按照像素来算,数据量会比较大,所以,一般都是把图像切割为不同的“块(Block)”或“宏块(MacroBlock)”,对它们进行计算。一个宏块一般为16像素×16像素。

好了,我来梳理一下。对I帧的处理,是采用帧内编码方式,只利用本帧图像内的空间相关性。对P帧的处理,采用帧间编码(前向运动估计),同时利用空间和时间上的相关性。简单来说,采用运动补偿(motion compensation)算法来去掉冗余信息。

需要特别注意,I帧(帧内编码),虽然只有空间相关性,但整个编码过程也不简单。

如上图所示,整个帧内编码,还要经过DCT(离散余弦变换)、量化、编码等多个过程。限于篇幅,加之较为复杂,这里就不过多解释了。
那么,视频经过编码解码之后,如何衡量和评价编解码的效果呢?
一般来说,分为客观评价主观评价客观评价,就是拿数字来说话。例如计算信噪比/峰值信噪比

信噪比的计算,我就不介绍了,丢个公式,有空可以自己慢慢研究。

除了客观评价,就是主观评价了。主观评价,就是用人的主观感知直接测量,说人话就是——“好不好看我说了算”。比如用两种编码方式编码出来的两个视频,在你的观感上哪个更清晰、流畅,在你看来更清晰流畅的,就是在主观评价上来说编码效果更好的。

2.4 视频编码格式

发展历史:

发展史示意图中最后提到的HEVC,就是我们如今常说的H.265格式。
H.265作为一种新编码标准,相比H.264有极大的性能提升,目前已经成为最新视频编码系统的标配。

2.5 (音)视频封装格式

对于任何一部视频来说,只有图像,没有声音,肯定是不行的。所以,视频编码后,要加上音频编码,一起进行封装。
封装:就是封装格式,简单来说,就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中。再通俗点,视频轨相当于饭,而音频轨相当于菜,封装格式就是一个饭盒,用来盛放饭菜的容器。

目前主要的视频封装格式有如下几种:MPG、VOB、MP4、3GP、ASF、RMVB、WMV、MOV、Divx、MKV、FLV、TS/PS等。
封装之后的视频,就可以传输了,也可以通过视频播放器进行解码观看。

参考文献

  1. 人眼是多少分辨率
  2. 人眼到底能看多少帧?
  3. 视频的基本概念
  4. 详解 YUV 格式(I420/YUV420/NV12/NV12/YUV422)
  5. 视频编码技术详解
  6. 浅谈视频编码的原理
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容