1、iOS客户端要实现直播功能,需要经过流程为:
采集-处理-编码-封包-推流-播放
采集:
视频通过摄像头进行采集,需要用到iOS底层库AVCaptureSession,音频通过麦克风进行采集,需要用到底层库AudioMedia
处理:
对视频加美颜、水印,主要使用openGL来实现,GPUImage是一个基于openGL一个强大的图像/视频处理框架,封装好了各种滤镜同时也可以编写自定义的滤镜,其本身内置了多达120多种常见的滤镜效果。
编码:
不管是视频,还是音频,最好使用硬编,可以减少手机的发热量,效率也比较高。视频编码可以使用VideoToolbox,苹果自带的视频硬解码和硬编码API,但是在iOS8之后才开放。音频采用AudioToolbox ,苹果自带的音频硬解码和硬编码API。
封包和推流:
使用CDN即分发网络,将视频和音频推送到观众端,可以看到直播内容。虽然分发网络和iOS客户端没有关系,但是作为直播app,还是有优化空间的,比如动态码率优化,码率很高的话,需要的流量会很多,要求网速快,当网速很慢的情况下,需要对画面的质量或者说分辨率进行取舍,让码率降下来,以适应网络环境差的情况。
播放:
播放器可以做一些优化,当网络卡的情况下,主播这边还是在不断地推流,播放器将推流的信息缓存下来,进行播放,卡得越频繁,造成得延迟就越大,所以要做累计延迟优化,也就是在缓存很多信息时,可以选择性地将中间一些东西丢掉,因为对于直播而言,实时性是很重要得。
2、为了节省成本,可以使用第三方sdk,进行直播功能的快速集成,例如阿里云、百度直播云、七牛云等。
使用第三方sdk实现流程:
当主播进行直播时,客户端扮演的角色是采集端,将视频推流到实时流网络中;当观众观看直播时,客户端扮演的是播放端,将音视频从网络地址拉流,进行播放。这两个逻辑需要分开来写。
第一种:采集端:
采集端会向业务服务器(我们自己的服务器)获取授权的推流地址,业务服务器判断是否是被认同的客户端发来的请求,然后向第三方sdk请求推流地址,返回给客户端,客户端就可以向实时流网络进行推流了。
第二种:播放端:
播放端需要向业务服务器请求获取播放地址,通过播放sdk就可以播放了。播放的时候会用到直播的不同的协议,区别如下图:
HLS是苹果推出的协议,虽然延时比较大,在Mac下面跑播放器会有严重的发热,但是一个优势是可以跨平台,在不同的浏览器上进行播放
3、开发细节:
首屏秒开:从点击进到一个直播房间,到第一帧渲染开始播放,时间不超过1秒
实现原理:
现在视频解码最多的就是H.264编码,对于H.264编码来说,会有三个不同的帧,所谓帧就是你看到的每一个图像。我们看到动态的视频,大家知道电影最开始用胶片拍的时候,每秒是25帧,是每秒25个图片在切换。对于H.264来讲,我们常见的有I帧,P帧,和B帧。I帧,B帧,P帧它是怎么组成一个视频流呢?我们管这个东西叫Group Of Picture,简称叫GoP。IDR帧(关键帧)是I帧,但I帧并不一定是IDR帧。那么对于直播来讲,我是一个随机的时间点接到这个视频流进行播放,那么我接入的这个时间点的帧有可能拿到的第一个帧的数据是I帧,也有可能是B帧,也有可能是P帧。这是一个随机的。在这种情况下,我们大概率会出现一个黑屏的状态。因为我拿到的是个P帧,对于P帧来讲,解码器面那个Buffer是空的,它不知道这个P帧如何进行解码,所以它只能丢弃这个帧。对于直播来讲,我一秒钟的帧数是固定的,只能等到我下一个关键帧到来的时候,我才能开始去播放。当然正好赶巧了的话,接入那瞬间得到的数据正好是个I帧。就可以达到秒开的效果。
所以我们要保证每次进来的时候都是从I帧开始播放的,其实是在cache服务器上,它会去预先解一下这个帧,然后去看它到底是个I帧,还是个B帧,还是个P帧,当它发现是I帧的时候,它会放在它的程序的内存里头,当你每一次打开这个视频流的时候,cache服务器会把内存中的I帧发送给客户端比如当前播放到了P帧,那我把P帧前面的I帧和P帧全波放到cache的内存里,然后当客户端接入之后先把内存里的数据发送给客户端解码器,然后再从这个B帧往后给。对于这个解码器来讲,它很舒服,它接到第一个数据流的第一个包肯定是I帧,那么它就可以直接播放了。
具体细节参考网址:https://blog.csdn.net/wishfly/article/details/53079303
弱网丢帧优化:在网络不好的情况下发生,解决:降码率:降低画面质量和分辨率等,窄带高清:简单来说就是搞一个服务,能够在超低码率下,让你的直播不模糊,阿里云和腾讯云都有。动态降码率:前面有提到过。
整体延迟优化:在网络不好的情况下,缓存内容增多,造成延迟增大,为了保证延迟不会太大,需要选择性地丢掉一些帧。