FFmpeg中mp4的demuxer(mov.c)代码阅读

1. 参考

2. 概述

mp4文件格式解析文章对mp4文件格式进行了了解，本文主要从代码角度，学习FFmpeg中对mp4的解析、读取数据和seek等操作的实现。

以下是mp4主要box的示意图，解析部分主要分析这些box。

mp4主要box说明

3. mov_read_header

mov_read_header的调用时机如下图所示。

AVInputFormat.read_header.png

在调用avformat_open_input过程会对mp4文件进行解析。

mov_read_header的工作

检测参数的有效性。
- 比如decryption_key_len的范围。
调用mov_read_default进行root下的box解析。

3.1 mov_read_default

如果box中有剩余没有读取的部分，skip剩余未读取的部分。
如果box读取多于了size指定的大小（这种情况理应不该发生），把读取的位置往回调。
mov_default_parse_table是一个数组，保存了box的type对应解析使用的函数的指针。
在父box还没有读取完毕且还没有到文件结尾的时候，循环地去解析父box下的子box。

static int mov_read_default(MOVContext *c, AVIOContext *pb, MOVAtom atom)
{
    int64_t total_size = 0;
    MOVAtom a;
    int i;
    c->atom_depth ++;
...
    while (total_size <= atom.size - 8 && !avio_feof(pb)) {
        int (*parse)(MOVContext*, AVIOContext*, MOVAtom) = NULL;
        a.size = atom.size;
        a.type=0;
        if (atom.size >= 8) {
            a.size = avio_rb32(pb);
            a.type = avio_rl32(pb);
...
            total_size += 8;
...
        }
...
        a.size -= 8;
...
        for (i = 0; mov_default_parse_table[i].type; i++)
            if (mov_default_parse_table[i].type == a.type) {
                parse = mov_default_parse_table[i].parse;
                break;
            }
...
        if (!parse) { /* skip leaf atoms data */
            avio_skip(pb, a.size);
        } else {
            int64_t start_pos = avio_tell(pb);
            int64_t left;
            int err = parse(c, pb, a);
            if (err < 0) {
                c->atom_depth --;
                return err;
            }
...
        }

        total_size += a.size;
    }
...

    c->atom_depth --;
    return 0;
}

3.2 mov_read_ftyp

读取ftyp box的"major_brand"、"minor_version"、"compatible_brands"信息，保存到AVFormatContext.metadata(AVDictionary结构体)中。
- "major_brand"保存为char *类型。
- "minor_version"保存为int类型。
- "compatible_brands"保存为char *类型。

3.3 mov_read_moov

如果MOVContext.found_moov为1，即发现了重复的moov box(理应不该发生)，直接返回。
如果MOVContext.found_moov为0，调用mov_read_default()来读取子box，把MOVContext.found_moov置为1。

3.4 mov_read_mvhd

读取create_time，通过strftime转换为格式化的字符串的时间表示，保存在AVFormatContext.metadata中。
读取time_scale，保存在MOVContext.time_scale。
- 校验有效性，如果小于等于0则置为1。
读取duration，保存在MOVContext.duration。
根据获取到的time_scale和duration计算为以FFmpeg中AV_TIME_BASE为timescale的时长保存在AVFormatContext.duratinon(int64_t)。
- FFmpeg中AV_TIME_BASE定义为1000000，示例julin_5s.mp4文件的mvhd中duration为5022，timescale为1000，所以计算得到c->fc->duration=5022 * AV_TIME_BASE / 1000 = 5022000(us)

c->fc->duration = av_rescale(c->duration, AV_TIME_BASE, c->time_scale);

读取matrix信息保存到MOVContext.movie_display_matrix
box中其他的字段信息未保存。

3.5 mov_read_trak

使用avformat_new_stream函数在AVFormatContext中新建一个Stream。
创建MOVStreamContext结构体，保存在AVStream.priv_data。
- 用于保存trak box中读取到的一些信息，
读取子box。
一些完整性检查，针对MOVStreamContext中的一些变量。
- sample_count大于0时，chunk_count不应该为0。
- chunk_count大于0时，stts_count、stsc_count不应该为0，sample_size和sample_count不应该同时为0。
- stsc_data的最后一个元素的first_chunk值不应该大于chunk_count。
mov_build_index

建立包含每个sample信息的表，保存在AVStream.index_entries(AVIndexEntry数组)。

typedef struct AVIndexEntry {
    int64_t pos;
    int64_t timestamp; //Timestamp in AVStream.time_base units   
#define AVINDEX_KEYFRAME 0x0001
#define AVINDEX_DISCARD_FRAME  0x0002   
    int flags:2;
    int size:30; 
    int min_distance;   //Minimum distance between this and the previous keyframe, used to avoid unneeded searching. */
} AVIndexEntry;

pos，当前sample相对文件的偏移。
timestamp：当前sample的dts。以AVStream.time_base为单位。
flags：标识，是否为关键帧，或者要舍弃的帧。
size：当前sample的字节大小。
min_distance：距离前一个关键帧的距离，序号的偏差。

建立表的方式是通过遍历stsc表，结合stco、stsz、stss、stts表的信息来完成的。

AVIndexEntry.pos：使用stco(chunk在文件中的偏移)、stsz(每个sample的字节大小)来计算得到。
AVIndexEntry.min_distance和AVIndexEntry.flags：依据stss来获得。
AVIndexEntry.size：通过stsz获得。
代码如下所示(原始代码删去了部分逻辑)

static void mov_build_index(MOVContext *mov, AVStream *st) {
    MOVStreamContext *sc = st->priv_data;
    int64_t current_offset;
    int64_t current_dts = 0;
    unsigned int stts_index = 0;
    unsigned int stsc_index = 0;
    unsigned int stss_index = 0;
    unsigned int stps_index = 0;
    if (!(st->codecpar->codec_type == AVMEDIA_TYPE_AUDIO &&
          sc->stts_count == 1 && sc->stts_data[0].duration == 1)) {
        unsigned int current_sample = 0;
        unsigned int stts_sample = 0;
        unsigned int sample_size;
        unsigned int distance = 0;
        unsigned int rap_group_index = 0;
        unsigned int rap_group_sample = 0;
        int64_t last_dts = 0;
        int64_t dts_correction = 0;
        int rap_group_present = sc->rap_group_count && sc->rap_group;
        int key_off = (sc->keyframe_count && sc->keyframes[0] > 0) || (sc->stps_count && sc->stps_data[0] > 0);
        current_dts -= sc->dts_shift;
        last_dts     = current_dts;
...
        for (i = 0; i < sc->chunk_count; i++) {//遍历每个chunk
            int64_t next_offset = i+1 < sc->chunk_count ? sc->chunk_offsets[i+1] : INT64_MAX;
            current_offset = sc->chunk_offsets[i];//当前chunk的文件位置偏移。
            while (mov_stsc_index_valid(stsc_index, sc->stsc_count) &&
                i + 1 == sc->stsc_data[stsc_index + 1].first)//(i+1)等于下一组chunk的first_chunk的时候，stsc_index后移指向下一组chunk。
                stsc_index++;
...
            for (j = 0; j < sc->stsc_data[stsc_index].count; j++) {//遍历chunk中的每个sample。
...
                int keyframe = 0;
                if (!sc->keyframe_absent && (!sc->keyframe_count || current_sample+key_off == sc->keyframes[stss_index])) {//判断是否是关键帧的条件。
                    keyframe = 1;
                    if (stss_index + 1 < sc->keyframe_count)
                        stss_index++;//stss表指向一下个关键帧。
                } 
...
                if (sc->keyframe_absent
                    && !sc->stps_count
                    && !rap_group_present
                    && (st->codecpar->codec_type == AVMEDIA_TYPE_AUDIO || (i==0 && j==0)))
                     keyframe = 1;
                if (keyframe)
                    distance = 0;
...
                    e = &st->index_entries[st->nb_index_entries++];
                    e->pos = current_offset;
                    e->timestamp = current_dts;
                    e->size = sample_size;
                    e->min_distance = distance;
                    e->flags = keyframe ? AVINDEX_KEYFRAME : 0;
...
                    if (st->codecpar->codec_type == AVMEDIA_TYPE_VIDEO && st->nb_index_entries < 100)
                        ff_rfps_add_frame(mov->fc, st, current_dts);
                }

                current_offset += sample_size;//sample的文件位置偏移向后移动当前sample的大小
...
//更新current_dts和last_dts
                current_dts += sc->stts_data[stts_index].duration;
                if (!dts_correction || current_dts + dts_correction > last_dts) {
                    current_dts += dts_correction;
                    dts_correction = 0;
                } else {
                    /* Avoid creating non-monotonous DTS */
                    dts_correction += current_dts - last_dts - 1;
                    current_dts = last_dts + 1;
                }
                last_dts = current_dts;
                distance++;//与前一个关键帧的距离更新
                stts_sample++;//stts_sample是针对stts，sample在每个entry中的序号，不是实际的序号。
                current_sample++;//更新当前sample的序号。
                if (stts_index + 1 < sc->stts_count && stts_sample == sc->stts_data[stts_index].count) {//stts_data[stts_index]中的sample都遍历完了。
                    stts_sample = 0;
                    stts_index++;
                }
            }
        }
        if (st->duration > 0)
            st->codecpar->bit_rate = stream_size*8*sc->time_scale/st->duration;
  }
...
    // Update start time of the stream.
    if (st->start_time == AV_NOPTS_VALUE && st->codecpar->codec_type == AVMEDIA_TYPE_VIDEO && st->nb_index_entries > 0) {
        st->start_time = st->index_entries[0].timestamp + sc->dts_shift;
        if (sc->ctts_data) {
            st->start_time += sc->ctts_data[0].duration;
        }
    }

    mov_estimate_video_delay(mov, st);

3.6 mov_read_tkhd

读取flags，如果flags开启了MOV_TKHD_FLAG_ENABLED则，AVStreamst.disposition置为AV_DISPOSITION_DEFAULT，否则置为0。 具体的作用，尚未了解
读取track id，保存到AVStream.id。
读取matrix，根据matrix和读mvhd得到的MOVContext.movie_display_matrix计算的到res_display_matrix，保存到MOVStreamContext.display_matrix。具体的作用，尚未了解
- 根据MOVStreamContext.display_matrix一通计算得到AVStream.sample_aspect_ratio。具体的作用，尚未了解

3.7 mdia(mov_read_default)

3.8 mdhd(mov_read_mdhd)

一些异常检查。
- AVFormatContex中没有AVStream的数量小于1，直接返回。
- 检测到重复的mdhd box，返回错误。
- version 大于1，返回错误。
读取creation_time，通过strftime转换为格式化的字符串的时间表示，保存在AVStream.metadata(AVDictionary结构体)中。
读取time_scale，保存在MOVStreamContext.time_scale。
- 校验有效性，如果小于等于0则置为1。
读取duration，保存在AVStream.duration。
读取language，保存在AVStream.metadata中，char*的形式，key值为"language"。

3.9 hdlr(mov_read_hdlr)

读取handler_type。
- 如果handler_type为"vide"、"soun"或"subp"，设置AVStream->codecpar->codec_type为AVMEDIA_TYPE_VIDEO、AVMEDIA_TYPE_AUDIO或AVMEDIA_TYPE_SUBTITLE。
- 如果handler_type为"m1a"，设置AVStream->codecpar->id为AV_CODEC_ID_MP2。
- 读取name，保存到AVStream.metadata，key为"handler_name"，类型为char *。

3.10 minf(mov_read_default)

3.11 stbl(mov_read_default)

3.12 stsd(mov_read_stsd)

一些异常检查。
- AVFormatContex中没有AVStream的数量小于1，直接返回。
- 读取到的entry数量<=0或者超过最大可能的数，则返回错误。
- 检测到重复的mdhd box，返回错误。
读取version，保存到MOVStreamContext.stsd_version。
读取format，保存到MOVStreamContext.format。
- 根据format，找到相应的codec_id，赋值给AVStream->codecpar->codec_id。
对于视频(即handler_type为"vide")
- 读取width和height保存到AVStream.codecpar的width和height。
- 读取compressorname，即编码器的名称到AVStream.metadata，key为"encoder"，类型为char *。
- 读取depth，即位深，保存到AVStream.codecpar->bits_per_coded_sample。
对于音频(即handler_type为"soun")
- 读取channelcount保存到AVStream.codecpar->channels。
- 读取samplesize，即采样比特，保存到AVStream->codecpar->bits_per_coded_sample。
- 读取audio channel id，保存到MOVStreamContext.audio_cid。
- 读取samplerate，保存到AVStream->codecpar->sample_rate。
读取额外的box，比如wave, alac, damr, avcC, hvcC, SMI等。

3.13 stts(mov_read_stts)

一些异常检查。
读取time to sample表到MOVContext.stts_data(MOVStts数组)。

typedef struct MOVStts {
    unsigned int count;
    int duration;
} MOVStts;

根据stts表，统计sample总数，保存到AVStream.nb_frames。
根据stts表，统计时长duration。
- 校正AVStream.duration，注意mdhd中有读取duration信息到AVStream.duration。
- 保存到MOVContext.track_end。

if (duration)
        st->duration= FFMIN(st->duration, duration);

3.14 ctts(mov_read_ctts)

读取composition time to sample表到MOVContext.ctts_data(MOVStts数组)。
更新MOVStreamContext.dts_shift。

3.15 stss(mov_read_stss)

如果读取到的entries值为0且此媒体类型为video，则AVStream.need_parsing置为AVSTREAM_PARSE_HEADERS。
读取关键帧序号数组，保存到MOVStreamContext.keyframes(int 数组)。
统计到的关键帧数组元素的数量保存到MOVStreamContext.keyframe_count。

3.16 stsz/stz2(mov_read_stsz)

读取sample_size，保存到MOVStreamContext.stsz_sample_size。
如果是stz2 box，读取field_size。stsz box时field_size设置为32。
读取entries，保存到MOVStreamContext.sample_count。
如果sample_size不为0，返回。
保存sample_size的数组到MOVStreamContext.sample_size(int 数组)
总计的sample的size总和保存到MOVStreamContext.data_size。
统计到的sample_size数组的元素的个数保存到MOVStreamContext.sample_count。

3.17 stsc(mov_read_stsc)

读取sample to chunk表，保存到MOVStreamContext.stsc_data(MOVStsc数组)

typedef struct MOVStsc {
    int first;
    int count;
    int id;
} MOVStsc;

统计到的MOVStsc元素的个数保存到MOVStreamContext.stsc_count。
对数组做一些有效性检查并校正。

3.18 stco/co64(mov_read_stco)

读取chunk offset 表保存到MOVStreamContext.chunk_offsets(int64_t数组)
数组元素的个数保存到MOVStreamContext.chunk_count。

3.19 mdat(mov_read_mdat)

如果body的size为0，则返回0。
否则，MOVContext.found_mdat置为1。

4. mov_read_packet

mov_read_packet的调用时机如下图所示：

av_read_frame.png

mov_read_packet中的主要工作：

mov_find_next_sample
avio_seek
av_get_packet
pkt->dts = ...; pkt->pts = ..; ...

mov_find_next_sample找到要读取的sample和对应的AVStream。
avio_seek(sc->pb, sample->pos, SEEK_SET); 将文件的指针定位到文件的偏移处
av_get_packet(sc->pb, pkt, sample->size); 从文件的偏移读取size的数据到AVPacket中。
计算AVPacket的dts和pts。

4.1 mov_find_next_sample

static AVIndexEntry *mov_find_next_sample(AVFormatContext *s, AVStream **st)
{
    AVIndexEntry *sample = NULL;
    int64_t best_dts = INT64_MAX;
    int i;
    for (i = 0; i < s->nb_streams; i++) {
        AVStream *avst = s->streams[i];
        FFStream *const avsti = ffstream(avst);
        MOVStreamContext *msc = avst->priv_data;
        if (msc->pb && msc->current_sample < avsti->nb_index_entries) {
            AVIndexEntry *current_sample = &avsti->index_entries[msc->current_sample];
            int64_t dts = av_rescale(current_sample->timestamp, AV_TIME_BASE, msc->time_scale);
            av_log(s, AV_LOG_TRACE, "stream %d, sample %d, dts %"PRId64"\n", i, msc->current_sample, dts);
            if (!sample || (!(s->pb->seekable & AVIO_SEEKABLE_NORMAL) && current_sample->pos < sample->pos) ||
                ((s->pb->seekable & AVIO_SEEKABLE_NORMAL) &&
                 ((msc->pb != s->pb && dts < best_dts) || (msc->pb == s->pb && dts != AV_NOPTS_VALUE &&
                 ((FFABS(best_dts - dts) <= AV_TIME_BASE && current_sample->pos < sample->pos) ||
                  (FFABS(best_dts - dts) > AV_TIME_BASE && dts < best_dts)))))) {
                sample = current_sample;
                best_dts = dts;
                *st = avst;
            }
        }
    }
    return sample;
}

如果流的输入和文件的输入不是同一个文件，(msc->pb != s->pb && dts < best_dts)，则选择dts更小的流。
如果流的输入和文件的输入是同一个文件且dts的差异小于AV_TIME_BASE（即1s）则选择pos更小的那个流的packet，即offset更小的那个packet，如果大于1s，则选择dts更小的那个流的packet。这里的dts是算上editlist作用后的dts。

4.2 计算AVPacket的dts和pts。

//mov_read_packet()
    pkt->dts = sample->timestamp;
    if (sample->flags & AVINDEX_DISCARD_FRAME) {
        pkt->flags |= AV_PKT_FLAG_DISCARD;
    }
    if (sc->ctts_data && sc->ctts_index < sc->ctts_count) {
        pkt->pts = pkt->dts + sc->dts_shift + sc->ctts_data[sc->ctts_index].duration;
        /* update ctts context */
        sc->ctts_sample++;
        if (sc->ctts_index < sc->ctts_count &&
            sc->ctts_data[sc->ctts_index].count == sc->ctts_sample) {
            sc->ctts_index++;
            sc->ctts_sample = 0;
        }
    } else {
        int64_t next_dts = (sc->current_sample < st->nb_index_entries) ?
            st->index_entries[sc->current_sample].timestamp : st->duration;

        if (next_dts >= pkt->dts)
            pkt->duration = next_dts - pkt->dts;
        pkt->pts = pkt->dts;
    }
    if (st->discard == AVDISCARD_ALL)
        goto retry;
    pkt->flags |= sample->flags & AVINDEX_KEYFRAME ? AV_PKT_FLAG_KEY : 0;
    pkt->pos = sample->pos;

dts为sample->timestamp。
如果有ctts表(创建时间与编码时间的差值表)，根据ctts表计算pts。pkt->pts=pkt->dts + sc->dts_shift + sc->ctts_data[sc->ctts_index].duration,不知道为什么要加上sc->dts_shift？
如果没有ctts表，pkt->pts = pkt->dts，并且计算pkt->duration== next_dts - pkt->dts

5. mov_read_seek

mov_read_seek的调用时机如下所示。

AVInputFormat.read_seek

未完待续。。

6. mov_read_close

avformat_close_input
  - AVInputFormat.read_close --> mov_read_close

释放各种申请的资源和内存。比如MOVContext和MOVStreamContext中申请的各种内存。

static int mov_read_close(AVFormatContext *s)
{
    MOVContext *mov = s->priv_data;
    int i, j;

    for (i = 0; i < s->nb_streams; i++) {
        AVStream *st = s->streams[i];
        MOVStreamContext *sc = st->priv_data;

        if (!sc)
            continue;
...
        if (!sc->pb_is_copied)
            ff_format_io_close(s, &sc->pb);

        sc->pb = NULL;
        av_freep(&sc->chunk_offsets);
        av_freep(&sc->stsc_data);
        av_freep(&sc->sample_sizes);
        av_freep(&sc->keyframes);
        av_freep(&sc->stts_data);
...
    return 0;
}