首先我们先看一下kafka索引的类关系
可以看出索引主要分成三种,位移索引,时间戳索引和事务索引,都继承于AbstractIndex
这个抽象类,我们看看AbstractIndex的定义
abstract class AbstractIndex[K, V](@volatilevar file: File, val baseOffset: Long, val maxIndexSize: Int = -1, val writable: Boolean)
file是索引文件,baseOffset是索引的起始值,
maxIndexSize是索引的最大字节数,就是 Broker 端参数 segment.index.bytes 的值10MB
writable是索引文件的打开方式
AbstractIndex使用了MappedByteBuffer来存储索引,使用内存映射文件的主要优势在于,
它有很高的 I/O 性能,特别是对于索引这样的小文件来说,由于文件内存被直接映射到
虚拟内存上,访问内存映射文件的速度要快于普通的读写文件速度,在linux中,
这段映射的内存区域实际上就是内核的页缓存(Page Cache)。这就意味着里面的
数据不需要重复拷贝到用户态空间,避免了很多不必要的时间、空间消耗。
通过往MappedByteBuffer对象里put相对位移和物理位置信息放在页缓存,从而通过
改进版的二分查找定位到日志文件的物理地址。
Kafka中的消息位移值是一个长整型,因为创建索引对象的时候,是知道起始索引baseOffset
的值的,所以只需要保存与baseOffset的差值即可,每个索引项可以省4个字节。
通过toRelative将传入的long型位移转成int的相对位移
时间戳索引也类似,区别是保存时间戳需要8个字节,通过时间戳索引可以定位到位移值。
kafka默认是每写入4KB消息就生成一个索引,所以是稀疏索引,通过时间戳索引找到
满足要求的消息位移值,再根据位移值定位到物理位置,然后根据entrySize8字节乘以
目标项和当前索引项的差值加上当前物理位置即可定位到目标物理位置
Page Fault
大多数操作系统使用页缓存来实现内存映射,而目前几乎所有的操作系统都用
LRU(Least Recently Used)或类似于 LRU 的机制来管理页缓存,所以有的缓存页
会由于长时间没被访问而被提出缓存,举个例子,kafka的某个索引占据了page cache的
13页,最新的数据所在的页通常是当前访问最频繁的页,通过二分法操作顺序是
0、6、9、11 、12,假如由于数据的写入,最新的索引项被保存到13了,那么二分查找的
顺序就变成#0、7、10、12 和 13,由于LRU机制,之前的0、6、9、11 、12肯定被缓存着,
那么新查找的7和10这两页是大概率是不在缓存中的,所以发生Page Fault,需要把冷数据
从磁盘中加载到页缓存,这个加载过程是耗时的,为了避免这种问题,kafka不是对所有
索引项进行二分查找,而是把数据分成冷热数据,从而避免无意义的Page Fault