在拥有复杂功能的现代操作中,对数据包的存储要求是非常严格的。因为其中涉及数据包在不同网络层之间传递,需要灵活增减包头,以及移动过程中尽可能避免拷贝。这在linux网络系统中,使用sk_buff数据结构来承担传递数据包的功能,也有些地方简写做SKB。
SKB的操作函数和宏涉及以下文件:
inlude/linux/skbuff.h
,SKB结构定义和SKB宏。
net/core/skbuff.c
,操作SKB的函数。
SKB的数据结构定义非常长,有100多行,但这里要讲的是其中真正需要注意的有五个变量:
unsigned char *head 用于指向数据包的开始
unsigned char *data 用于指向数据包载荷的开始
unsigned char *tail 用于指向数据包载荷的结束
unsigned char *end 用于指向数据包的结束
unsigned int len 数据包包含的数据量
它在实际应用中是这样发挥作用的。设skb指向一个sk_buff,当数据包穿过协议栈各层时,skb->head,skb->data,skb->tail以及skb->end在数据包相关缓冲区上移动。如下图所示,指向正在处理数据包的协议栈头部。当一个数据包到达mac层时,skb->data指向以太网帧头部,当数据包继续到达IP层时,skb->data就移到IP头部的起始处。与此同时,skb->len也会更新。
这样的设计就是为了便于SKB数据结构在不同层之间灵活地增删头部,另外它还是一个双向链表,便于把不同的SKB串联起来,这也是Linux网络处理的一个优化,叫做“聚合分散IO”,也就是Linux网络处理中的零拷贝。由于有些报文发送时,会有多个分片,如果依次拷贝这些分片组装成一个单块,就会存在从用户空间多次内存拷贝到内核空间巨大的开销。因此聚合分散IO的想法就是在SKB上标注分片数目,将其他分片链接到第一个,在此过程中只拷贝记录分片数据位置和长度的数据缓存区到SKB中,而避免多次的数据包拷贝,而后由DMA模块直接将数据从内核缓冲区传递给协议模块。
了解了SKB在不同网络层之间的传递,那么在网卡收到数据包的时候,SKB的分配和接收数据包流程又是怎样呢。在此需要先介绍几个与SKB接收数据包相关的函数:dev_alloc_skb()、skb_reserve()、skb_put()、netif_rx(skb)。
下图显示了这些函数在SKB层面上的作用。
实际运行中,前两步(dev_alloc_skb()和skb_reserve())是在初次预分配环形接收缓冲区时执行的,第三步是由NIC硬件在将DMA接收数据存入预分配的sk_buff时完成的,最后两步(skb_put()和netif_rx())则从接收中断服务例程开始执行。
其中dev_alloc_skb()创建sk_buff来存放接收到的数据包,sk_buff的创建是从Slab内存分配器中直接分配的小于4K的高速缓存(Slab内存分配器以后再讲)。这是一个可在中断上下文执行的函数,它为skb_buff分配内存并将其与一个数据包载荷缓冲区关联。dev_kfree_skb()完成dev_alloc_skb()的相反功能,释放缓冲区。接下来调用的skb_reserve()在数据包缓冲的起始和载荷的开始之间增加一个2B的填充位。这使IP头能在16B边界处开始(因为对齐的原因,这通常意味着性能更佳),因为前面的以太网头部是14B。剩下的代码用收到的数据包填充载荷缓冲区,并移动skb->data,skb->tail以及skb->len来表示这种操作。
参考自《Linux源码剖析——TCP/IP实现》