Linux套接口缓存——sk_buff

在拥有复杂功能的现代操作中，对数据包的存储要求是非常严格的。因为其中涉及数据包在不同网络层之间传递，需要灵活增减包头，以及移动过程中尽可能避免拷贝。这在linux网络系统中，使用sk_buff数据结构来承担传递数据包的功能，也有些地方简写做SKB。

SKB的操作函数和宏涉及以下文件：
inlude/linux/skbuff.h，SKB结构定义和SKB宏。
net/core/skbuff.c，操作SKB的函数。

SKB的数据结构定义非常长，有100多行，但这里要讲的是其中真正需要注意的有五个变量：

unsigned char *head     用于指向数据包的开始
unsigned char *data      用于指向数据包载荷的开始
unsigned char *tail      用于指向数据包载荷的结束
unsigned char *end      用于指向数据包的结束
unsigned int len      数据包包含的数据量

它在实际应用中是这样发挥作用的。设skb指向一个sk_buff，当数据包穿过协议栈各层时，skb->head，skb->data，skb->tail以及skb->end在数据包相关缓冲区上移动。如下图所示，指向正在处理数据包的协议栈头部。当一个数据包到达mac层时，skb->data指向以太网帧头部，当数据包继续到达IP层时，skb->data就移到IP头部的起始处。与此同时，skb->len也会更新。

skb->data在不同网络层的变化.png

这样的设计就是为了便于SKB数据结构在不同层之间灵活地增删头部，另外它还是一个双向链表，便于把不同的SKB串联起来，这也是Linux网络处理的一个优化，叫做“聚合分散IO”，也就是Linux网络处理中的零拷贝。由于有些报文发送时，会有多个分片，如果依次拷贝这些分片组装成一个单块，就会存在从用户空间多次内存拷贝到内核空间巨大的开销。因此聚合分散IO的想法就是在SKB上标注分片数目，将其他分片链接到第一个，在此过程中只拷贝记录分片数据位置和长度的数据缓存区到SKB中，而避免多次的数据包拷贝，而后由DMA模块直接将数据从内核缓冲区传递给协议模块。

了解了SKB在不同网络层之间的传递，那么在网卡收到数据包的时候，SKB的分配和接收数据包流程又是怎样呢。在此需要先介绍几个与SKB接收数据包相关的函数：dev_alloc_skb()、skb_reserve()、skb_put()、netif_rx(skb)。

下图显示了这些函数在SKB层面上的作用。

SKB接收数据包相关函数.png

实际运行中，前两步（dev_alloc_skb()和skb_reserve()）是在初次预分配环形接收缓冲区时执行的，第三步是由NIC硬件在将DMA接收数据存入预分配的sk_buff时完成的，最后两步（skb_put()和netif_rx()）则从接收中断服务例程开始执行。

其中dev_alloc_skb()创建sk_buff来存放接收到的数据包，sk_buff的创建是从Slab内存分配器中直接分配的小于4K的高速缓存（Slab内存分配器以后再讲）。这是一个可在中断上下文执行的函数，它为skb_buff分配内存并将其与一个数据包载荷缓冲区关联。dev_kfree_skb()完成dev_alloc_skb()的相反功能，释放缓冲区。接下来调用的skb_reserve()在数据包缓冲的起始和载荷的开始之间增加一个2B的填充位。这使IP头能在16B边界处开始（因为对齐的原因，这通常意味着性能更佳），因为前面的以太网头部是14B。剩下的代码用收到的数据包填充载荷缓冲区，并移动skb->data，skb->tail以及skb->len来表示这种操作。

参考自《Linux源码剖析——TCP/IP实现》

最后编辑于：2019.04.04 11:42:11