上篇文章介绍了CSPF,BPF(BSD Packet Filter)是在其基础上又向前发展了一步。
本文从CSPF存在几个缺陷讲起:
1. 无法处理IP头可变长度这种情况
2. 翻译执行过滤规则时存在冗余分支
3. 必须模拟一个操作数堆栈
BPF解决了以上问题,其构成如下
1. 累加器(寄存器):用于保存操作结果
2. index寄存器:由于保存数据包中变量值(如可变IP头长度)
3. 临时存储器:内存实现的用于存放临时数据
4. 隐含的指令指针
指令集
IP头可变长度的处理
内核中执行用户进程传入的代码,是一件非常危险的事情。所以,CSPF在设计虚拟机执行指令时,限制了每个指令的操作数的来源,用户只能通过PUSHWORD+n指令获取数据包的第n个字的内容,无法通过stack上的字来获取数据包指定位置内容,这导致了无法处理IP头中的可变长度内容。
BPF引入了index寄存器解决这个问题。可以通过ldx指令直接从数据包中将特定位置的内容保存到index寄存器,而从数据包中读取内容时可以采用用户传入常量+index寄存器值来实现。
下面从例子看怎么做到的:
1. 装载数据包第14个字到累加器
2. 取低4位到累加器(通过AND操作)
3. 累加器中内容左移2位
4. 将累加器内容传输到 index寄存器
5. 转载数据包第(index寄存器值+16)个字到累加器
6. 比较累加器中的值与N,真值跳转到L1,假值跳转到L2
从上面的例子可以看出,通过引入index寄存器,配合tax指令。解决了IP头中可变长度变量处理的问题。
翻译执行过滤规则时存在冗余分支
第二个问题是stack machine与 register machine的问题。
stack machine下计算模型是一个 tree:
stack模型下,两个表达式都计算完成后,OR操作才会出栈这两个操作数,完成最终计算。但是,如果第一个操作数是True,实际上OR就能够返回True了,不需要再计算第二个操作数。这就是stack machine带来的冗余计算问题。
register machine下计算模型是一个控制流程图:
一个表达式完成后,能直接跳转到True,减少冗余计算。
BPF在这两个点上改进,对包过滤产生了巨大的性能提升。Linux也采用了这种模型的包过滤器方案,在Linux中叫做LPF,实际上就是BPF。