什么是TCP粘包?
TCP是一个基于字节流的传输服务,所谓流,就是说TCP所传输的数据是一连串数据,没有界限。发送方发送的若干个数据包到达接收方时,全部都放在接收缓冲区,后一包数据的头紧接着前一包数据的尾,应用程序无法区分数据包的头和尾。
为什么TCP会出现粘包?为什么UDP不会粘包?
TCP出现粘包的原因是多方面的,可能是来自发送方,也可能是来自接收方。
(1)发送方原因
TCP默认开启了Nagle算法(主要作用:减少网络中报文段的数量),而Nagle算法主要做两件事:
(1)只有上一个分组得到确认,才会发送下一个分组;
(2)收集多个小分组,在一个确认到来时一起发送。
Nagle算法导致发送方可能会把多个间隔较小、数据量小的数据包,合并成一个大的数据包,然后进行封包一次性发送出去,从而导致粘包问题。
(2)接收方原因
TCP接收到数据包时,并不会马上交到应用层进行处理,或者说应用层并不会立即处理。实际上,TCP将接收到的数据包保存在接收缓冲区里,然后应用程序主动从接受缓冲区读取数据。这样一来,如果TCP接收并存放数据包到缓冲区的速度大于应用程序从缓冲区读取数据包的速度,缓冲区就会存在多个首尾相接在一起的数据包,因此应用程序就有可能读取到多个粘到一起的包。
UDP是一个无连接的,面向消息的传输层协议。UDP不会使用块的合并优化算法,发送方发送数据时,是一包一包的发送,不会把多个小包组合成大包一起发送。接受方收到的数据包都是以链式结构存储的,应用程序一次只能获取一个数据包,因此不会存在粘包问题。
避免粘包
以下的几个方法可以避免或者减少粘包问题的发生:
(1)关闭Nagle算法。关闭Nagle算法可以减少发送方合并小包的可能性,从而减轻粘包问题。
(2)短连接。通信双方如果使用短连接,一次交互后就关闭了连接,这样是可以避免粘包的。
(3)设置PSH标志位。设置PSH标志位会要求接收方尽快将这个数据包交给应用层,数据包被应用层及时接收,也就可以减少粘包。
粘包问题解决方案
由于底层无法理解上层的业务数据,所以底层是无法保证数据不被拆分和重组的。只能通过设计上层的协议栈来解决,业界的方案可归纳如下:
消息定长,例如:每个报文固定200字节,如果不够,空位补空格;
在包尾增加结束符,例如:FTP协议(回车换行符作为结束标记);
将消息分为消息头和消息体,消息头中包含消息的长度信息(也就是进行数据封装,在消息开头增加消息长度字段);
更复杂的应用层协议。