进程间通信
进程间通信就是不同进程间进行数据交换的过程。因为进程间相互独立,每个进程拥有独立的地址空间、数据处理逻辑,操作系统保证了进程独立运行的地址安全;但在复杂系统,单进程往往不能胜任业务需求,需要多进程的加入,多进程协作完成工作,这就离不开进程间通信这个话题了。
进程间通信有很多种方式,列举如下:
- 管道:管道只能在具有公共祖先的两个进程间使用,这是Linux系统使用命令时常见的一种方式。
- 命名管道:APUE中也命名为FIFO,是上述管道的一个升级,支持不同祖先进程的两个进程间进行通信。
- 消息队列:这里是指Linux系统内核里面支持的消息队列,是消息的链接表,由消息队列标识符在内核进行标识,内核提供专用API进行队列操作。
- 信号量:和线程同步中的信号量概念类似,不同于存储数据,信号量主要作为计数器控制资源的安全访问。
- 共享存储:共享存储可以理解为操作系统在内存中划分专用区域提供资源共享,内核提供API进行共享内存的操作,C++11之后也提供了共享内存的操作API,更加方便进行共享内存的操作。
- 网络IPC:RPC、HTTP等网络通信,是分布式系统常见的通信方式。
而进程间通信按进程分布情况可以单机内的进程间通信和多机间远程调用的进程间通信,后者无需多讲,在分布式等大型系统中是非常常见的,而进行通信的方式主要是上述方法中的网络IPC,有非常多的资料介绍相关内容,不在本文的讨论范围之内。
本文主要讨论在单机内进程间通信中,Unix域套接字和TCP网络套接字的对比,后者属于网络IPC。
套接字
套接字是一种应用程序接口,包括了一个用C语言写成的应用程序开发库,主要用于实现进程间通讯,在计算机网络通讯方面被广泛使用。下面要讨论的网络套接字和Unix套接字均属于套接字。
在定义套接字类型的时候,网络套接字通常使用AF_INET进行定义;Unix域套接字则使用AF_UNIX进行定义。
套接字类型有三种,分别是流式套接字、数据报套接字和原始套接字。
流式套接字(SOCK_STREAM):流式套接字用于提供面向连接、可靠的数据传输服务。该服务将保证数据能够实现无差错、无重复发送,并按顺序接收。流式套接字之所以能够实现可靠的数据服务,原因在于其使用了传输控制协议,即TCP(The Transmission Control Protocol)协议。
数据报套接字(SOCK_DGRAM):数据报套接字提供了一种无连接的服务。该服务并不能保证数据传输的可靠性,数据有可能在传输过程中丢失或出现数据重复,且无法保证顺序地接收到数据。数据报套接字使用UDP(User Datagram Protocol)协议进行数据的传输。由于数据报套接字不能保证数据传输的可靠性,对于有可能出现的数据丢失情况,需要在程序中做相应的处理。
原始套接字(SOCK_RAW):原始套接字(SOCKET_RAW)允许对较低层次的协议直接访问,比如IP、 ICMP协议,它常用于检验新的协议实现,或者访问现有服务中配置的新设备,因为RAW SOCKET可以自如地控制Windows下的多种协议,能够对网络底层的传输机制进行控制,所以可以应用原始套接字来操纵网络层和传输层应用。比如,我们可以通过RAW SOCKET来接收发向本机的ICMP、IGMP协议包,或者接收TCP/IP栈不能够处理的IP包,也可以用来发送一些自定包头或自定协议的IP包。网络监听技术很大程度上依赖于SOCKET_RAW。
原始套接字与标准套接字(标准套接字指的是前面介绍的流式套接字和数据报套接字)的区别在于:原始套接字可以读写内核没有处理的IP数据包,而流式套接字只能读取TCP协议的数据,数据报套接字只能读取UDP协议的数据。因此,如果要访问其他协议发送数据必须使用原始套接字。
网络套接字
网络通信中通常都是使用网络套接字进行通信,可用于单机进程间通信和多机进程间通信,网络套接字由五元组来标识:(源地址、源端口、目标地址、目标端口、通信协议),因而网络套接字在网络协议栈中属于传输层之上的内容。所以,在使用网络套接字通信的时候,传递内容需要经过完整的网络协议栈四层模型中的(传输层-网络层-网络访问层(数据链路层-物理层))。
回想在协议栈当中,对于报文的处理有哪些操作。
- 添加、删除报文头:在报文里面,每个数据报文会添加相应的报文头,比如TCP报文头、IP报文头等
- 计算校验和:协议为了防止网络传输引起的数据不一致,引入校验和来确认报文数据准确
- 计算报文顺序:多个报文在网络传输中存在后发送的报文提前到达的情况,需要引入报文顺序字段保证多报文顺序一致
- 请求、接收确认步骤:可靠通信包含额外的通信过程,需要保证报文成功接收
Unix域套接字(Unix Domain Socket)
Unix域套接字只能用于在同一个计算机的进程间进行通信。虽然网络套接字也可以用于单机进程间的通信,但是使用Unix域套接字效率会更高,因为Unix域套接字仅仅进行数据复制,不会执行在网络协议栈中需要处理的添加、删除报文头、计算校验和、计算报文顺序等复杂操作,因而在单机的进程间通信中,更加推荐使用Unix域套接字。
使用
关于套接字的使用,资料很多,不再介绍。
对比
这里拿网络套接字和Unix域套接字出来比较的原因是,很多人在进行单机多进程开发时没有注意到Unix域套接字的存在,而是使用了成本较高的网络套接字进行开发。Unix套接字在通信开销方面是很小的,因而在单机通信中更加推荐使用Unix域套接字。