目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相同代码都Copy一份,但是考虑到这样会让项目维护变得极其困难,所以在重构的使用考虑以基础服务的方式提供情感分析模块。thrift是Facebook开源的一套跨语言服务调用RPC,用它便可以进行某些功能模块的服务化,thriftpy是饿了么开源的thrift协议的纯Python实现。由于它的使用更加符合Python的编码习惯,对Pythoneer更友好,所以在刚接触thrift的时候我选择了后者。
在thriftpy的example中,我们可以看到大量使用demo。首先我们来看一个最简单的例子pingpong
service PingService {
string ping(),
}
该文件的作用是描述服务接口,形式采用C语言的语法,所有基本类型(如上述文件的string
)如下
bool:布尔类型(true or value),占一个字节
byte:有符号字节
i16:16位有符号整型
i32:32位有符号整型
i64:64位有符号整型
double:64位浮点数
string:未知编码或者二进制的字符串
比如,我定义一个需要带参数的接口,就该这样
service AargsPingService {
string ping(1:string ping);
}
除了同步调用以外,还可以采用异步调用的方式,我们也需要在.thrift
文件中进行定义,比如我想定义一个异步调用,且返回内容的方法
service Sleep {
oneway void sleep(1: i32 seconds)
}
可以看到,我们加了关键词oneway
。
我们再来看看如何编写thriftpy的服务端代码,还是以最简单的ping
为例进行说明
ping_server.py
# 导入thriftpy提供的接口
import thriftpy
from thriftpy.rpc import make_server
pp_thrift = thriftpy.load("pingpong.thrift", module_name="pp_thrift")
# 实现.thrift文件定义的接口
class Dispatcher(object):
def ping(self):
print("ping pong!")
return 'pong'
def main():
# 定义监听的端口和服务
server = make_server(pp_thrift.PingService, Dispatcher(),
'127.0.0.1', 6000)
print("serving...")
server.serve()
if __name__ == '__main__':
main()
如果我们要同时提供多个服务呢?比如PingService
和AargsPingService
。这个时候需要建立多个.thrift
文件,可以参考multiplexer 。
我们再来看看客户端代码怎么写。
ping_client.py
import thriftpy
from thriftpy.rpc import client_context
# 读入thrift文件,module_name最好与server端保持一致,也可以不保持一致
pp_thrift = thriftpy.load("pingpong.thrift", module_name="pp_thrift")
def main():
with client_context(pp_thrift.PingService, '127.0.0.1', 6000) as c:
pong = c.ping()
print(pong)
if __name__ == '__main__':
main()
如果一个服务比较耗时,但是我们需要同步拿到返回结果,那么怎么办?这个时候需要注意客户端调用超时,thriftpy
的默认超时时间是3秒,我们可以通过修改客户端的socket_time
和connect_time
来进行设置
with client_context(pp_thrift.PingService, '127.0.0.1', 6000, socket_timeout=10 * 1000, connect_timeout=10*1000) as c:
此外,由于thriftpy
默认的server是单进程的,为了充分利用CPU资源,eleme又开源了一个多进程的server gunicorn_thrift。需要单独通过
pip install gunicorn_thrift
此外还需要注意一点,在Python3中,只支持 多进程同步模型,也就是需要在gunicorn_config.py修改
worker_class = "thriftpy_gevent"
为worker_class = "thriftpy_sync"
。Python2中是支持协程的。