部署爬虫-kafka手顺

  1. 安装redis

     wget http://download.redis.io/releases/redis-4.0.6.tar.gz
     tar -zxf redis-4.0.6.tar.gz && cd redis-4.0.6
     make && make install
     cp redis.conf /etc/redis.conf
     #修改配置文件,配置后台启动redis
     redis-server /etc/redis.conf
    
  2. 安装NodeJs

     wget https://npm.taobao.org/mirrors/node/v8.9.3/node-v8.9.3-linux-x64.tar.xz
     xz -d node-v8.9.3-linux-x64.tar.xz
     tar -xf node-v8.9.3-linux-x64.tar
     #将nodejs加入到环境变量
     export PATH=$PATH:/usr/local/nodejs/bin
    
  3. 安装scrapy

     yum install python-devel
     wget https://bootstrap.pypa.io/get-pip.py
     python get-pip.py
     
     pip install scrapy
     #安装其他依赖
     pip install python-donenv
     pip install py-mysql
     pip install py-kafka
     pip install requests
     ......
    
  4. 启动node爬虫

    • 进入项目根目录,复制config.dev.js=>config.js
    • 修改配置文件中的 redis,kafka地址
    • node daemon.js app/jin10 启动爬虫,如果成功,则使用nohup后台运行
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容