缘起
过年了,在家有点乏味。因为放假之前在写爬虫,于是复习下scrapy框架。
nga是一个游戏玩家社区,爬一些回帖评论,分析下哪些人是shuijun
亮点
- 替换重定向中间件,非200请求存储后下次运行时自动加入爬取
- 自定义了多个流水线清洗数据
- 流水线针对爬虫单独配置,互相独立
- 增加了代理ip中间件
- 自定义redis存储数据,每次运行结果以日期存储,避免覆盖
- 自定义json序列化,保持中文不转成unicode
- 通过cookie模拟登录
- 练习了多个选择器css,xpath
- jieba 分词库的使用
- Python的图表库学习,绘制柱形图
- scrapyd和scrapydweb的学习
- 容器部署爬虫
统计
最终数据统计
- 帖子数 10889
- 评论数 155083
- 用户数 16635
分析
-
词云
0-词云.png
20099词云.png
- 词频
出现最多的前10个词汇
一个 7758
就是 6816
可以 5789
这个 5018
战士 4693
现在 4571
不是 4472
什么 4472
没有 4395
自己 4091
- 全局发帖时间分布-柱形图
0.png
-
单个用户评论时间分布
27353.png
代码地址
https://github.com/jsRuner/ngaspider
镜像
docker pull doudouchidou/scrapydweb:v1
docker pull doudouchidou/scrapyd_logparser:v1