上周我把简书上写Python爬虫、数据分析的文章的作者聚集在一起,详见文章《来简书,看看数据分析多有趣》,看看他们在群里都聊了些啥。
1. 如何防止爬虫被Ban
@向右奔跑:昨天在lagou爬数据时被Ban,设置了浏览器请求头,有什么好办法?
@博客虫大数据:之前爬京东的,没有频率限制。
@LEONYao:用scrapy 爬,加个随机请求头基本不会被ban
@向右奔跑:我用的scrapy ,伪装了请求头
@博客虫大数据:如果做IP频率限制 伪装请求头 没什么用
@LEONYao:我这有好多个爬虫在同时运行,都爬了好多天了,没事。
只是多个请求头,我有用过代理ip 池,速度不稳定,就没再用了
@博客虫大数据:代理的IP,很多都上了黑名单。
难找到 好的 都是被用烂的了
@LEONYao:买了个scrapy cloud 的代理,很贵,用起来也慢
@向右奔跑:明白,今天准备试代理IP, 后来设了下载延迟设成1秒就好了
2. 大数据交流分享准备
@博客虫大数据:群里有多少 是搞大数据的 可以深入交流一下 哈哈
@向右奔跑:之前看过一段时间,没有搞过
@博客虫大数据:其实我感觉 爬虫应该也算大数据的一环 哈哈,数据源侧重要的一环,处于大数据链路的最前端。
@向右奔跑:没有找到具体应用场景,自己很难搞下去
@博客虫大数据:http://www.mite8.com 这个网站,所有流程,从爬取 到最终的可视化 都是自己折腾出来的。
@向右奔跑:太棒了
能不能搞一个专题分享
@博客虫大数据:近期 自己业余时间 在爬虫和数据可视化这块 搞的比较多。
@博客虫大数据:怎么搞
@向右奔跑:就从介绍你这个网站开始,你是怎么折腾的
@博客虫大数据:可以呀 有时间梳理一下
@LEONYao:太吊了这个
大神快分享教程啊
@程鑫垚:看着就很棒 膜拜
3. 用户画像和分词的方法
@龙潇:
问个问题,爬取了大量产品经理的招聘要求,如何进行数据分析呢?
我想到的一个办法是自己先看十几条,找出一些关键词来,然后去看这些关键词在这里面出现的频率是多少
@向右奔跑:先要一定的词库,可以是自己熟悉的。也可以直接分词后统计高频词
@龙潇:分词你是自己写代码分词还是借助第三方工具?
@向右奔跑:代码调用分词工具或API
@强尼:可以这样,你可以先爬取好词,如果你有nlp,过一遍NLP,给打标签,然后聚类分析一下就好了
比如,简书编辑需要会打篮球的人; 标签:篮球简书编辑的人,需要来自于NBA的职业球队,并且必须是球员; 标签:篮球
@罗攀:很厉害~@强尼 有python的jieba库可以么
@向右奔跑:可以,jieba分词不足的是词库不太行,新词、专业词上差一点
4. 密文的爬取解析
@LEONYao:帮看看这种数据怎么爬
@向右奔跑:亿 字也是显示出来的吗
奇怪,没有遇到过
@LEONYao:我百度了一下,得到了一些思路
https://jizhi.im/blog/post/maoyan-anti-crawler
是密文
@LEONYao:
这篇教程里。。写个爬虫都用上了机器学习了
@Jaquez:
这个网站还挺有意思的
@张宏伦:美团的数字是图片加偏移……
@志明:对 要熟悉各种反爬虫
5. Ajax数据构造URL爬取
@翁永鑫:请问有哪位爬过这种网页吗?https://www.kuaidi100.com/courier/?searchText=金蝶大厦
@翁永鑫:这个是关键的数据编码
@LEONYao:但碰巧我在源码里找到了电话号码
@翁永鑫:有了编码可以构造这个url,这个是数据所在
@LEONYao:那你构造URL吧
@罗攀:异步加载就是找包
@LEONYao:有手机端的话可以尝试下
爬手机端比爬pc 容易
本周推荐文章
- 数据虫巢 从0到1构建数据生态系列之六:数据价值挖掘
- 宏伦工作室 全栈 - 6 数据 解读数据结构和类型
- 龙潇Shana 数据化看百度产品经理招聘