小小 - 简书

发简信

小小

7
关注
3
粉丝
10
文章
12730

字数
16

收获喜欢
1

总资产

IP属地：陕西

小小

Scrapy 自定义settings--简化编写爬虫操作--加快爬虫速度
爬虫应该算是数据挖掘的第一步，也是分析数据的基础，更是得出结论的基石。爬虫大到一个团队在维护，小到毕业论文。Python应该算是大家非常喜欢的爬虫语言（理由不用多说都知道的）...

爬虫小哥
9929 3 14
小小

Python分布式动态页面爬虫研究
Selenium的Webdriver爬取动态网页效果虽然不错，但效率方面并不如人意。最近一直研究如何提高动态页面爬虫的效率，方法无非高并发和分布式两种。过程中有很多收获，也踩...

Rabin_xie
8635 10 43

小小

盘点selenium phantomJS使用的坑
说到python爬虫，刚开始主要用urllib库，虽然接口比较繁琐，但也能实现基本功能。等见识了requests库的威力后，便放弃urllib库，并且也不打算回去了。但对一些...

Rabin_xie
52284 34 101 2
小小

对爬虫的宽容与约束
提到爬虫，对于行内人士来讲感情是复杂的。人人都在用，人人都在防。又有很多人给爬虫分类，初级的、中级的、高级的、善意的、恶意的。对待爬虫的态度也是迥异的，有人专门撰写文章批评、...

380 0 0
小小

93690f42562a
写了 0 字，被 1319 人关注，获得了 1915 个喜欢
小小

没有建立这种思维，学再多都是白费
1 最近一直在思考一个问题，为什么看了那么多书，听了那么多课，进步却很小呢？去年参加了很多分享课，每周末至少有一天在外面参加活动。但参加了那么多课，我的收获有多少呢? 参加...

弘丹
38654 200 1964 10
小小

resolvewang
写了 35112 字，被 718 人关注，获得了 561 个喜欢

我的开源项目：<br><br>分布式微博爬虫<br><a href="https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FSpiderClub%2Fweibospider" target="_blank">https://github.com/SpiderClub/weibospider</a><br><br>高可用分布式代理池<br><a href="https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FSpiderClub%2Fhaipproxy" target="_blank">https://github.com/SpiderClub/haipproxy</a>

小小

windy天意晚晴
写了 3260238 字，被 82822 人关注，获得了 31698 个喜欢

电影、电视剧、综艺节目、网剧约稿添加个人微信：windy18233968787
小小

ubuntu系统中使用scrapyd管理scrapy项目简明教程
本文只是一个简明教程，如果要深入研究和学习，强烈建议你看官方文档。 scrapyd和scrapyd-client是什么 scrapyd是免费开源的工具，用来管理你创建的scr...

2159 0 1
小小

基于PySpider的weibo.cn爬虫
作为科研狗，新浪微博一生黑。一开始打算花钱买他们的商业API，结果跟我说不跟科研机构合作，我也是日了狗了。后来费尽千辛万苦写了个爬虫，差点没把我小号封了手动再见.gif本来写...

兮嘉
4186 1 11
小小

漫谈Pyspider网络爬虫的实践
感觉很久没有写点东西了，因为最近太忙（外因）或是自身太懒（内因）的原因。总之，很早之前，我就开始规划着写点关于网络爬虫方面的文章，介绍性质的，但更重要的是，计算机以及信息科学...

figotan
6150 2 52
小小

“比读1000本书还有价值”：如何在半年内熟练掌握一门外语？
英语是大多数人从小就开始学习的一门语言，但往往苦学十多年，还是难以达到理想的效果。有人为了学好英语，背了大量单词，做了大量语法练习，最后却无法与外国人进行简单的对话。国际心理...

章南丘
16061 65 853

小小

小米手环2—你在忽悠我们吗？
看到这个宣传，心真动了！无论是官网还是淘宝、天猫都是这个宣传画。我的理解有三：一是运动时可以检测心率，二是可以实时也即间隔一定时间对心率进行检测，三是可以设置提示时最大心率...

487 0 0
小小

双层PDF（矢量PDF、可检索式PDF）的前世今生
什么双层PDF（矢量PDF） “双层PDF”又称为“可检索式PDF”（searchablePDF），一般将其定义为“底层是扫描图像（Image）层，上层是透明文字（Text）...

10309 1 2 1

暂无个人介绍