ddm2014 - 简书

ddm2014

IP属地：四川

爬豆瓣豆列
目的：把精彩豆列频道里的每个豆列里的内容抓取出来。流程是抓取目录页精彩豆列频道豆列的地址-对每个豆列所有页数都抓取具体内容、网址、时间。这就很标...

1340 0 0
验证码去除干扰线
在邦购登陆时，选择了人工检验验证码，这次用机器检测试试。先说基本逻辑：载入图像，转灰度，二值化，连通域检测，去除连通域小的，根据各连通域的范围切...

0.2 11411 1 2

ng deep learning 学习笔记
先快速搭建一个神经网络，看看训练集效果，调整，看dev集的cv效果，调整，看test集效果，调整，最后看实际数据的效果，再调整。

324 0 0
爬今日头条，各种失败经验，之后成功了
最近研究了一下js加密，发现今日头条比较适合练手，在头条获取数据的XHR中request参数有一项_signature参数，这个是就是经过js加...

0.3 11335 2 6
scrapy 关于session
在requests用session登陆这篇讲了怎么用同一个session控制cookies以达到登陆的需求，在scrapy里主要用的是FormR...

5783 0 1
scrapy用proxy的零零总总
在scrapy框架及中间件中说到了中间件相关的数据流程，刚好在用proxy爬数据的时候会用到中间件的零零总总，这回可以一起说说了。我觉得写中间件...

0.1 2274 0 4
爬金融数据
最喜欢的爬取的就是由前端数据，返回的json全是数据特别好弄，而且还可以根据需求构造网址，一次取回所需数据。这次爬的是东方财富网的股东人数，地址...

735 0 0

python -装饰器
装饰器之前要先说说函数名（）和函数名的区别 test()是返回函数值，所以是可以赋值给变量的。比如a=test()。test是调用函数，在scr...

258 0 0
scrapy_redis分布式爬虫
说到redis了，自然就要说到另一个爬虫框架scrapy_redis，分布式爬虫，scrapy与scrapy_redis最大的不同是schedu...

327 0 0