下午复习高数之前看了一下码市,发现有一个腾讯证券网站的爬虫需求可以做,一方面需要抓取符合一定规则的文章,另一方面还需要抓取实时股票数据。两个要求都在能力范围内,于是投了标。
联系了需求方后开始尝试爬取。
文章列表和股票信息是js生成,于是花了点功夫分析http request。经测试,大功告成。
后被告知需要实时抓取全站七天内文章标题中含xxx的文章信息。遂尝试写关键字分词匹配功能且做好了增量全站抓取的打算(因为文章分类非常杂,找不到可以遍历全站文章的列表)。
做到这里,联系需求方告知进度和方案。未料其向我展示另一名投标者提供的demo操作视频。
惊呆,他竟然爬的是百度搜索。
好了,哥,我要复习高数了,拜拜。
感觉智商被碾压
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...