老婆大人计划今年买房,有天盯着链家的页面一页一页地翻,忽然来了一句,“你能不能帮我把链家上所有的笋盘挑出来?“
我一脸懵比,”啥叫笋盘?”
"靠,这都不懂,就是价格明显低于市场价的极其划算的楼盘啊”。
“哦,那你一页页在链家上翻着找不就知道了么”
“靠,!@#@!$!$@,你不是搞IT的么,这都搞不好,要你干啥使的啊”。
我老婆大多数时候发飙,都会带上这句,”你不是搞IT的么,要你干啥使的",试用的场合包括但不限于,
家里的小区宽带速度慢,经常卡,”你不是搞IT的么?家里网络怎么还这么卡?要你干啥使的?"
自己用的某个手机App崩溃了,“你不是搞IT的么?帮我看看为什么这个应用崩溃了,要你干啥使的?",
顺着这个思路,相信不久就会有,“你不是搞IT的么?你不会到银行系统里把自己存款后面加个零?要你干啥使的?”类似的对话了。
而我,一个对计算机技术如此热爱的人,秉承着“你可以侮辱我,但是不可以侮辱我的职业”的信念,毅然决然地开始研究爬虫技术,琢磨着怎样把链家数据爬下来了。
好在这一切,因为有scrapy,都不复杂,实现一个爬虫只需要几十行代码,爬去完链家上海的7W多条挂盘二手房数据也只需要几个小时,复杂(繁琐)的永远是后期数据的清洗和展示和分析。
上海二手房信息主要有三块,二手房源挂牌信息,小区信息,历史成交信息,虽然老婆大人这次的需求是筛选挂牌房源信息,但是后续肯定还会有更多的需求,所以索性一起抓取了下来。
拿到数据清洗后,导入mysql中,此时老婆大人的需求用一句sql语句就可以实现 select * from fang where danjia / xiaoqu_junjia < 0.8 ; 意思就是筛选出所有的单价小于所在小区均价的80%的房源.
而当我拿着黑乎乎的命令行窗口的输出兴冲冲地给老婆大人的时候,老婆只是冷冷地来了句,“你这黑乎乎的小黑窗口让我咋用,你打算让我写那鬼什么语句么?".
我额头上开始冒汗,”啊呀,小的该死”。
只能回头再研究怎样用网页图表,更好更方便地展示数据,在网上找了N久,几经周折,找到了airbnb 开源的superset, 完美契合需求,可以将数据库中的数据,非常方便地展示成各种图表,于是,在我的服务器上搭建了这么一套系统,将爬取的最新房源信息导入到这个系统中,然后自动生成图表,这样老婆大人的需求最终完美解决,而我终于没有辱没我的职业,每想到此,心中激动久久不能平静。
你说什么?你老婆也是这样的,好吧,看在你我有缘的份上,这套原价8888的系统,现在免费送予你.
http://fang.manmanqiusuo.com/
什么需要帐号密码, 好吧,帐号密码都是 demo