这个词是从互联网上面的网络爬虫程序延伸出来的,也是我自己想出来的一个名字。最近一直在研究python,其实python大家比较感兴趣的一个方向就是爬虫程序。至于不了解python的人可自行先百度补脑。百度三个关键词:网络爬虫,python,python爬虫。
当然我想说的并不是计算机编程的东西,可能只是稍微的相关。
我说的自然还是和人有关,人脑爬虫。这是肉体的行为。爬虫程序是由计算机程序通过一些人设定的规则,在万维网上进行获取一些有用的东西。人脑爬虫,通俗点讲就是此时此刻的你。盯着手机APP或者电脑网页的你。
每时每刻我们都在通过TCP/IP协议获取网络上的各种信息。这些编码通过计算机一层一层的解析,最终呈献给我们异彩纷呈的世界。很多时候我们都在进行着碎片化的阅读。互联网可以比喻成一块庞大的海绵,有人给它不停的供水,有很多人都在挤水。通过这种方式,我们不停的丰富自已。然后,我们在茶余饭后有了很多谈论的话题。你有没有发现,现在的很多话题都在围绕这互联网这点事(当然,我每天都是这样,并不代表所有人)。
我那不停止的人脑爬虫:
作为一名程序员,互联网上面的一点风吹草动都能被我(人脑爬虫)准确的接收到,比如“XXX收购了XXX”,“XXX深夜被拍出入XXX居所”。这些信息会被精准的投放到每个人的电脑。或是出现弹窗,或是主动打开新闻网页。当你每点击一个新闻,服务器都会记录下来相关的记录,为下一次投放你更加感兴趣的新闻做准备。其实这个更加常见于广告推广,比如你某天某宝某东搜索了一下某个商品,然后你再打开其他网页的时候,那些图文广告全部是你搜索过的(这些都是题外话,互联网下无隐私)。现如今一些无良的小编(生存所迫,互联网竞争巨大)为了流量各个变成了标题党。可能一张手机的概念图都能变成“XXX手机曝光”,然而最可恨的是这一张图还能被不同的平台不同的小编写来写去好几次。这时候人脑爬虫的一些规则就会发挥作用,信息会被直接过滤掉,网页上面的这个链接就不会被打开。然而很多还是很会利用人的心理,比如“XXX出现了XXX,最后竟然是...”。对于这种标题,人脑爬虫只能打开链接,然后看看。最后反馈出来一句“卧槽”。
我来说说我的爬取工具:
1.知乎
知乎很符合爬虫的特性,知乎有一些回答都是存在站外链接的,由于知乎有很多大神的存在,每当你看到有兴许的话题是,看回答不亦说乎或者醍醐灌顶,就会莫名其妙的点击答案中的链接,跳走,然后再看到连接,再跳转。这时候可能你已经爬虫上脑,人脑爬虫不停的在运作。
2.豆瓣
豆瓣没什么可说的,我最喜欢爬取得就是最近热映电影的评分和影评,一些年度最佳电影信息,以及好书等,这些信息被我记录在有道云笔记上面。不过这的确是一个不好的征兆,这些东西不停的在过时,然而你保留下来的东西一般鲜有问津。这也就是碎片化接受信息,阅读的弊端。如果你是长阅读过某些,你就会发现你就是某些热门评论的作者,这是主动与被动的接受。
3.简书
在这里你可以看各种各样文体的文章,的确是一个不错的地方。从简书中会引发出很多的隐藏的互联网链接,通往每一个你可能感兴趣的领域。
4.一个
韩寒创办的APP,个性鲜明,文章和问答绝对会让你醍醐灌顶,惆怅万千。
关于这些app,每个app就像是一张网,善于发现每一张网通向神秘方向的蛛丝。如果你仅仅是停留在读一读就完事的阶段,那么永远无法理解所谓的互联网爬虫是多么的强大。你要知道,蛛丝的终点又是一个庞大而有趣的系统。
何必太累。我一直想终止我的人脑爬虫程序。有一天我在知乎上发现了一个名叫:MathStudio的APP,中文名称数学宝典。APPSTORE售价貌似是60多人民币。这只是一个科学计算的应用。而且很冷门,没有评论,直到我在APP函数的例子里面看到了下面这个公式:
PolarPlot(2-2*sin(@theta)+sin(@theta)*sqrt(abs(cos(@theta)))/(sin(@theta)+1.4),color=red,shade=middle)
当然他的主体部分是:
2-2*sin(@theta)+sin(@theta)*sqrt(abs(cos(@theta)))/(sin(@theta)+1.4
剩下的是mathstudio内建的绘图函数。
这是他的函数图像:
这个图像背后的确有一个美丽的故事。此时人脑爬虫再一次开始运转。
这就是我的人脑爬虫程序。
很多时候我在想,昏黄灯下一本破书,那也会是别一番意境,不过现在都已经是小黑屋里面的LED显示器了。(哈哈还有OLED自发光屏幕,人脑爬虫已经不自觉的去查他们俩的区别了。)