那几日广邈互联星空遨游,偶遇一位道者,名曰Python。
有诗赞曰:Python乃是昆仑客,石桥南畔有旧宅。修行得道混元初,才了长生知顺逆。休夸炉内紫金丹,须知火里焚玉液。跨青鸾,骑白鹤,不去蟠桃飧寿药,不去玄都拜老君,不去玉虚门上诺。三山五岳任遨游,海岛蓬莱随意乐。人人称为仙癖,腹内盈虚自有情。
话说Python,是目前自由度最高的高级编程语言,颇像《封神演义》中的陆压道人。
自14年移动设备流量第一次大过于PC流量后,世界变了。信息过载困扰着每一个人。因此,能否甄别有用的数据,能否从乱如牛毛的RAW DATA中提炼出自己需要的信息,成为当下最为重要的能力,没有之一。
而Python,就是构建这个能力的基石。
为何?
因为今天铺天盖地而来的大数据,绝大部分都是非结构化数据,而非结构化数据,是无法有效的归类到我们自己的数据库中,为我们吸收消化所使用的。
非结构化数据就好像是矿山,而结构化数据则是钻石,Python,就是一个高度智能化的挖掘机,能够帮助我们从矿山中挖出钻石。
举个栗子:
一、最浅显的一步,过去,我们翻页从新闻网站上抓取新闻列表,或者通过RSS订阅不同平台上的新闻,而用Python,则一段代码,直接把自己想要的平台上的新闻标题全部抓出来。比如新浪新闻。
二、更深入一步,从某个指定的网页上抓取需要的数据,如指定内文信息,文章标题,编辑时间,编者等信息。
三:批量抓取指定的内容后导出为EXCEL,这一步能够把自己所在行业的优质内容网页以CSV,XLSX等方便自己的数据仓库所存储的方式。