爬虫学习路径及安装环境遇到的坑

学习路径是我自己练手python爬虫项目时提炼和精选的。
事先声明:学习好比看医生，每个人目的和问题不一样，再者知识结构也不一样，这书单只适合我自己，给我自己用的，可能会走弯路，怕误导大家，大家不要看啊。

学习资源请单：

1）官方Python 最新英文版 ,点左边链接

Python 3.5中文版 ,点左边链接

2）语法入门书：

《Python编程从入门到实践》，这门讲的很好，浅显易懂，还包括可视化+Django+heroku的内容。大家不要看其他大牛推荐的什么简明教程什么笨方法学python，这类的书知识不成体系，还是看专业人写的书吧，血的教训，浪费好多时间。推荐书时，能不能自己读过后再推荐，推荐错了害不少人呐亲。

入门的还有《python语言及其应用》，这本语法很全面，想省时间的看前本吧。或者《python快速上手-让繁琐工作自动化》也很不错，比前面两本书的多很多案例，而且案例可以让自己的效率有提高。

3）练手项目：

A github上的开源Demo:

如Awesome Python 资源整理集合，内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等

B 视频相关的开源Demo:慕客网上有，关于爬虫框架原理解释的很到位。

C 社区上的开源Demo；deeplearning.net/demos。

D: 网友分享的Demo：http://cuiqingcai.com/1052.html。

4) 社区：google+的数据和机器人小组，Matrix 67,deeplearning.net，集搜客GooSeeker，Stackoverflow，Segmentfault，Codecademy，九章算法,leetcode刷面试题,ruby-china.，CSDN，Quera,stack exchange中tag为机器学习的部分，生物学社区AGCTU（关于统计和图表部分）。

5）考虑输出：比如翻译外文的译言

6）中高级篇：检索，采集，分析，挖掘和机器学习相关书籍

数据采集：

关键词：有lxml,beautiful soup,正则表达式，反爬虫（user-agent，time.sleep，cookie，代理ip，selenium操纵浏览器，验证码识别等都需要了解啊），反编译，利用抓包技术提取，利用嵌入式浏览器，利用IDA软件逆向分析技术，移动APP漏洞及安全相关等。

动态页面提取方案有：

上面截图来自这篇文章《基于IDA逆向分析的AppStore应用爬取》，这篇文章我要好好看。

反编译爬虫的例子：见这篇文章《用xposed框架抓取微信朋友圈数据》

书：

有《用python写网络爬虫》(详细，但是python2版本）

《自己动手写网络爬虫》罗刚(里面的思想可以借鉴，但是是用java实现的）

《Python网络数据采集》(初学者可以了解爬虫需要用到哪些知识，挺不错的)

《利用PYTHON进行数据分析》：看书名就知道写什么了。

《图解HTTP》或者《HTTP权威指南》：了解http协议的，如果有基础，就不要看了，前书通俗易懂适合初学者，后者全面相对不够通俗适合有计算机基础的看。

《精通正则表达式》（正则表达式），scrapy源码分析，《Python源码剖析》。

《Lucene 3.0 原理与代码分析》，LuceneInAction(第2版)，Lucene+nutch搜索引擎开发，开发自己的搜索引擎——Lucene+Heritrix(第2版)，其他的见这篇文章“Lucene和Solr 学习路径”

搜索引擎Demo:悟空搜索
《搜索引擎中网络爬虫的研究与实现》段兵营
《深入研究web主题爬虫的关键性原理》王芳
《软件逆向工程技术研究及应用》
《基于IDA-PRO》软件逆向分析方法秦清文

《支持ajax技术的主题网络爬虫系统研究与实现》

数据分析：

关键词有：自然语言处理（如中文分词和词性标注），命名实体识别，分词工具

《机器学习:实用案例解析》 /《贝叶斯思维:统计建模的Python学习法》/《集体智慧编程》/《推荐系统实践》/《机器学习实战》/《数据挖掘导论(完整版)》/ 《终极算法》 /《推荐系统》/ 《Python机器学习:预测分析核心算法》 /《统计自然语言处理(第2版)》

，《机器学习:实用案例解析》，《社交网站的数据挖掘与分析》，《Python数据科学指南》，《Python数据分析实战》，《Python数据分析与挖掘实战》有案例，

数据库大家可以看高性能MySQL (豆瓣),《Head first Python》，《数据可视化实战——使用D3设计交互式图表》，《集体智慧编程》，《机器学习系统设计》，《机器学习实战》，《推荐系统》，《统计学习方法》，《看穿一切数字的统计学》，《数据可视化之美》，《图表说话》，参加Kaggle竞赛等

数据存储和可视化：

信息链接：URI，sql

存储：json，如PostgreSql，excel，图数据库Neo4j/OientDB，RDF数据库Startdog。
可视化：tableau，D3，matlib，pysql。

开发环境安装

开发环境安装流程见： //www.greatytc.com/p/d99f6fd8b209

安装开发环境步骤（win环境+64位+python最新3.6版本+mongodb）：

1、安装python 3.6版本

查看是否安装成功：启动python解释器（快捷键win+r），在cmd里输入python，没报错就表示安装成功了。命令行窗口退出python解释器，需要输入uexit()

2、用Python自带的IDE练手熟悉Python基础语法：

记住常用快捷键：1）ctrl+n 自动创建一个编辑文件，编辑好后，再F5执行就可以了；或者在python IDE(GUI)的窗口中的File->New Window创建。2）增加多行缩进： Ctrl + ] (右中括号)

3）减少多行缩进：Ctrl + [ (左中括号) ； 4）添加多行注释：Alt + 3 ; 5）取消多行注释：Alt + 4

6)更多可以查看 IDLE菜单栏的Options -> Configure IDLE… -> Keys选项卡

如果想自定义快捷键，则选中要自定义的命令，然后点击Get New Keys for Selection

3、安装pip自动安装包，省时间

安装pip 流程

4、安装request请求包

官方地址

5、安装Scrapy爬虫框架

安装时发现building twisted.test.raizer extention报错，网上找了下，发现有网友已经提供这个问题的解决方案了，网址：twisted安装注意事项和下载twisted，安装步骤，以及这个。

验证Scrapy是否成功，python shell下输入 import scrapy 不报错就说明安装成功。

如果python安装python库的时候经常报错，可以看这篇文章有解决方案

Scrapy入门教程Demo：见这里

6、安装pyopenssl加密包

7、安装bootstrap前端开发的开源工具包
8、安装builtwith包，用于查看网站用了哪些技术。

python安装builtwith会遇到问题，不过可以看这位网友的解决方案

9、安装pycharm的开发环境:步骤见这个。

pycharm激活：用这个lanyus.

注意：配置调试scrapy爬虫项目，需要点击工具栏run--》edit configuration 。

10、安装虚拟环境virtualenv包

python -m venv 创建虚拟环境，虚拟环境\Scripts\activate （不包含source ）来激活这个虚拟环境

django-admin.py startproject webSite因为版本问题有时候会报错，执行django-admin startproject webSite就行。

11、安装Django和数据库：
安装Django的流程一定要看官方的：中文版见这里 ,如果不按照官方的，你会碰到“no module named django”，但是其实已经安装了，是不是百思不得其解~~所以一定按照官方来！！

另外，Django 案例官方也有了~~。

数据库我选择mongodb，网友选择哪个数据库可以参考这个答案。
python版的sqlite用法见：这里

12.部署app到服务器heroku 或者openshift：http://xpleaf.blog.51cto.com/9315560/1739940/ , http://www.tuicool.com/articles/Q3y2Qb , https://www.v2ex.com/t/40405

等会再更新

最后编辑于：2017.12.07 01:40:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,454评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,553评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,921评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,648评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,770评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,950评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,090评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,817评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,275评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,592评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,724评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,409评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,052评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,815评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,043评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,503评论 2赞 361
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,627评论 2赞 350