1、入门
入门python与其他语言都是一个道理,大致可分为以下三个方面:
找一本好的书
一个好的师傅
一个好的地方
1.1、入门书籍:
- 《简明python教程》又名《AByte of Python》
- 《零基础入门学习Python》
- 《python学习手册(第四版)》又名《 Learning Python》 -------- 作者:Mark Lutz、侯靖译
- 《Python核心编程(第3版)》 -------- 丘恩
- 《python编程:从入门到实践》等
1.2、视频资源:
慕课网
优达学城
中国大学MOCC
可汗学院
当然如果身边有个python高手也是不错的
1.3、好的地方:
找一个好的地方,安安静静,每天抽点时间学习下python
关注python大神的博客、公众号
公众号推荐:菜鸟学python、python之禅、廖雪峰老师、菜鸟教程
待入门后可试着在github上参与项目
2、爬虫
2.1、三个阶段:
掌握基础知识(python基础、网络请求等)
模仿(模仿别人代码,多看代码弄懂每行代码,熟悉主流爬虫工具)
上手
2.2、需要了解的知识:
HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识
常用抓包工具的使用、爬虫框架的使用
涉及到大规模爬虫还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存,甚至还包括机器学习的应用等
2.3、学习路线:
学习了解python(基础语法)
了解html,教程推荐:
http://www.runoob.com/w3cnote/html-30-minutes-introductory-tutorial.html
爬虫原理:通过网络请求从远程服务器下载数据的过程,网络请求背后的技术基于http协议,入门爬虫需要了解http协议的基本原理
网络请求框架是对http协议的实现,了解http协议后,就可以有针对性的学习和网络相关的模块,python(自带):urllib,httplib,Cookie等
爬取下来的数据需要处理:如JSON数据用python自带的json,html数据用beeautifulsoup4、lxml库,xml数据除了可以用untangle、还可以使用xmltodict等第三方库。
爬虫工具:学会浏览器的审查元素,去跟踪请求信息
正则表达式:非必须(建议学),可以对爬取下来的数据进行清洗,对不能使用常规字符串操作符时可以使用正则,python的re模块可以用来处理正则,推荐教程:
https://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
- 数据持久化存储:文件存储(CSV文件),数据库存储(sqlite、MySQL)、分布式文档数据库(MongoDB),这些数据库对python都非常友好,都有现成库支持,熟悉API如何使用。
Python爬虫知识点梳理
爬虫部分的知识参考的是<Python之禅-Python爬虫知识点梳理>,原文链接可关注微信公众号:Python之禅
3、推荐书籍
《零基础入门学习Python》 -------- 小甲鱼
《python学习手册(第四版)》又名《 Learning Python》 -------- 作者:Mark Lutz、侯靖译
《Python核心编程(第3版)》 -------- 丘恩
《python编程:从入门到实践》
适合小白,兼顾2.7和3.5,精简,有动手试一试环节,翻译质量高
《流畅的python》
从最佳编程实践到底层实现原理
- 《简明python教程》又名《AByte of Python》
非常推荐
- 《深入浅出python》
通俗易懂,培养大量插图,无长篇大论
《父与子的编程之旅》
《Effective Python》
帮你掌握Pythonic的编程方式
《Python源码剖析》
《集体智慧编程》
注重实践,以机器学习与计算统计为主题背景,讲述如何挖掘和分析web上的数据和资源
可以学习人工智能和数据挖掘
- 《利用python进行数据分析》
数据分析库pandas作者写的,数据分析入门首选
4、python知识
python应用广泛,所需要学习的东西也有很多,当已经熟悉了解基础后,差不多已经入门,以下为python进阶发展学的几个方面:
入门(python基础)
爬虫
数据挖掘与机器学习
web开发
自动化运维等