欲善其事,必先利其器
这其器必是python的标准库+内置函数,话说许多第三方库, 也是对标准库的使用,进行封装,使得使用起来更方便。
这些库以使用场景来分类:
一. 文件读写
二. 网络抓取和解析
三. 数据连接
四. 数清洗转换
五. 数据计算和统计分析
六. 图像和视频处理
七. 音频处理
八. 数据挖掘/机器学习/深度学习
九. 数据可视化
十. 交互学习
十一. 集成开发
二、网络抓取和解析
网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“01 文件读写”中找到。
# 2.1 requests
# 类型:第三方库
# 描述:网络请求库,提供多种网络请求方法并可定义复杂的发送信息
# 2.2 urllib
# 类型:Python标准库
# 描述:Python自带的库,简单的读取特定URL并获得返回的信息
# 2.3 urllib2
# 类型:Python标准库
# 描述:Python自带的库,读取特定URL并获得返回的信息,相 对于urllib可处理更多HTTP信息,例如cookie、身份验证、重定向等
# 2.4 urlparse
# 类型:Python标准库
# 描述:Python自带的URL解析库,可自动解析URL不同的域、参数、路径等
# 2.5 HTMLParser
# 类型:Python标准库
# 描述:Python自带的HTML解析模块,能够很容易的实现HTML文件的分析
# 2.6 Scapy
# 类型:第三方库
# 描述:分布式爬虫框架,可用于模拟用户发送、侦听和解析并伪装网络报文,常用于大型网络数据爬取
# 2.7 Beautiful Soup
# 类型:第三方库
# 描述:Beautiful Soup是网页数据解析和格式化处理工具,通常配合Python的urllib、urllib2等库一起使用