注:以下所有python代码均运行于2.7.0
最近想抓点数据存起来,开始捣鼓python。爬虫技术以前没接触过,这一回就当练手,从零开始,从最原始的方式开始。先定个小目标,抓一下著名的“李毅吧”的一些贴子标题。
要爬数据,第一步肯定是网络请求,在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。
在这些步骤进行之前,要先安装lxml,这个用pip install lxml就可以了。
第一步,使用urllib2,先把李毅吧的url请求一下。百度目前使用的是https,这个没关系。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/
然后打开命令窗口,python。let's go。
import urllib2 from lxml import etree r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85") p = r.read()
好了,是不是代码很简短,我们第一步就完成了。
第二步,要引入lxml,来解析取到的html文件。解析前肯定是要用开发者工具先分析一下html源码的,要不然怎么找到规律去匹配我们想要的内容呢。用开发者工具定位到贴吧的贴子都是位于一个div里面,这个div的id是content,class也是content。每个贴子的标题都是一个超链接,标题内容放在这个超链接的title里。
简单的介绍一下lxml的路径表达式:
//body/a[1] 取body下的第一个a元素 //a[@href] 取所有拥有属性名为href的a元素 //a[@href='img.html'] 取所有htre属性为img.html的a元素 根据前面的分析,要取到贴子的标题,需要这么写 //div[@id='content']//a//@title
下面开始解析:
e = etree.HTML(decode_html) l = e.xpath("//div[@id='content']//a//@title")
第二步到此为止,通过xpath能匹配到所有的贴子标题。
第三步就是数据过滤、清洗、转换、存储之类的工作了,没有什么通用性。因为l是一个列表,里面又存的是utf8,对于一些新手来说,可能很抓狂,因为不能很直观地看到汉字。
加上这一段就好了:
print item```
最后附上代码:
`#-*- coding: utf-8 -*-`
import urllib2
import lxml
from lxml import etree
r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")
raw_html = r.read()
decode_html = raw_html.decode("utf-8")
dom_html = etree.HTML(decode_html)
title_list = dom_html.xpath("//div[@id='content']//a//@title")
for item in title_list:
print item
这个代码没有真正实现只抓贴子标题的功能,抓的内容超出了贴子标题的范围。还需要优化一下才可以的。
![try_baidu_liyi.png](http://upload-images.jianshu.io/upload_images/5205908-e446959a38a2d768.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)