python爬虫项目实战:爬取用户的所有信息,如性别、年龄等

python爬虫项目实战:
爬取糗事百科用户的所有信息,包括用户名、性别、年龄、内容等等。

10个步骤实现项目功能,下面开始实例讲解:
1.导入模块
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加头文件,防止爬取过程被拒绝链接
def qiuShi(url,page):
################### 模拟成高仿度浏览器的行为 ##############

设置多个头文件参数,模拟成高仿度浏览器去爬取网页

heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zh;q=0.9',
'Accept':'text/html,application/xhtml+xml,application/xml;
q=0.9,image/webp,image/apng,/;q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
headall = []
for key,value in heads.items():
items = (key,value)

将多个头文件参数一个一个添加到headall列表中

headall.append(items)

print(headall)

print('测试1--')

创建opener对象

opener = urllib.request.build_opener()

添加头文件到opener对象

opener.addheaders = headall

将opener对象设置成全局模式

urllib.request.install_opener(opener)

学习Python中的小伙伴,需要学习资料的话,可以到我的微信公众号:Python学习知识圈,后台回复:“01”,即可拿Python学习资料


爬取网页并读取数据到data

data = opener.open(url).read().decode()

data1 = urllib.request.urlopen(url).read().decode('utf-8')

print(data1)

print('测试2--')

################## end ########################################
3.创建soup解析器对象
soup = BeautifulSoup(data,'lxml')
x = 0
4.开始使用BeautifulSoup4解析器提取用户名信息
############### 获取用户名 ########################
name = []

使用bs4解析器提取用户名

unames = soup.find_all('h2')

print('测试3--',unames)

for uname in unames:

print(uname.get_text(),'第',page,'-',str(x)+'用户名:',end='')

将用户名一个一个添加到name列表中

name.append(uname.get_text())

print(name)

print('测试4--')

#################end#############################
5.提取发表的内容信息
############## 发表的内容 #########################
cont = []
data4 = soup.find_all('div',class_='content')

print(data4)

记住二次筛选一点要转换成字符串形式,否则报错

data4 = str(data4)

使用bs4解析器提取内容

soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:

print('第',x,'篇糗事的内容:',content.get_text())

将内容一个一个添加到cont列表中

cont.append(content.get_text())

print(cont)

print('测试5--')

##############end####################################
6.提取搞笑指数
#################搞笑指数##########################
happy = []

获取搞笑指数

第一次筛选

data2 = soup.find_all('span',class_="stats-vote")

获取搞笑指数

第二次筛选

data2 = str(data2) # 将列表转换成字符串形式才可以使用

print(data2)

print('测试6--')

soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1.find_all('i',class_="number")
for happynumber in happynumbers:

print(happynumber.get_text())

将将搞笑数一个一个添加到happy列表中

happy.append(happynumber.get_text())

print(happy)

print('测试7--')

##################end#############################
7.提取评论数
############## 评论数 ############################
comm = []
data3 = soup.find_all('a',class_='qiushi_comments')
data3 = str(data3)

print(data3)

soup2 = BeautifulSoup(data3,'lxml')
comments = soup2.find_all('i',class_="number")
for comment in comments:

print(comment.get_text())

将评论数一个一个添加到comm列表中

comm.append(comment.get_text())
############end#####################################
8.使用正则表达式提取性别和年龄
######## 获取性别和年龄 ##########################

使用正则表达式匹配性别和年龄

pattern1 = '<div class="articleGender (w?)Icon">(d?)</div>'
sexages = re.compile(pattern1).findall(data)

print(sexages)

9.设置用户所有信息输出的格局设置
################## 批量输出用户的所以个人信息 #################
print()
for sexage in sexages:
sa = sexage
print(''17, '== 第', page, '页-第', str(x+1) + '个用户 == ',''17)

输出用户名

print('【用户名】:',name[x],end='')

输出性别和年龄

print('【性别】:',sa[0],' 【年龄】:',sa[1])

输出内容

print('【内容】:',cont[x])

输出搞笑数和评论数

print('【搞笑指数】:',happy[x],' 【评论数】:',comm[x])
print(''25,' 三八分割线 ',''25)
x += 1
###################end##########################
10.设置循环遍历爬取13页的用户信息
for i in range(1,14):

糗事百科的网址

url = 'https://www.qiushibaike.com/8hr/page/'+str(i)+'/'
qiuShi(url,i)
运行结果,部分截图:


以上的运行结果是每时都在更新的,所以读者在运行时,结果不一样是正常的。
今天的项目实战就到这里了,喜欢的朋友可以关注、转发一下喔,希望今天的内容对大家有所帮助。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,755评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,305评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,138评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,791评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,794评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,631评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,362评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,264评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,724评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,900评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,040评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,742评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,364评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,944评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,060评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,247评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,979评论 2 355

推荐阅读更多精彩内容