爬静态网页:打印豆瓣top250电影名

请求头


重要的是user-agentHost

  headers = {

    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',

    'Host': 'movie.douban.com'
    }

url

第一页
https://movie.douban.com/top250


https://movie.douban.com/top250?start=0 也一样

第二页
https://movie.douban.com/top250?start=25&filter=


第十页(最后一页)

可以发现url规律是 https://movie.douban.com/top250?start=25*index
对第一页也成立

拿到html

import requests


def get_movies():
    
    # 浏览器复制出来的头
    headers = {
        
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
    
        'Host': 'movie.douban.com'
    }
    
    for i in range(0, 10): # 10页 每页25个
        
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)
        
        r = requests.get(link, headers=headers, timeout= 10)
        print (str(i+1),"页响应状态码:", r.status_code)
        print (str(i+1),"页内容:", r.text)
        
      

html里面提取出电影名

<div class="hd">
  <a href="https://movie.douban.com/subject/1292052/" class="">
    <span class="title">肖申克的救赎</span>
     <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
    <span class="other">&nbsp;/&nbsp;月黑高飞(港)  /  刺激1995(台)</span>
  </a>
  <span class="playable">[可播放]</span>
 </div>
movie_list = []
    #.....
    for i in range(0, 10): # 10页 每页25个
         
        #  ....
        # 从HTML 里面解析出需要的电影名字
        soup = BeautifulSoup(r.text, "lxml")
        div_list = soup.find_all('div', class_='hd')
        
        for each in div_list:
            movie = each.a.span.text.strip()
            movie_list.append(movie)
            
    return movie_list

全部代码

import requests
from bs4 import BeautifulSoup

def get_movies():
    
# 浏览器复制下来的头
    headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
    'Host': 'movie.douban.com'
    }
    
    movie_list = []
    
    for i in range(0,10): # 一共10页
        
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)
        
        r = requests.get(link, headers=headers, timeout= 10)
        print (str(i+1),"页响应状态码:", r.status_code)
        
        soup = BeautifulSoup(r.text, "lxml")
        div_list = soup.find_all('div', class_='hd')
        
        for each in div_list:
            movie = each.a.span.text.strip()
            movie_list.append(movie)
            
    return movie_list
        
movies = get_movies()
print (movie_list)

结果

1 页响应状态码: 200

2 页响应状态码: 200

3 页响应状态码: 200

4 页响应状态码: 200

5 页响应状态码: 200

6 页响应状态码: 200

7 页响应状态码: 200

8 页响应状态码: 200

9 页响应状态码: 200

10 页响应状态码: 200

['肖申克的救赎', '这个杀手不太冷', '霸王别姬', '阿甘正传', '美丽人生', '千与千寻', '辛德勒的名单', '泰坦尼克号', '盗梦空间', '机器人总动员', '海上钢琴师', '三傻大闹宝莱坞', '忠犬八公的故事', '放牛班的春天', '大话西游之大圣娶亲', '教父', '龙猫', '楚门的世界', '乱世佳人', '天堂电影院', '当幸福来敲门', '触不可及', '搏击俱乐部', '十二怒汉', '无间道', '熔炉', '指环王3:王者无敌', '怦然心动', '天空之城', '罗马假日', '少年派的奇幻漂流', '鬼子来了', '大话西游之月光宝盒', '星际穿越', '蝙蝠侠:黑暗骑士', '两杆大烟枪', '飞屋环游记', '活着', '窃听风暴', '飞越疯人院', '海豚湾', '闻香识女人', 'V字仇杀队', '美丽心灵', '教父2', '哈尔的移动城堡', '指环王2:双塔奇兵', '指环王1:魔戒再现', '天使爱美丽', '情书', '死亡诗社', '美国往事', '七宗罪', '钢琴家', '狮子王', '控方证人', '辩护人', '被嫌弃的松子的一生', '致命魔术', '勇敢的心', '剪刀手爱德华', '饮食男女', '小鞋子', '音乐之声', '低俗小说', '入殓师', '本杰明·巴顿奇事', '沉默的羔羊', '蝴蝶效应', '黑客帝国', '拯救大兵瑞恩', '素媛', '西西里的美丽传说', '玛丽和马克思', '心灵捕手', '幽灵公主', '第六感', '阳光灿烂的日子', '让子弹飞', '春光乍泄', '大鱼', '大闹天宫', '射雕英雄传之东成西就', '重庆森林', '阳光姐妹淘', '上帝之城', '甜蜜蜜', '禁闭岛', '致命ID', '告白', '一一', '疯狂动物城', '加勒比海盗', '狩猎', '爱在黎明破晓前', '布达佩斯大饭店', '阿凡达', '断背山', '风之谷', '摩登时代', '萤火虫之墓', '猫鼠游戏', '爱在日落黄昏时', '末代皇帝', '侧耳倾听', '哈利·波特与魔法石', '驯龙高手', '超脱', '海洋', '幸福终点站', '穿条纹睡衣的男孩', '菊次郎的夏天', '燃情岁月', '消失的爱人', '倩女幽魂', '神偷奶爸', '电锯惊魂', '谍影重重3', '岁月神偷', '真爱至上', '借东西的小人阿莉埃蒂', '雨人', '七武士', '恐怖直播', '虎口脱险', '贫民窟的百万富翁', '东邪西毒', '记忆碎片', '杀人回忆', '疯狂原始人', '红辣椒', '怪兽电力公司', '卢旺达饭店', '黑天鹅', '穿越时空的少女', '魂断蓝桥', '恋恋笔记本', '猜火车', '喜宴', '英雄本色', '雨中曲', '傲慢与偏见', '小森林 夏秋篇', '喜剧之王', '教父3', '完美的世界', '纵横四海', '玩具总动员3', '萤火之森', '人工智能', '我是山姆', '浪潮', '香水', '冰川时代', '7号房的礼物', '哈利·波特与死亡圣器(下)', '撞车', '花样年华', '追随', '朗读者', '一次别离', '碧海蓝天', '罗生门', '秒速5厘米', '荒蛮故事', '梦之安魂曲', '战争之王', '可可西里', '心迷宫', '时空恋旅人', '唐伯虎点秋香', '超能陆战队', '地球上的星星', '海盗电台', '蝙蝠侠:黑暗骑士崛起', '谍影重重2', '谍影重重', '小森林 冬春篇', '阿飞正传', '恐怖游轮', '迁徙的鸟', '荒野生存', '惊魂记', '达拉斯买家俱乐部', '勇闯夺命岛', '绿里奇迹', '魔女宅急便', '爆裂鼓手', '未麻的部屋', '再次出发之纽约遇见你', '卡萨布兰卡', '东京物语', '燕尾蝶', '牯岭街少年杀人事件', '被解救的姜戈', '这个男人来自地球', '末路狂花', '变脸', '英国病人', '终结者2:审判日', '忠犬八公物语', 'E.T. 外星人', '叫我第一名', '哪吒闹海', '青蛇', '发条橙', '源代码', '黄金三镖客', '黑客帝国3:矩阵革命', '穆赫兰道', '新龙门客栈', '非常嫌疑犯', '美国丽人', '城市之光', '上帝也疯狂', '无耻混蛋', '初恋这件小事', '勇士', '爱·回家', '蓝色大门', '曾经', '无敌破坏王', '暖暖内含光', '麦兜故事', '模仿游戏', '大卫·戈尔的一生', '蝴蝶', '血钻', '国王的演讲', '遗愿清单', '与狼共舞', '巴黎淘气帮', '荒岛余生', '偷拐抢骗', '夜访吸血鬼', '爱在午夜降临前', '疯狂的石头', '枪火', '千钧一发', '月球', '爱在暹罗', '中央车站', '寿司之神', '我爱你', '罪恶之城', '廊桥遗梦', '两小无猜', '彗星来的那一夜', '黑鹰坠落', '假如爱有天意']

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,423评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,147评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,019评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,443评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,535评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,798评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,941评论 3 407
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,704评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,152评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,494评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,629评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,295评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,901评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,978评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,333评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,499评论 2 348

推荐阅读更多精彩内容