豆瓣电影TOP250数据分析

豆瓣电影TOP250数据分析

一、前言

  基于第一次学习了爬虫,对爬虫有了初步的认识,希望写下这篇文章,记录一下自己的学习情况。因为自己之前并没有接触过编程语言,学习过程有很多困难,这里很感谢某站的教学视频,真的很详细,对于没有学习过编程的我帮助真的很大。目前对于爬取数据自己也是一知半解,所以这篇文章,着重的部分是分析的部分。

  在很多地方都看到过对豆瓣电影TOP250的数据分析,但是还是希望从这250条数据中分析出自己想要的分析内容。

二、数据概况

  这个数据抓取了豆瓣电影TOP250的电影,总计250部电影。包含电影详情链接、图片链接、影片原名、电影评分、电影的评价人数、电影概况、电影相关信息。数据爬取主要借鉴的李巍老师的课程,自己的理解也很浅,简单把数据截图如下:

1、数据源码



2、经过处理之后的数据


三、数据分析

把这250条数据处理完之后,希望能在这个250条数据中得出一些内容。

1、哪个年份上榜的电影比较多

  经过数据透视之后可以看出,三个年份电影上榜的数目最多,1994年、2004年、2010年。也可以看出1986年之前的数据评分都比较低,这里面2020年的数据可以忽略,爬取数据的时间2020年电影的数据比较少。排除1986年之前的数据,1996、2005、2007、2012年的数据都很少。


  电影的发展历史可以大致划分为三个重要时期,分别是形成期,发展期,成熟期。十九世纪三十年代,电影开始了它的发展之路,1960年至今,世界电影从突破创新中走向多样化发展。图片虽然是数据很少,但是也能看出从1990年之后,上榜的电影数目也在不断增多,也可以说明电影越来越成为人们生活中不可获取的娱乐方式。

2、哪个国家上榜的电影比较多

  同一部电影不同的国家参与拍摄制作,这部电影归属于这两个国家。希望可以看出不同国家上榜的数量,虽然数据很少,不能说明这个国家的电影一定很好,但是也证明了,这个国家的电影发展情况相对不错。


  从图中可以看出,美国电影上榜的数量占近一半,美国电影行业一直遥遥领先与其他国家。其次上榜较多的是日本,而其中占比较多的类型是动画。然后分别是印度、中国大陆、中国香港。印度的电影行业近些年来也是在不断的发展,形成了宝莱坞等的一些电影基地。

3、根据评论制作出词云图

  某一部电影能过成为经典,一定有其道理,《肖申克的救赎》这部电影豆瓣评分9.7,这部电影拍摄于1994年,到现在看我们来看这部电影,它依旧能带给我们深思,这也是它能够在众多电影中脱颖而出的原因吧!因此,我找到这部电影的一些评论,虽然只选取了50条评论,不能说明什么问题,但是,也能看出影迷对这部电影的一些评价。


  根据词云图可以看出,正中简单额电影2字是人们最多提及的,当时做词云图的时候想过把这个去掉,但是觉得这个也不该去掉,电影能被称为电影应该也是一种评价,如果电影很不好,可能我们也不说这部电影怎么样了。其次比较明显的就是自由、人、希望,我也觉得这个是电影传达的一个主旨。生而为人,我们都不易,我们有自由的权利,无论任何时刻都要有对恶势力说“no”的勇气,何为救赎?就是当一个人的心中重新燃起希望之火的时候,可怕的不是这个时代,是被时代同化的我们,生而平凡,但是依旧要获得精彩。

四、总结

  文章的最后,我想写下,在写这篇文章的时候,遇到过哪些问题、不足、以及自己学到了什么。能写下这篇文章,很感谢在某站上发现李巍老师python爬虫有关的课程,也是因为看到老师的课程,才有勇气写下文章,俗话说的没有巧妇难为无米之炊,没有数据是没办法写出文章的。Python如今我的掌握可能连入门都是算不上,但是要比之前好很多,学无止境。学习python过程中我遇到很大的问题就是,还有很多东西不理解,目前自己能过做的也是死记硬背来的,需要爬虫别的东西依旧还是不会。之后发现数据分析产出的内容,其实没有什么深刻含义,也只能表达我在学习了一些课程的一些成果吧,数据太少了表达的观点有限。我记得有位老师和我说过,写一份数据分析,一定要有目的,你想通过数据分析得到什么,回想起老师的话很重要,一个框架的梳理真的很重要,希望我在日后的学习和工作中能多补足这一点。

  最后的最后我想写下我自己在从学习数据分析以来的收获,我接触数据分析最早可能也到大三吧,上课时候就很有兴趣,但是学校学习的内容都是偏理论方面,后来就自己上网搜索了一些内容,了解之后,觉得自己很感兴趣,在这个信息的时代,我们收获到信息的方式种类都很多,但是那都是别人都能看到,只有自己挖掘出来的是别人看不到,大数据时代,利用数据是无可避免,在数据中也将收获到更多。之后我就开始学习一些软件Excel这个就不用说了,对于处理基础数据十分重要,还有一个重要愿意,它的操作很容易,刚开始学它的时候,也是最有信心的时候。后来相继学习了SQL、tableau、了解了python数据分析相关方面,现实教会了我很多做人的道理,因为之前是一点都没接触过SQL,刚开始学习的时候真很难,难在自学的时候,你不知道从哪里学起,走了很多弯路,后来也是偶然发现一位老师的课程,很好很基础主要他会告诉你,你学了基础之后,你要去哪里继续练习,这里就给一些想要学习数据分析的人一点点建议吧,市面上课程很多,当然我没报过特别贵的课程,当时也是想报来着,奈何没钱!那种很贵的课程3个月左右,课程内容很多,以后工作能用上的自行考虑吧。我来说说我报的一些其他班,关于数据分析的课程我可能报了能有四个班,每个班其实都有学习一点东西,但是这些东西,其实你只报一个班,或者不报去各个网站学习依旧能得到,报了很多课程之后,也让我深刻认识到,其实数据分析,除了软件操作,更重要的是思维,分析的能力,这个我也在追寻得路上,没办法给出意见。文章内容很浅薄,但是也是我一段时间的收获,有很多问题,但是我们都是在问题中成长的,希望自己能成为数据分析打工人的人上人!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容