写在前面
在上次观看了比利.林恩的中场战事之后,开始进入了豆瓣的电影世界,对于一个新用户来说,特别喜欢豆瓣电影的影评,对于所看过的留下深刻印象的电影都在豆瓣上搜了一边,同一部电影,希望能看到与自己感受不同的观点,因为每一位观众都有着不一样的人生轨迹,看待事物的角度可能会有所不同,正是这种差异往往能引发思考。豆瓣的电影数据方面一直以来都比较权威,对于每一位热爱电影的观众来说都是很好的参考,受众小而专,影评和评分都比较客观。。吧!
关于数据
电影数据来源于豆瓣网站,已经爬完了所有的电影分类标签,总共抓取到的电影记录有34177条,其中没有电影评分的记录有6399条,这些都是经过去重和清理后的数据,清理指的是对于电视剧、真人秀、脱口秀等等的筛除,也就是说数据里仅仅包含电影。电影票房数据来源于电影票房数据库网站,记录不多,只有2577条,经过简单地去离群点与豆瓣电影数据混合后只剩下2353条。电影数据中包含电影名字、导演、主演、所属国家或者地区、电影类型、语言类型、评价人数、以及评分等等。
分析目的
从不同的角度来观测数据,查看各个参数之间的联系,发现实际的有趣的问题,大体上进行分析。
豆瓣的电影世界
一、从电影数量上观测数据
1、各国发行的电影总数
从直方图的显示来看,美国发行的电影数量最多,是位居第二的中国大陆的两倍还多,其次是日本、英国、香港、韩国…美国的电影数量在意料之中,美国经过漫长的电影发展史,到现在已经形成了庞大的专业“电影生产线”,韩国的电影数量有点出乎意料,只有1277部,当然这只是从所爬取的数据中观测到的。
2、21世纪各年度发行的电影数量
从进入21世纪之后各年度电影发行数量来看,大体上呈现出逐年增长的趋势,2009-2011年这三年增长趋势停滞,特别是2015年相对于2014年增幅最大。2015年之后每年电影发行数量突破两千,每年可供观众选择的电影也越来越多样化了,希望质量也能随数量越来越高呀!
3、21世纪每个年份各月发行的电影数量
这是21世纪以来每年的各个月份电影发行量趋势图,有意思的是每年的9、10月份电影发行量最多,会达到一年中的峰值,难道是中秋国庆小长假的原因吗?各月份之间的波动不大。。。
4、大陆与港台地区电影数量随时间的变化
80、90年代香港电影正巅峰,每年的电影发行量一直处于前列,最多的时候是93年的86部,但之后呈下降趋势。大陆在2000年以前电影发行量都比较稳定,21世纪之后发展迅猛,16年电影发行量突破了400…台湾地区整个趋势都比较平和,11年之后有小波动。
二、从电影评分上观测数据,反映电影质量
1、世界电影均值趋势
在这部分的分析开始时已经对没有评分的电影进行了筛除,从数据的反映可以看出全世界的电影评分均值在1929年到2005年之间都比较稳定,基本维持在7.3-8.1之间。在05年之后出现了下滑,在08-10年之间下滑停滞,均值是7.0分,到之后直到2016年一直下滑到6.1分,基本上算及格,可见在这几年随着电影数量的上升,质量有所降低,是不是烂片有点多了呢?
2、中国与世界上其他所有国家和地区在电 影评分均值上的对比
当然,中国包含了大陆和港澳台地区,在改革开放后,中国的电影评分均值趋势普遍低于世界上所有国家和地区(将世界上其他所有国家和地区看成是一个整体来对比),中国是实实在在拉了世界的后腿呀!特别是2010年之后,差距越拉越大,这得好好反思了。。。虽然说这几年世界电影评分均值也在下滑,可是中国的下滑地也太快囖!
3、电影发行量前五的国家评分均值对比
从图中可以看出基本上评分均值最高的是英国,其次是日本、法国、和美国,最后是中国。特别是最近这几年,中国有些反常,说实话,最近这几年咱中国拍的烂片确实多了些。
4、大陆和港台地区电影评分均值对比
话说,台湾地区的评分均值趋势一直活跃于祖国的顶端啊!港台地区一直都比较稳定。大陆在09年之前都是很不错的,分布在6.5-8.1分之间,在1984年一度达到8.1分,09年之后蹭蹭地往下滑,曾经一度下滑到4.0,15年之后有所回升。
5、中国大陆的电影评分分布
从上图的数据中可以反映出,在1966年-1978年之间几乎没有电影评分统计,在这段时间内大陆电影史上几乎一片空白。在改革开放之后直到2011年,每年的评分中位数一直保持在6.0分以上。随着近几年电影的发展,大陆的电影发行量急剧增加,但是评分中位数逐年下降,从2010年的6.5分下降到2016年的4.7分,也就是说在2016年这一年内大陆地区所拍的电影评分有一半是在4.7分以下的,但是也有拍的比较好的电影,评分达到8.9分,评分最低达到2.1分。
三、从票房的角度进行分析
1、内地各年度票房统计
从票房数据统计来看,在2013年之前票房增长是很有规律的,在2013年之后出现爆发式增长,2015年的票房是2013年的两倍,达到445亿左右。截至目前为止,2016年的票房是410亿左右,2016年的票房数据还没完全统计到,估计不会比2015年少。从另一个角度来看,随着经济的快速发展,人们的生活方式也在发生着变化,热爱电影逐渐成为一种新的生活习惯,希望生活幸福指数越来越高哩。
2、豆瓣评分与票房均值之间的关系
当然是评分越高,票房越高啊!所以说高质量电影不愁没有票房。。。
四、评价人数排在前30的电影列表
这些都是质量和人气都非常高的电影,大部分我都看过了,最喜欢的是肖申克的救赎,泰坦尼克号,海上钢琴师和楚门的世界,当年的小李子啊。。。
题外话
1、爬取数据的工具
计算机语言:java
数据可视化工具:tableau(比较简单易用)
2、自己也是一边学一边用,这只是一个小小的爬虫,从编写代码,调试,抓取数据,数据清理和规范到分析,最大的感受就是无论做什么都要有所规划,尽量预测可能发生的问题,在执行的过程中尽量避免问题,当然,就算遇上问题也不怕,因为办法总是比困难多!
3、在爬取豆瓣数据的时候遇到的问题
(1)如果没有登陆就抓取数据,会被豆瓣的服务器封了ip,不过第二天就会好了。
(2)登陆了之后,抓取数据过快的话会触发豆瓣的反爬虫机制,当前会话会被服务器拒绝,同时会让你输入验证码证明不是机器之后才能继续访问。
(3)针对于第二个问题我的解决方法是,在晚上10点之后爬取会好很多,服务器负载小,就算下载线程开到10,出现反爬虫验证码也很少。当然这不是根本的解决之道,另外如果出现验证码的时候,让所有的下载线程挂起,然后在控制台上手动输入验证码,让程序继续访问。这不太方便了,各位有什么好的办法吗?
(4)对于票房数据的来源,是从电影票房数据库网站爬取的。票房数据是用图片生成,应该就是用来反爬虫的吧,一开始尝试着使用tess4j进行图片识别,图片很小,经过适当放大处理后整体识别率高了一些,但小数点后的识别往往会出偏差,效率也低,最终放弃了这个方法。
如果发现什么问题,欢迎提出来,在下感激不尽啦!
好好生活,好好成长!
VigoLin