杀G之路漫漫,求索之人跄跄。如何边看电影边记单词,娱乐学习两不误?且让大数据告诉我们,究竟哪些影视作品大量出现GRE单词?看懂多少部影视作品,就可以掌握过半GRE词汇?
【先放结论1】都说没有调查就没有发言权,本文通过对11万部影视作品进行大数据分析,为大家找出那些与GRE最相关的作品。原来包含最多GRE单词的是哈姆莱特!看懂时长4小时的哈姆莱特可以帮你掌握915个GRE单词!而掌握过半GRE词汇,可能只需要看懂20部电影!
数据来源
感谢射手站长,他将15年来积累的海量字幕数据无私分享出来,供广大群众学习研究使用。其中包括对应于26万部影视作品的66万份字幕文件,压缩后大约75G。经过压缩格式分类,解压缩,字幕格式分类,编码转换,英文识别,数据清理等过程后,得到对应于114198部影视作品的225190份英文字幕文件2。
数据分析
1. 英文字幕中有多少GRE单词?
绝大部分英文字幕包涵0-300个GRE单词,平均值108,方差52,概率分布如下图。GRE单词最多的单个字幕文件来自于莎翁的《哈姆莱特/Hamlet》,内含915个GRE单词,难怪让人如痴如醉!所谓“一千个读者,就有一千个哈姆莱特”,大概是……看到这些单词不认识啊!所以就只好乱猜啦,然后每个人都猜得不一样!反正本宝宝是看得醉了……
2. 最“学术”的十大影视作品
有的作品包含GRE单词比较多,但时间也很长。到底哪些影视的“性价比”最高呢?根据GRE单词占所有英文词条的比例排序,以下列出10大最“学术”(GRE单词占比最高)的影视作品供参考。其中有来自莎翁的作品有三部——《哈姆莱特/Hamlet》,《麦克白/Macbeth》和《奥塞罗/Othello》,平均每4个不同单词里面就有一个可以在红宝书里找到!现在,你们知道谁是真正的GRE狂魔了么!!!
经常有一种错觉,那些喜欢看纪录片的同学都逼格很高。现在知道,这并不是错觉!在top 10高频GRE电影中,六成是来自Discovery,国家地理和BBC的纪录片。所以,人家用来思考说话的语言就已经和凡人拉开档次了好嘛!
GRE单词占比Top 10影视作品 | 词条数 | GRE单词数 | GRE单词占比 |
---|---|---|---|
海底奇观/ (Discovery) Secrets of the Deep Splendors of the Sea | 568 | 154 | 27.1% |
掠食者系——昆虫王国/(Discovery) Hunters - The Crawling Kingdom | 1143 | 299 | 26.2% |
哈姆莱特/Hamlet | 3604 | 915 | 25.4% |
人间天堂/(National Geographic) The Living Edens | 990 | 251 | 25.4% |
我们一起游荡在夜的黑暗中,然后被烈火吞噬/ In Girum Imus Nocte et Consumimur Igni | 2073 | 523 | 25.2% |
昆虫战役/ (National Geographic) Insect Wars | 901 | 223 | 24.8% |
麦克白/Macbeth | 2281 | 559 | 24.5% |
大堡礁/(National Geographic) Australias Great Barrier Reef | 1110 | 272 | 24.5% |
奥塞罗/Othello | 2563 | 625 | 24.4% |
艺术即力量——毕加索/(BBC) Power of Art - Picasso | 1423 | 344 | 24.2% |
3. 看电影背GRE的学习曲线
现在问题来了,走过多少路才叫做成长,最少看完多少电影才学完GRE?考虑到不同影片的单词大量重复,这并不是一个简单的问题。
用数学的语言说,是给定全集U以及一个包含n个集合且这n个集合的并集为全集的集合S,要找到S的一个最小的子集,使得他们的并集等于全集,简称最小集合覆盖,是一个经典的NP难问题。
(😅一脸懵逼,能不能说人话!)
翻译成中文就是说,这个问题很难,非常难,难到本宝宝不会,地球人到现在也没有找到优雅的解法😅……所以本宝宝就偷懒用贪心算法做个简版的回答啦~如果本宝宝每次都观看可以使当前GRE词汇量增加最多的一部影片,那么本宝宝的GRE学习曲线将是如下这样,红线表示累计学到的GRE词汇量,绿线表示每多看一部电影可以学到的GRE新词数目。在这时,本宝宝发现了一个秘密:如果看懂x轴上的前20部影片,本宝宝就可以掌握4143个GRE单词,超过全部8250个GRE单词3的半数!本宝宝决定把这份电影清单分享给大家,如果想要知道特定电影的GRE单词数目,读者也可以简信询问本宝宝哦~
囊括半数GRE词汇的20部影视作品 | 词条数 | GRE单词数 | GRE单词占比 |
---|---|---|---|
哈姆莱特/Hamlet | 3604 | 915 | 25.4% |
永不入睡:猛鬼街传奇/Never Sleep Again: The Elm Street Legacy | 3874 | 717 | 18.5% |
时代精神:迈步向前/Zeitgeist: Moving Forward | 901 | 223 | 24.8% |
国家公园:最后的避难所/The National Parks Americas: The Last Refuge | 2682 | 540 | 20.1% |
酣歌畅戏/Topsy-Turvy | 2555 | 533 | 20.9% |
无形的帝国/Invisible Empire | 3042 | 600 | 19.7% |
我们一起游荡在夜的黑暗中,然后被烈火吞噬/In Girum Imus Nocte et Consumimur Igni | 2814 | 579 | 20.6% |
林肯/Lincoln | 2387 | 493 | 20.7% |
电子游戏如何改变世界/How Video Games Changed the World | 2747 | 510 | 18.6% |
刺杀肯尼迪/JFK | 3012 | 555 | 18.4% |
魔法师的宝典/Prospero's Books | 1981 | 471 | 23.8% |
天外来菌/The Andromeda Strain | 2609 | 495 | 20.0% |
鹅毛笔/Quills | 1992 | 453 | 22.7% |
巴黎,让时光回溯/Paris, la ville à remonter le temps | 2108 | 482 | 22.9% |
时间之旅/Voyage of Time | 2256 | 503 | 22.2% |
午宴之歌/The Song of Lunch | 1475 | 327 | 22.2% |
国家公园:大自然的圣经/The National Parks: The Scripture of Nature | 2413 | 504 | 20.9% |
奥塞罗/Othello | 2563 | 625 | 24.4% |
故园风雨后/Brideshead Revisited | 2842 | 424 | 14.9% |
老子说/Laozi Says | 1764 | 420 | 23.8% |
Take away
1. 看懂时长4小时的哈姆莱特就可以帮你掌握915个GRE单词哦!
2. GRE成绩最好的那个同学可能是威廉·莎士比亚。
3. 看纪录片提高逼数是可以有科学原理的!
4. 学完半数GRE单词可能只需看懂20部剧作。
1注:并不保证看电影学英语是最高效的GRE的备考方法。
2注:因字幕版本,文件格式,内容分节等原因,有的作品对应有若干份字幕。
3注:本宝宝搜集了网上不同版本的GRE词汇列表,合并起来共8250个单词。