我喜欢在上班和下班的途中,在拥挤的人群中塞上耳机,用院长的声音隔绝这个城市不属于我的东西。然后突然有一天我问我自己:"你有没有觉得,'回忆'这个词出现的很频繁,会不会是所有歌中出现次数最高的那个词?"早些时候我不以为然,但每次听歌都有这个想法,那我觉得我是时候验证一下了
第一步:写爬虫
在GitHub上开源的有关网易云上的爬虫的项目有不少,这里我用的是作者叫GreatV的CloudMusic-Crawler,我在他项目的基础上做了修改,新增了从一个歌单中获取所有歌曲的歌词。
这个歌单中共有279首歌曲,在我知道的这并非全部,这仅仅是再网易云下院长的个人主页下的所有歌曲,有些歌曲是翻唱(怎么连翻唱都那么好听💛),有些歌曲会重复,但是它们是以不同专辑中或各种巡演中出现,这里就不做剔除,因为有时出现越多,某种程度上代表这首歌被很多人喜欢,就像这首《告诉我》
运行时出现"Processing the lyric of the song with id"就说明已经获取对应id那首歌的歌词,它们将会被存放在一个JSON文件里。
文件里的中文是被编码过的,所以查看需要解码,看着熟悉的歌词,院长的声音出现在我脑海里。
第二步:词频分析
首先是前50名的排序
维度有点大,我选取了前10名进行分析
前10名分别是:世界、回忆、温柔、失去、却说、寂寞、拥抱、爱情、自由、留给。可以看出,“回忆”这个次确实频率高,但是它并不是第一,第一是“世界”这个词,领先了2个次数,不过总觉得这10个词语能连成各种各种的句子呢💙
顺手也做了一个词云:
接着可能还会有疑问:那前三名的词语都出现在哪些歌曲里呢?
我打印了一下,发现是它们
包含“世界”的歌曲
《我喜欢上你时的内心活动》
《鱼》
《太阳》
《太多》
《告诉我》
《Self》
《花的姿态》
《偶然与巧合》
《嫉妒》
《别送我回家》
《会不会》
《我有一套限量的约翰连侬纪念邮票》
《手的预言》
《静静的生活》
《微笑上海》
《就算全世界与我为敌》
《梦》
《整个世界的黑暗》
《一个奇迹,或者你的梦...》
《我开始练习从陌生的小站出发》
《黄色的浮板》
《随便说说》
《下午三点》
《以自暴自弃的方式出现》
《Enemy》
《老师的话》(翻唱蔡蓝钦的同名歌曲)
《进入花园》
《为什么写静静的生活-OS》
包含“回忆”的歌曲
《告诉我》
《表面的和平》
《小步舞曲》
《微凉的你》
《倔强爱情的胜利》
《小尘埃》
《越洋电话》
《秋天蒙太奇》
《慢歌3》
《孩子》
《推翻》(翻唱王菲的同名歌曲)
《老师的话》(翻唱蔡蓝钦的同名歌曲)
《慢歌》
包含“温柔”的歌曲
《鱼》
《失败者的飞翔》
《烟火》
《家》
《一首歌,让你带回去》
《腐朽》
《倔强爱情的胜利》
《嫉妒》
《柏拉图式的爱情》
《普鲁斯特行动》
《我的骄傲无可救药》
《天使》
《慢歌3》
《雨天的尾巴》
《慢歌》
最后
戴耳机的兔子说,“我们的生命一定会有很多出口,让我们可以从过去里脱身。鱼在狭窄的河道里,游向危险却辽阔的海;地铁里的自动售票机,一枚硬币清脆地蹦出来;喜欢一个人太久太累了,忽然喜欢上另一个人。生命的每个选择都会有两个出口,两种方向。无论如何,不要质疑和后悔自己的选择。要让选择成长出另一种可能,要让回忆都是快乐。”
晚安。✨✨✨
有趣的小插曲
在调用网易云音乐的接口的时候,由于网易做了很强的反爬虫侦测,被发现时会被将IP列进黑名单,会导致所在网络不能搜索歌曲,不能获取歌曲歌词等。要隔一段时间才会从黑名单中移除,那天狗旺跟我说网易云突然搜索不了,我要不要告诉他其实是我踩了网易爸爸的尾巴?