墨门CAT演讲大会 第六期
演讲嘉宾 韩玉珅
MetaMusic Inc. 共同创始人与CEO.
前Apple公司声学测量设计师,负责产品设计和试产过程中声学部件系统整合,3年间实地协调多家供应商/组装厂在美亚之间往返20多次;2011-2012年间在音乐科技创业公司 Zenph Sound Innovations 开发钢琴演奏自动跟随教育软件,后被 Steinway & Sons(施坦威钢琴)收购。
美国 Indiana University Bloomington (印第安纳大学)音乐信息学博士,兼修统计学与音乐理论。
点击观看完整演讲视频
▼
▋ 韩玉珅:用听懂演奏的人工智能,带来音乐教育和演出的未来
(本文约3600字,根据演讲内容整理而成,部分有删改,本次演讲包含多段音乐演示内容,建议直接观看原视频。)
大家下午好,我是 MetaMusic 共同创始人 CEO 韩玉珅。我今天来到深圳,想跟咱们深圳的朋友们分享一下,我们交叉学科这个领域,人工智能和音乐对音乐的演出和教育,今后 5到10年的范围之内带来怎样的可能。
那首先我们来介绍一下,什么是音乐?那我们的理解呢,音乐就是作曲家将一连串的声音,事先排好的声音事件,被演奏者用人声或者器乐的声音,加上自己的理解,实现出来,最终被我们听众所感知,达到一种情感上和美感上的体验。我下面给大家,讲一个耳熟能详的例子来解释一下啊。音乐最抽象的形式,乐谱。这个曲目是卡农轮唱,三把小提琴和低音提琴,这相信大家一定会很熟悉。
(音乐演示)
好了,我给大家举这个例子呢,目的就是用非常非常简单的方式,来介绍一下音乐。我们根据我们对音乐的理解呢,是两个维度。一个是在时间上,那么在音乐的演奏过程之中呢,时间是不停的在流逝的,相对对应的音乐节奏的这个元素。另外一个元素是纵轴,在音乐演奏过程中的任何一个瞬间,我们都有一组不同组合的音高或者音色的不同组合的声音事件。再给大家一个声音上的感受,那么我刚才给大家放这个示例,实际上是一个电子合成器的版本。那么这首曲目,实际上在几百年内被不同的管弦乐团,有不同版本的改编,在不同的场合下,在音乐会上有有无数次的演奏。那么这演奏和演奏之间,也就是说我们演奏者对同一首乐曲的不同的演奏和理解,这个它的本质是什么?这些区别是什么呢?让我们看下一个例子。
从乐谱到乐音,那么这个例子呢,是我们肖邦的《夜曲》,作品第九号第一首。我们可以看到,这个乐谱本身除了乐谱上面描述的声音,抽象的声音事件之外呢,还有大量的辅助演奏的信息,包括音高音准。钢琴它是有固定的音高的乐器,它一个键就是一个音高,这是没有变化的。但是它有大量的对节奏和力渐强渐减弱、渐快渐慢,还有对踏板,还有对音乐的乐句的表现力和加速减速的这样大量的音乐表情的标识。那这些标识,如果我们最直接的后果就是,如果我们非常直接的表现出来了,我给大家举一个相关艺术领域的例子。就刚才我跟张一博老师在开玩笑,就好比郭德纲、于谦写的相声抄在纸上,让我跟张一博老师在台上对着大家念,那楼下大家往台上扔茶壶,我们俩一点儿不冤枉。那么这个在音乐上呢,就说最重要的这个音乐家演奏者,他要把自己对音乐的理解,通过不同的表情,通过不同的音高音色、节奏力度的变化,来用乐器的声音来实现出来,这个才是音乐打动人最本质的东西。
(音乐演示)
那么我给大家举一个残忍的例子,现在大家所听到的就是用现在的西贝柳斯人工作曲软件,人工打谱软件根据音乐字面上的意思,把这个音乐合成出来是这样的一个效果。那我们下面一个例子呢,是我们制作的一个,加上了对音乐的情感,以及加上对音乐的理解和表情。注意,这个不是一个录音,而是一个人工智能,加上了我们对音乐的理解和感情制造的一个合成。
(音乐演示)
那么我们怎么做到这一点的呢?我们做了大概是三件事情,第一个的事情,非常简单,我们把乐谱来进行一些数字化的处理,就是乐谱的光学识别,这个非常直接。那么第二个层次上呢,我们用一个例子来表示,这个是斯特拉文斯基的单簧管独奏,我们取了前八个音符。那么我们以第二个音符,单簧管的低音部的G#这个音为例子呢,台下做的一些事情就是实际上我们采样了几百种不同的乐器,不同的八度、不同的音高、不同的表情、不同的力度、不同演奏手法。我们对这些音进行采样进行分析,那么最终可以用数学模型去描述每种乐器的不同的乐音。那么最终可以做到的一个事情呢,就是我们从乐音又回到这个演奏家对音乐的描述,而这个演奏家对音乐的实现来倒推回去这个演奏家在演奏这首音乐之中对音乐的理解和艺术表现。
那么我们现在只有有一首音乐,一位演奏者对一首音乐的理解。但这还不够,下面要做的一件事情是我们找到了大量知名和不知名的演奏家,对同一首音乐的不同的表达。这样我们就知道了,我们就可以用大量的机器学习的办法就可以知道了,机器学习辅助人工手动去分析的话,我们就可以去看到同一首音乐被不同的人,被大量不同的音乐家所演奏出来,他相同的地方是在哪里?不同的地方在哪里?哪些地方、哪些段落是大家比较共识的?哪些地方的是不同的音乐家作出不同的处理?哪些地方甚至于是错误的?
那么这些做这些事情呢,我们就可以回到我们主题是未来。那么我们知道过去呢,我们都是从乐谱演奏到通过乐音来演奏,那么我们今后可以做的事情呢,也就是通过我们这些人工智能的技术,通过这个音乐乐音的理解和对乐谱本身的理解,再结合对人类情感表达和理解,我们就可以把乐谱和乐音做出一个更加统一化的一个音乐载体。我们就不在乎会把音乐分成明确的,这是乐谱,这是乐谱的一个唱片。而是说我们把乐谱和对乐谱的声音实现放在一起,来为用户带来一个全新的交互式的音乐体验。
那么这个体验之一,这是一个在我们这个领域很有名的一个例子。想象下这是拉赫玛尼诺夫 20年代的唱片,音质大概是这样的。
(音乐演示)
我们想象一下,拉赫玛尼诺夫已经过去很多年了。突然间,这么样的一个人又回到,我们假设把他还魂回来,一个非常灵异的想法,就是如果他当年对音乐的理解,演奏他自己作的这首曲子。用现在的这套算法去倒推他在现在的钢琴,在现在的录音条件下,会怎么样地去把同一首曲子演奏出来。那么结果是这个样子,这是一架装备可以自动演奏系统的钢琴,那么这套演奏的乐曲的数据的理解,是根据我们算法从他一九一几年到三几年的唱片之中学习到的。
(音乐演示)
我们刚才展示了,我们人工智能领域现在可以做到的事情。那么我去年来到深圳发展呢,很大程度上是我们想在这个地方,做一些面向未来的事情。那么最重要的是音乐教育。我下面的就是想给大家做一下现场演示,有请张一搏老师。
(张一搏老师上场)
大家下午好,刚才那个韩玉珅老师讲解的,从工程师的角度来讲解这套人工智能的培育系统。我呢,会从一个的使用者、演奏者的角度来为大家展示一下。对于我而言,是个非常非常神奇的这么一个系统。换句话来说呢,如果早15年,我是从学生的时候,如果我能有这样的系统,我想我今天晚上会笑醒,会兴奋到无法自已。很可惜,我现在已经早已经不是学生,我在教大量的学生。但是我们这套系统呢,是非常非常的人性化的。从我们的角度,其实这套系统给大家的感觉就是,在我的身后有一个差不多是80人左右的,用我们专业术语叫双管编制的交响乐团,叫 Symphonic Orchestra,一个交响乐团在我的身后,但它实际上是不存在的。那这个录音呢,是MetaMusic公司从欧洲,就是跟欧洲最一流的交响乐团合作的录音。但是它根本上的一个区别,就是不是我们平常去看到的什么卡拉ok。因为卡拉ok的性质,就是它的节奏是死的,我们人声通过这个话筒传输进去现场合成,大家得到一个愉悦的效果。那是卡拉ok,但是它是死的。
那对于古典音乐音乐这么复杂系统而言呢,这个人工智能系统可以根据演奏者的快慢、强弱、演奏习惯、处理,甚至于是这个情感,然后呢我们再专业点的话,它会有大量的音色上的变化,它都会非常敏感细微地体察到。就是我们可以随时随地地让一个80人左右的交响乐团为我服务。比如我今天晚上想演奏这个作品,我不可能现场抓一交响乐团过来。我把这个系统一打开,这样作为一个演奏者,他的体验是无与伦比的。那么我将接下来为大家演奏这么一段这个协奏曲。
我简单介绍一下,这个协奏曲是德国著名作曲家马克斯·布鲁赫,他的一首小提琴协奏曲。所谓协奏曲,英文名叫concerto,协奏曲是什么意思呢?这个我小时候看小品,协奏曲是不是斜着拉?小提琴协奏曲是不是斜的,不是的啊。它是由一件乐器或者几件,一般不超过五件,用乐器跟交响乐团互相发生竞奏,就是一种良性竞争或者合作关系这么一种乐曲的表现形式。那么为大家来选取了这个作品当中最有代表性的两段,第一段的是相对自由的一个片段,可以感受到我跟这个系统之间是那么的默契。我演奏其实是非常自由的,它随时可以感觉的到,我结束它开始,甚至有时候我没结束,它也可能会开始。那真的是我们之间一种默契,就好像我跟一个指挥对眼神一样,这第一段。第二段的就是展示的是更多的变化,首先它情绪是相对温暖一点,然后之后呢会非常紧凑的,步步紧趋地独奏跟交响乐团在一起,最后能达到一个非常漂亮的一个高潮。大概就这么两段,请大家欣赏,谢谢。
(张一搏老师演奏)
然后我们刚才那展示的是我们作为一个职业演奏者的,这个系统给我们带来这么美妙的体验。但实际上更多的是呢,我们也会跟韩博士合作,将这套系统更多地运用在这个青少年音乐教育这个领域上。那么可以解决一个非常重要的痛点,就是因为99%的家长毕竟都不是专业的,他们在家中的是没有办法指导和监督孩子有效地正确地练琴。那么这个系统可以很大的程度上,相当于一个人工智能的陪练系统。所以这是我们下一步正要做的一个非常重要的事情,这将大大地改变整个音乐教育的面貌,这就是我跟韩博士心中的这个未来,谢谢大家。
▋什么是墨门CAT演讲?
墨门CAT(Culture,Art,Technology)演讲大会,是一个以文化,科技,艺术为主的非盈利演讲平台,秉持:“独立之精神,自由之思想”的演讲宗旨。
墨门书院一直在寻找或者连接优秀的演讲者,每期墨门CAT演讲大会都会邀请到来自不同行业和领域的嘉宾,让他们分享独特的观点和见解、非同寻常的故事和独一无二的思想。
同时,墨门CAT演讲有“三不原则”,分别是不做项目路演;不讲融资和商业模式;不讲“百度百科”。设立“三不”原则的原因,是我们希望墨门CAT演讲能够真正为听众带来价值,传递思想、引发思考,而非硬广和推销。