刚刚看了Prisma的原理之后,老土突然觉得这种将图片的内容和图片的样式分离并再次组合的思路好像在什么地方见过!在“以需要开心的思考”这个非常“成熟”的理由下,老土默默的喝了一杯c记甜水。之后老土竟然真的想起来了,好像在很久之前的一种被称为MIDI的音乐格式就是利用这个思路,即将音乐的内容和音乐的样式分离开...MIDI的技术原理可以在百度上搜到,这里简单转述如下。
MIDI文件是一种描述性的“音乐语言”,它将所要演奏的乐曲信息用字节进行描述。譬如在某一时刻,使用什么乐器,以什么音符开始,以什么音调结束,加以什么伴奏等等,MIDI文件本身并不包含波形数据,所以MIDI文件非常小巧。在播放时,根据MIDI文件记录的乐曲信息向波表发出指令,从“表格”中逐一找出对应的声音信息,经过合成、加工后回放出来。而“波表”指的是将各种真实乐器所能发出的所有声音(包括各个音域、声调)进行取样,存储为一个波表文件。
通过上面原理可以看出,MIDI文件中保存的内容相当于“音乐的内容”,而波表文件中保存的内容相当于“音乐的样式”,而MIDI音乐的播放过程实际上就是再次将“音乐的内容”与“音乐的样式”组合在一起的过程。MIDI的这种思路在今天的音频处理领域已经获得了非常广泛的应用,比如:科大讯飞有一款应用叫“讯飞语记”。这款应用不但支持识别用户的语音并以文本的形式加以保存,而且支持将文本再次转换为语音。更为重要的是,这款应用可以实现文本转换为语音的时候使用不同的声音效果(如:王老师,小萝莉,男主播等)。在这款应用中,用于转换为语音的文本就是“语音的内容”,而“王老师,小萝莉,男主播”等不同的音效就是“语音的样式”。因此可以说,“讯飞语记”的语音生成也是基于“语音的内容”与“语音的样式”的分离和融合。
今天从Prisma说到了语音合成,内容的跨度算是很大了。不过今天既然开了头就不怕脑洞更大一些。Prisma是图片的内容与样式的分离,讯飞语记是语音的内容与样式的分离,还有其他的“内容”与“样式”分离的案例吗?
有!比如《攻壳机动队》!这个片子的核心内容就是,人的”灵魂“与躯壳的分离。这里不妨复习一下《攻壳机动队》中最最著名的一段台词。
生死来去,棚头傀儡。一线断时,落落磊磊
什么是人的灵魂?老土觉得可以将“灵魂”对应为“人的内容”,而人的躯壳则是“人的样式”。因此《攻壳机动队》是人的内容与样式的分离!
关于《攻壳机动队》的内容,各位看官也可以看看老土之前的一个帖子。
[老土来推荐阅读]关于《攻壳机动队》的一些内容(http://www.jianshu.com/p/45c270fbead4)
[全文完]
这样一路分析下来,老土仿佛get到了什么,“内容与样式的分离将成为某种模式?”。如果其可以成为一种模式,是否可以基于此模式演绎出更多的应用场景?...