本文首发于:行者AI
1. 引言
虚拟偶像是通过绘画、动画、CG等形式制作,在因特网等虚拟场景或现实场景进行如歌手活动,以商业、文化等具体需求制作培养,但本身并不以实体形式存在的人物形象。
伴随着虚拟世界的到来,越来越多的虚拟产品也随之出现。比如常见的AR、VR产品、二次元虚拟产品等等。在这其中最受欢迎、关注度也极高的还是虚拟偶像。顾名思义,“虚拟偶像”身份是虚构的,在现实生活中并不存在,但它却具备人类的外观和行为意识,万物皆可虚拟化,赋予人的动作行为。
说起虚拟偶像,最先出圈的是初音未来,她以CG的形象连开了9场巡演,是以虚拟偶像的形象成功进行商业变现的首例。从各大公司相继推出小冰、小爱,到中国首个虚拟学生华智冰,还有抖音上火爆全网的虚拟偶像柳夜熙。可以看出这个行业的蓬勃发展。
虚拟偶像的本质是由算法和AI程序组成的,在功能的实现上基本脱离了人类,具有独立于人类思想之外的行为能力。我们知道,从图灵机开始,创造一个真实拟人的人工智能就一直是计算机的终极浪漫。这是一个比较复杂的工程,虚拟IP之所有如今的发展,得益于在AI领域中各个技术之间的突破,如数字人多模态建模,NLU,NLG,语音合成,技术等。
2. 数字人多模态建模
数字人多模态建模技术是数字人从声音、表情、动作的多模态角度,用对话和与语境相关的动作完成交互的技术。再通过“语义+语音+视觉”,构建支持多种场景的数字虚拟形象:在线直播,新闻主播,企业客服,企业代言,AI导游,AI助手,AI在线教育。
在数字人的制作方面与与建模方面,主要是靠外观捕捉设备与视觉算法。随着近年来外观捕捉设备与视觉算法和相关制作工具等的发展,数字人的制作周期与难度已经下降了非常多。今年2月虚幻引擎公布了MetaHuman Creator实时3D创作工具,使用该工具创作数字人时间从原本的数周乃至数月缩短至一小时以内,同时该工具能保证如照片般逼真的制作效果。
图1.MetaHuman Creator
3.自然语言技术
这里的自然语言技术是指NLU(自然语言理解),NLG(自然语言生成)。NLU让虚拟IP能够理解人类的语言,NLG则让虚拟IP能够思考、输出并与人类交互。自然语言技术代表着虚拟IP的核心,也就是智能。设想一下,如果虚拟IP没有自己的思想,不能与人类进行语言交互,虚拟IP表达出的东西还需要虚拟IP背后的人类进行指定,那么这样的虚拟IP不能被称为真正的虚拟IP产品。
为了解决这样的问题,近年来,大规模的自然语言相关预训练模型层出不穷,例如浪潮人工智能研究院发布的全球最大中文预训练语言模型“源1.0”,参数量已达2457亿。这样的大规模预训练模型在某些特定领域能够接近甚至达到人类水平。图2.源1.0
4.语音合成技术
为了让虚拟IP看起来更真实,使用起来体验更好,语音合成技术是必不可少的技术。虚拟形象不仅要看的见,其高辨识度的「嗓音」更是重要的声音名片。也就是说不同的虚拟IP需要不同的音色,甚至一些特殊的虚拟IP需要根据虚拟IP的形象性格与人设属性「凭空创造」适合该IP的音色。同时需要注意的是,虚拟IP发声的时候,虚拟IP的表情,动作以及对应的嘴形都要与发出的文字对应。这样的语音合成技术应该算是多模态的语音合成技术。如下图所示,是一种支持同时输出合成语音与虚拟IP面部信息的解决方案。该方案可以确保输出的语音与面部信息是完全对应的。图3.DurIAN模型
随着虚拟IP的发展,人们对于虚拟IP用到的语音合成技术的需求也在提高,比如虚拟IP是否能用相同的音色进行普通的发声的同时,也能用该音色进行歌声的合成?现有的虚拟IP产品,很大一部分是依靠真实人类扮演虚拟IP,给虚拟角色配音,这样如果虚拟IP对应的演员声音有变动的话,就会导致该虚拟IP产品力的下降。所以研发既能够支持语音合成又能够支持歌唱合成的语音合成技术是非常必要的。
5.One more thing。。。
现有的虚拟IP技术可以让虚拟形象比较接近人类,但是在真实性,智能性与专业性等方面,虚拟IP与真实的人类还是有所差距。所以虚拟IP还能做到什么呢?还有什么样的技术能够被应用到虚拟IP当中呢? 现有的虚拟IP在内容创作方面相对来说比较薄弱。虚拟IP产生的内容大部分是作者预先设定好的。所以虚拟IP技术可以在内容创作方面发展相关技术,让虚拟IP能够进行符合其形象的故事,音乐,诗词等内容的生产,让每一个虚拟IP的特点都不那么类似。