前一段时间因为一些原因恰巧我也有语音合成的需求,就找了一圈。怎么说呢?见过很多一听就不像人的,也见过一些听起来还不错的,但总觉得差点东西。
做的差的就不说了,做的还不错的那些声音总的来说就是感觉太单一了,配一些话一点感情都没有,再就是好的就那几款,都用那几款就变得好像都是一个声音了。
之前疫情困家里的时候刷了一段时间抖音,那里面就有不少生成出来的声音,记得当时刚开始刷的时候刷到了一个怪怪的大叔的声音讲王者荣耀的一个英雄,点进去一看全是那个英雄,讲的挺搞笑的,过了一会又翻到一个怪怪的大叔的声音讲另外一个王者荣耀的英雄,当时一下以为是一个人讲的,想着不对啊,他视频不都是前面的那个英雄吗?后来仔细一看才发现不是一个账号。再后面刷多了就发现有几个声音在抖音特别全,不同账号都完全一样,当时也没想怎么回事,后来搜语音合成软件的时候就懂了,全都是软件里同一个模型合成的,当然就一个音。
最搞人的是在找语音合成软件的时候我还找到那个怪怪大叔的声音了,是讯飞的一个模型,讯飞在语音方面做得确定是很不错了,不过真的想吐槽一下他那个什么线上语音合成,当时试的时候随便了十几个字,他竟然要6元,比真人配音还贵真的有人用吗?
想找个声音和真人差不多的,还可以很大程度上随意调音色和别人不一样,最好还有语言风格的,没找到最后就只能自给自足呢(其实是当时觉得有这样需求也是个机会不妨自己做个软件)
具体写软件的过程就不说了,但最后的成果我自己还是挺满意的,不足肯定有慢慢改吧,上面那个视频是我昨天做的,配音都是软件生成的,还是挺不错的,不过还没做大规模测试,我自己测了挺久用的挺好的,如果用想用这个软件的可以私聊我免费拿充值码,用了后使用体验和遇到的bug和我说一声。不缺钱也可以在软件里买充值码。软件暂时就放百度网盘里了,后有时间(关键是有人用的话。。)建个网站下载。下面链接除了软件还有一个简单的教程。
白度地址:1gNYo0_6omW5NRig2Gk-WwA 提取暗号:684q
po一张宣传图
再说一下为什么这个软件解决了我上面说的问题吧,看了上面的宣传视频会发现首先这个软件是支持语音风格选择的,风格类型也挺多,效果也不错。再就是在原本配音声音就和真人差不多的基础上,可以调音量、语速、语调和均衡器,前3个比较多见,但均衡器现在有的配音软件应该是都没有的,至少我没见过。简单说一下均衡器的左右吧,它可以把原本声音上的不同频率段进行增益或者衰减,可以很多程度上改变一个人声音。一般可能都不知道这个东西,但是变声器应该都听过,变声器里很重要的一部分就是均衡器。
到具体使用的时候,有一个配音员的声音你很喜欢,但觉得那有点不合适,你可以调整语速语调和变声器到你觉得很棒,以后配音就用这组参数,这样就得到了一个你自己觉得非常棒的定制声音,好听且区别与其他声音。
另外还有一些小的功能,比如我自己做宣传视频的时候发现我是把几句几句当一个整体去和视频结合,如果在一开生成的时候就是按我想的这几句对应文件那几句一个文件就挺方便的呢,但就要转换很多次,又麻烦。我就在程序里加了一个特殊符号¥,用来分割音频。比如你要转换的是下面这样一段文字:
人的记忆分成“显性”(explicit )和“隐性”(implicit) 记忆两大类。¥
显性记忆就是能用语言表达的,又分成 “陈述型记忆”和 “事件记忆”。陈述型记忆的内容主要是知识,比如你背诵的唐诗。事件记忆是经历,比如回忆前天你早饭吃的是什么。¥
隐性记忆则主要是“程序记忆(procedural memory)”,比如学会骑车、滑雪、跳舞这些连续动作,以及学会的顺口溜、外语 。隐性记忆一旦形成可以稳定终生,所以你在小时候学会骑车,即使日后多年不骑车,但一接触自行车还是马上能骑。
转换完成后就会生成3个音频文件分别对应3段话,具体可以看一下使用教程或者自己试试。