模型下载地址:http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz
解压放到kaldi-trunk/egs下即可,打开终端,链接steps和untils(这里改为自己的路径):
ln -s ~/kaldi-master/egs/wsj/s5/steps ~/kaldi-master/egs/cvte/s5/steps
ln -s ~/kaldi-master/egs/wsj/s5/utils ~/kaldi-master/egs/cvte/s5/utils
识别效果如下:
效果还是不错的,而且这10个测试的语音文件口音是相当的重啊……
为了更直观的看对比效果,我把thchs30例子中的10个句子拿过来进行识别,效果如下:
下图是thchs30的DNN识别结果:
源文件:
对比下来,cvte开源的模型要比thchs30的dnn识别的更好一些,可惜的是cvte只开源了训练好的模型,即一个final.mdl和一个有限状态机即HCLG.fst,它的语音库和详细的配置文件,操作步骤暂时还不知道,准备下一步先把在线搭起来吧,然后再尝试RNN模型,RNN模型kaldi中是有的,把tensorflow的给集成过来了,是用在nnet3基础上的,但是怎么用我还不清楚,总而言之,不管啥模型,一切以识别效果为主导吧!
这里再贴一些语音杂谈中关于cvte的建议和文件:
语音杂谈:本着促进语音研究的共同进步原则,我们CVTE小组也将相关文件公布给大家。
采用这些新提供的文件,大家可以做更多的研究:
1)替换掉CVTE提供的语言模型,生成自己的HCLG.FST;
2)利用自己的场景数据,可在chain model上进行finetune;
3)提示:请大家不要整个文件夹下载,节约带宽;若事先有下载HCLG.FST等,可以不用重复下载这个文件;
地址:https://drive.cvte.com/p/DU7d7uEQvAIYrUE
此外,后台需要ppt资料:链接:http://pan.baidu.com/s/1gfjBbPL 密码:2b34。
总之,很感谢kaldi官网,kaldi群里的小伙伴,即群主和管理员们的博客,以及语音杂谈的公众号,都是干货!