在线的语音转文字网站基本需要你注册账号,或者下载他们的应用,或者只提供几分钟的体验版,最终就是要求你付费。转出来的文字正确率也没法保证,再者国产的软件总各种你懂的问题。所幸在油管上找到了解决方案,那就是通过谷歌实验室部署github上的whisper项目,果然还得是国外大厂良心,完美诠释了免费,高效,易用。
参考油管视频
https://www.youtube.com/watch?v=ByJ5x0x4lY8
当然,这个方案需要你有谷歌账号。
1. 准备
登录谷歌云盘,在新建那里点google colaboratory。
1.可以修改项目名字
2.输入命令,然后点击左侧的play按钮用来在谷歌上部署whisper项目
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
3.把要转换的音频拖到此区域。支持wav,mp3等多种格式
此外,还需要把运行时改成GPU
2. 执行
点击+代码
,在新的命令行中输入命令,就可以开始转换了。
!whisper --language Chinese --model medium 2.wav --initial_prompt "以下是普通话的句子。"
3. 完成
根据载入的模型和音频文件大小,所需用时不等。我转过36分钟的电话录音,大概用时20分钟左右。左侧的各种文本就是转化好的文件了。
--model medium
载入模型有5个档位可以选择,具体内容谷歌。
--initial_prompt "以下是普通话的句子。"
用于转成简体字。
初步使用下来准确性还是不错的。
结语
如果长时间不跑程序,google colaboratory会断线,下次刷新需要重新部署项目,以及重新上传文件。
科技改变生活,吹爆谷歌。就互联网精神来说,国内大厂差了几十条街。