关键词: 录音时长 音频格式 支持平台 压缩格式 音频高保真 普通话 英语 方言 文件大小 合成文本长度 语音识别 语音合成 单声道(支持) 语言自训练平台
短语音识别极速版(针对1分钟内,手机版)
短语音识别标准版(针对1分钟内) 实时语音识别 音频文件转写
注意点:
如果是小于60s的录音文件,请选择rest api
如果是实时录音,请选择实时语音识别api
名词解释:
短语音识别极速版:将60秒以内的完整音频文件识别为文字,专有GPU服务集群,识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互,如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件,录音文件时长不超过60秒。实时返回识别结果。
短语音识别标准版:百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。
实时语音识别:可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。
音频文件转写:音频文件转写接口可以将大批量的音频文件异步转写为文字。适合批量录音质检、会议内容总结、录音内容分析等场景,一般12小时内返回识别接口。接入步骤如下:
应用详情:
换取 Token(请求语音接口需要鉴权,用分配的 Key 替换地址中的参数)
https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=API Key&client_secret=Secert Key
个人申请的先需领取免费的额度:
http://tsn.baidu.com/text2audio(rest-api-tts)Text To Speech 语音合成的一个接口请求的参数解释:
http://vop.baidu.com/server_api (rest-api-asr) Automatic Speech Recognition 语音识别的一个接口文档请求的参数解释(涉及到语音文件上传,有用postman测试成功)---https://ai.baidu.com/ai-doc/SPEECH/ek38lxj1u#%E8%AF%86%E5%88%AB%E6%A8%A1%E5%9E%8Bdev_pid%E5%8F%82%E6%95%B0
1.json方式上传的参数:
2.RAW 方式上传音频
curl -i -X POST -H "Content-Type: audio/pcm;rate=16000" "http://vop.baidu.com/server_api?dev_pid=1537&cuid=xxxxx&token=1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328" --data-binary "@/home/test/test.pcm"
百度语音文档:
https://ai.baidu.com/ai-doc/SPEECH/Hk38lxo4u // 一個免費额度的规则
https://github.com/Baidu-AIP/speech-demo
https://ai.baidu.com/ai-doc/SPEECH/Vk38lxily
https://cloud.baidu.com/doc/SPEECH/s/Ek39uxgre 语音识别的文档
https://cloud.baidu.com/doc/SPEECH/index.html