部署环境要求
- python 3.0+
- sklearn
- numpy
- tensorflow
- pyprind
- pyaudio
- scipy
- python_speech_features
目录结构说明
- speaker_recognition_demonstration
- model
- model_of_extractor_with_attention
- params_1.json
- spk_model
- speaker_model.model
- register_data.npy
- register_label.npy
- register_speaker_names.npy
- wav
- eval
- recorded_audio
- register
- tmp
- model
- speaker_recognition_function.py
- spk_recognition.py
- spk_recognition_with_microphone.py
- spk_register.py
- spk_register_with_microphone.py
model:
model/model_of_extractor_with_attention: 已训好的端到端说话人识别模型;
model/params_1.json: 模型参数;
spk_model:
spk_model/speaker_model.model: 已注册说话人模型;
spk_model/register_data.npy: 已注册说话人的embedding;
spk_model/register_label.npy: register_data.npy中embedding对应的数值标签;
spk_model/register_speaker_names.npy: register_label.npy中数值标签与真实标签的映射;
wav:
wav/eval: 存储待测试语音,可以使用整个文件夹内的数据进行识别;
wav/recorded_audio: 说话人使用实时录入语音注册时,语音临时存放文件夹,模型创建成功后文件夹内语音将会转移至wav/register;
wav/register: 注册说话人语音存放路径;
wav/tmp: 使用实时录入的方式测试模型语音临时存放路径;
系统使用流程:
方法一. 使用实时录入的方式进行注册、测试;【推荐】
- 使用spk_register_with_microphone录入语音,请根据“提示信息”录入语音;
ps.语音录入期间连续朗读即可,无需中断,程序会自动截取为5个3秒段作为注册语音;
该命令需要传入参数'speaker_name',即注册说话人名称。注意: 名字不要带空格,否则python将会中断程序。以'LiuChongming'为例,代码如下:
python3 spk_register_with_microphone.py --speaker_name wav/speaker_name LiuChongming
注册成功将会输出如下内容,并在 spk_model 文件夹中保存 speaker_model.model 模型以及相应注册数据:
======================================================================
| |
| * HIT Speech and Signal Processing Lab * |
| |
| End-to-End Speaker Recognition Demo |
| |
| |
| Author: LIU Chongming |
| Mentor: HAN Jiqing |
| Date : 2019/06/18 |
| |
| Speaker model has been built in spk_model/speaker_model.model |
| |
| |
======================================================================
- 说话人识别测试:该命令需要传入参数'speaker_name',即当前说话人名,该名称仅做标识,可随意输入,默认为'guest';另外存在备选参数'seconds',即录音时长,以秒为单位,默认为3秒。
以'guest'为例,代码如下:
python3 spk_recognition_with_microphone.py --speaker_name guest --seconds 3
执行成功后将会输出如下内容,其中得分越高,越接近某个说话人,程序会显示TOP5的得分:
======================================================================
| |
| * HIT Speech and Signal Processing Lab * |
| |
| End-to-End Speaker Recognition Demo |
| |
| |
| Author: LIU Chongming |
| Mentor: HAN Jiqing |
| Date : 2019/06/18 |
| |
| Recognition result of guest: LiuChongming |
| |
| Similarity score: |
| |
| LiuChongming: 122.84 |
| xxxxxxxxxx: 100.46 |
| xxxxxxxx: 82.34 |
| xxxxxxxx: 76.86 |
| xxxxxxxx: 71.94 |
| |
======================================================================
方法二. 使用离线数据进行注册、测试;
- 数据准备:
在 wav 路径下创建一个文件夹,将注册音频放入该文件夹中。
ps. 文件夹命名随意,但音频命名要符合'说话人名-编号.wav'格式,程序将以'-'作为分隔符读取说话人名称作为标签,音频要求为 wav 格式;每个说话人注册语音数量建议最好≥3,录音时长无要求,尽量大于2秒;执行注册代码,假设“步骤1”中创建的文件夹为'register',代码如下:
python3 spk_register.py --audio_folder_path wav/register_audio
执行成功后,会显示与方法一一致的输出。在 wav 路径下创建一个文件夹,将测试音频放入该文件夹中。
ps. 文件夹命名随意,其中音频命名规则无要求,只要用户能知道哪个音频属于哪个说话人即可。假设“步骤3”中创建的文件夹为'eval',代码如下:
python3 spk_recognition.py --audio_folder_path wav/eval_audio
使用问题:
- 如果想重新注册说话人,只需要将 spk_model 路径下的 'speaker_model.model' 模型删除即可;
- 建议使用 register 与 eval 分别作为注册语音文件夹以及测试语音文件夹;