HIT SPLAB端到端说话人识别演示系统说明

部署环境要求

  • python 3.0+
  • sklearn
  • numpy
  • tensorflow
  • pyprind
  • pyaudio
  • scipy
  • python_speech_features

目录结构说明

  • speaker_recognition_demonstration
    • model
      • model_of_extractor_with_attention
      • params_1.json
    • spk_model
      • speaker_model.model
      • register_data.npy
      • register_label.npy
      • register_speaker_names.npy
    • wav
      • eval
      • recorded_audio
      • register
      • tmp
  • speaker_recognition_function.py
  • spk_recognition.py
  • spk_recognition_with_microphone.py
  • spk_register.py
  • spk_register_with_microphone.py

model:
model/model_of_extractor_with_attention: 已训好的端到端说话人识别模型;
model/params_1.json: 模型参数;

spk_model:
spk_model/speaker_model.model: 已注册说话人模型;
spk_model/register_data.npy: 已注册说话人的embedding;
spk_model/register_label.npy: register_data.npy中embedding对应的数值标签;
spk_model/register_speaker_names.npy: register_label.npy中数值标签与真实标签的映射;

wav:
wav/eval: 存储待测试语音,可以使用整个文件夹内的数据进行识别;
wav/recorded_audio: 说话人使用实时录入语音注册时,语音临时存放文件夹,模型创建成功后文件夹内语音将会转移至wav/register;
wav/register: 注册说话人语音存放路径;
wav/tmp: 使用实时录入的方式测试模型语音临时存放路径;

系统使用流程:

方法一. 使用实时录入的方式进行注册、测试;【推荐】

  1. 使用spk_register_with_microphone录入语音,请根据“提示信息”录入语音;
    ps.语音录入期间连续朗读即可,无需中断,程序会自动截取为5个3秒段作为注册语音;
    该命令需要传入参数'speaker_name',即注册说话人名称。注意: 名字不要带空格,否则python将会中断程序。以'LiuChongming'为例,代码如下:
    python3 spk_register_with_microphone.py --speaker_name wav/speaker_name​ LiuChongming​
    注册成功将会输出如下内容,并在 spk_model 文件夹中保存 speaker_model.model 模型以及相应注册数据:
======================================================================
|                                                                    |
|             *  HIT Speech and Signal Processing Lab  *             |
|                                                                    |
|                End-to-End Speaker Recognition Demo                 |
|                                                                    |
|                                                                    |
|                       Author: LIU Chongming                        |
|                       Mentor: HAN Jiqing                           |
|                       Date  : 2019/06/18                           |
|                                                                    |
|   Speaker model has been built in spk_model/speaker_model.model    |
|                                                                    |
|                                                                    |
======================================================================
  1. 说话人识别测试:该命令需要传入参数'speaker_name',即当前说话人名,该名称仅做标识,可随意输入,默认为'guest';另外存在备选参数'seconds',即录音时长,以秒为单位,默认为3秒。
    以'guest'为例,代码如下:
    ​python3 spk_recognition_with_microphone.py --speaker_name guest --seconds 3
    执行成功后将会输出如下内容,其中得分越高,越接近某个说话人,程序会显示TOP5的得分:
======================================================================
|                                                                    |
|             *  HIT Speech and Signal Processing Lab  *             |
|                                                                    |
|                End-to-End Speaker Recognition Demo                 |
|                                                                    |
|                                                                    |
|                       Author: LIU Chongming                        |
|                       Mentor: HAN Jiqing                           |
|                       Date  : 2019/06/18                           |
|                                                                    |
|          Recognition result of guest:       LiuChongming           |
|                                                                    |
|           Similarity score:                                        |
|                                                                    |
|                      LiuChongming:           122.84                |
|                        xxxxxxxxxx:           100.46                |
|                          xxxxxxxx:            82.34                |
|                          xxxxxxxx:            76.86                |
|                          xxxxxxxx:            71.94                |
|                                                                    |
======================================================================

方法二. 使用离线数据进行注册、测试;

  1. 数据准备:
    1. 在 wav 路径下创建一个文件夹,将注册音频放入该文件夹中。
      ps. 文件夹命名随意,但音频命名要符合'说话人名-编号.wav'格式,程序将以'-'作为分隔符读取说话人名称作为标签,音频要求为 wav 格式;每个说话人注册语音数量建议最好≥3,录音时长无要求,尽量大于2秒;

    2. 执行注册代码,假设“步骤1”中创建的文件夹为'register',代码如下:
      python3 spk_register.py --audio_folder_path wav/register_audio
      执行成功后,会显示与方法一一致的输出。

    3. 在 wav 路径下创建一个文件夹,将测试音频放入该文件夹中。
      ps. 文件夹命名随意,其中音频命名规则无要求,只要用户能知道哪个音频属于哪个说话人即可。

    4. 假设“步骤3”中创建的文件夹为'eval',代码如下:
      python3 spk_recognition.py --audio_folder_path wav/eval_audio

使用问题:

  1. 如果想重新注册说话人,只需要将 spk_model 路径下的 'speaker_model.model' 模型删除即可;
  2. 建议使用 register 与 eval 分别作为注册语音文件夹以及测试语音文件夹;
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,013评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,205评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,370评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,168评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,153评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,954评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,271评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,916评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,382评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,877评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,989评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,624评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,209评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,199评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,418评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,401评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,700评论 2 345

推荐阅读更多精彩内容