语音情感识别第二周报告

第二周报告 - 于建国 (YJango)

1. 特征提取

提取 OpenSMILE 全局特征 和 时序特征 后做成 tfrecord 便于特征的随意组合和 tensorflow 的训练。

全局特征 维度 时序特征 (lld) 维度
IS09_emotion.conf 384 MFCC13*3 timestep\times 39
IS10_paraling.conf 1582 IS10_paraling -D timestep\times 76
IS13_ComParE.conf 6373 IS13_ComParE -D timestep\times 130
ComParE_2016.conf 6373 FilterBank(40+total energy)*3 timestep\times 123

2. 特征筛选

选择出最好的 全局特征时序特征 用于做特征融合。

2.1. 全局特征筛选

使用全连接网络进行训练,取最好的网络结构的最后隐藏层作为全局特征。

2.1.1. 全连接网络结构

省略输入层和输出层,D 表示 dense, n 表示层数

全连接网络结构
#layer #node learning rate batch size epoch update
5 512 5e-4 96 50 Adam

2.1.2. 全连接网络 7-fold CV

用全连接网络 (FC) 的结果和 Gradient Boosting Decision Tree 基线结果进行对比。

特征 维度 GBDT rmse GBDT pcc FC rmse FC pcc
IS09 384 0.7349 0.6772 0.7539 0.6498
IS10 1582 0.6815 0.7307 0.6869 0.7214
IS13 6373 0.6775 0.7343 0.6741 0.7328
IS16 6373 0.6850 0.7274 0.6797 0.7294
IS09,13 384+6373 0.6729 0.7342 0.6748 0.7335
IS10,13 1582+6373 0.6763 0.7353 0.6616 0.7456
IS09,16 384+6373 0.6749 0.7326 0.6787 0.7306
IS10,16 1582+6373 0.6618 0.7453 0.6620 0.7459
IS09,10,13 384+1582+6373 0.6739 0.7339 0.6685 0.7386
IS09,10,13,16 384+1582+6373+6373 0.6639 0.7429 0.6697 0.7382

2.1.3. 全局特征选择

使用 IS10,13 和 IS10,16 特征集的全连接网络效果较好。
IS09,10,13,16 在全连接网络中并不容易训练。
由于很多论文偏向于 IS13,所以选择**使用 IS10,13 的全连接网络的最后隐藏层的输出 (512 维) **做为全局特征。

2.2. 时序特征筛选

尝试 一维卷积网络结构双向循环神经网络 来建模。取最好的网络结构的最后隐藏层作为时序特征。

2.2.1. 一维卷积网络结构

卷积网络速度快,特征集的筛选主要由它负责。k 是 kernel size,p 是 pooling type,gp 是在时间维上的平均池化。

一维卷积网络结构
pool size learning rate batch size epoch
2 5e-5 32 100

2.2.2. 一维卷积网络 7-fold CV

时序特征 维度 pool type kernel size rmse pcc
mfcc 39 max 2 0.7503 0.6524
fb 123 max 2 0.7321 0.6716
mfcc + fb 39+123 max 2 0.7001 0.7059
mfcc 39 avg 2 0.7698 0.6272
fb 123 avg 2 0.7462 0.6545
mfcc + fb 39+123 avg 2 0.6969 0.7090
mfcc 39 max 3 0.7471 0.6558
fb 123 max 3 0.7297 0.6764
mfcc + fb 39+123 max 3 0.7117 0.6725
fb +IS10+IS13 39+76+130 max 2 0.6708 0.7348
fb +IS10+IS13 39+76+130 max 3 0.6736 0.7325

其余结果略

2.2.3. 双向循环网络结构

与循环神经网络进行对比,时间缘故,并未调节卷积层的 kernel size,只用了 1x1 conv。

双向循环网络结构
learning rate batch size epoch
1e-4 64 50

2.2.4. 双向循环网络 7-fold CV

时序特征 维度 rmse pcc
mfcc 39 39 0.7110 0.6949
fb, IS10, 13 123+76+130 0.6888 0.7175

其余结果略

2.2.5. 时序特征选择

一维卷积网络稍优于,且快于循环网络结果。
特征上,单独的 mfcc 或 fb 都不如 IS10, 13 的特征集。
所以选择**使用 fb, IS10,13 的循环 或 卷积网络的最后隐藏层的输出 (512 维) **做为时序特征。

3. 特征融合

因为全局特征和时序特征只是形式不同,但有极强的相关性和重复信息。
所以使用 correlational neural networks 进行特征融合。
优点是可以仅使用一个输入 x (全局特征) 或 y (时序特征) 进行预测而不会过分破坏表现。

3.1. 网络结构

全局特征 和 时序特征的网络的权重是预训练后固定的。
训练完 correlational neural networks 后,固定网络权重,取 z 作为最后的特征。
最后把 z 作为输入,只训练 dense (relu) 和 output layer (共同形成MLP) 预测 P 值。

相关网络结构

3.2. 网络结构 7-fold CV

模型 特征 维度 rmse pcc
融合特征 using MLP 全局特征 (512) + 循环网络时序特征 (512) 512 0.6486 0.7569
融合特征 using MLP 全局特征 (512) + 卷积网络时序特征 (512) 512 0.6375 0.7655
mean( GBDT + 融合特征 using MLP) IS10,IS16 (384+6373) + 全局特征 (512) + 卷积网络时序特征 (512) 512 0.6335 0.7692

4. 代码说明

4.1. 特征提取

代码文件 作用 格式变换
extractor.py 批量提取全局、时序特征 .wav \rightarrow .txt or .mfc
data_maker.py 与标签对齐后转成 pandas.DataFrame .txt\rightarrow .csv
tfrecord_maker.py 将数据转成 tfrecord 文件 .csv or .mfc or .txt\rightarrow .tfrecord
data.py 帮助读写 tfrecord 文件 null

4.2. 神经网络

代码文件 作用
DNN.py 全连接网络实验
RNN.py 循环网络实验
CNN.py 卷积网络实验
Cr2NN.py 相关网络实验
layers.py 搭建层的帮助文件
cv_ids.npy 交叉验证的文件 ID

5. 线上测试结果

在额外测试集上表现。

模型 pcc
GBDT 0.7342
全连接网络 0.7118
卷积网络 0.7280
融合特征 using MLP 0.7499
融合特征 using GBDT 0.7472
mean( GBDT + 融合特征 using MLP) 0.7544
mean( GBDT + 融合特征 using GBDT) 0.7546

6. 结论

此任务中:

  • 特征
    • 全局特征 IS10,13 效果较好。
    • 时序特征 fb 优于 mfcc。
    • 时序特征 fb, IS10,13 效果较好。
    • 融合特征带来的提升比较显著,即便用来融合的 卷积模型特征 和 全连接模型特征本身效果很一般。
  • 模型
    • 一维卷积网络速度、参数量、效果都略优于循环网络。
    • 融合特征不论是用神经网络还是 GBDT 都可以取得较好的结果。
    • 平均第一周模型的结果和第二周模型的结果取得了最好的结果。

7. 附:导师评语

7.1. 导师1

  • 在特征提取上继续了上周的工作,并在此基础上筛选了全局特征和时序特征,并给出了筛选的过程。
  • 在网络结构上进行了7折交叉验证,并与 GBDT 进行对比。
  • 时序特征选择上使用一维卷积,双向LSTM。最后给出了融合特征的网络结构图。
  • 在项目工程文档里面给出每个文件的说明,最终给出了结论。
  • 并思考了深度学习网路结构在该数据集上的一些优缺点。

7.2. 导师2

  • 该学员在报告伊始给出目录,报告结构一目了然。
  • 中间过程多次使用表格对不同的项目进行对比,结构非常清晰,条理性非常强,逻辑严谨,思路清晰,描述详细。
  • 文中给出了网络结构图,非常清晰。
  • 对不同网络结构和特征描述非常详细,分析透彻。
  • 并在最后给出自己的感悟和结论。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容

  • 文章主要分为:一、深度学习概念;二、国内外研究现状;三、深度学习模型结构;四、深度学习训练算法;五、深度学习的优点...
    艾剪疏阅读 21,792评论 0 58
  • 第五个故事 不吃白菜 第一幕 地点:独身青年食堂 时间:1975年4月20日 12:00 于凤霞:听说了嘛,听说了...
    NeoTDX阅读 250评论 0 0
  • 不管命运和别人怎么对待你,你一定要好好对待自己,不论什么时候。 “我不怪你,我们离婚吧!”这是云菱对薛峇说的第一句...
    水曦蕊阅读 1,029评论 0 3
  • 当认出在抉择之难时,想要找到一条突破自己的路,既然能看到方向,但这条路注定是非常难走的! 从前辈人走过的路来看,每...
    辉高阅读 878评论 1 4