在日常交流中,人类能够通过聆听语言和观察表情以及姿态动作等捕捉对方的情感变化,识别情感状态信息,进而进行情感交流。而如果想让机器能够像人一样的感知和理解情感,那么就必须让机器能够对人类这方面的能力进行模拟,进而让机器具有捕捉多模态的情感特征,并对其进行处理,最后表达出相应人类情感的能力。
一、情感特征提取
1.1 语音信号
1.1.1 语音信号预处理
在情感交互系统中,进行语音情感的识别首先需要实现语音信号的采集,一般用麦克风进行语音采集。在实时采集完成后,需要对语音信号进行预处理,主要流程如下:
采样过程是以一定的时间间隔 T 对连续的语音信号进行取值,将连续信号变为离散信号的过程,其中 T 为采样周期,采样频率 F = 1 / T。其中,采样频率很关键,若过高,就会包含冗余信号信息,而过低则产生不同程度的信号失真。一般来说,采样频率大于所采集信号最高频的两倍时,就能较为完整地保留信息且可对原始信号进行重构。
采样完成后的语音信号在幅度上并没有离散化,而量化就是将信号幅值进行离散化,其过程是把幅值分为几个有限区间,将落入同一区间的样本点用该区间代表的幅值来统一表示
由于声门激励等对语音信号的影响, 其平均功率谱在800Hz以上的高频部分按照6dB倍频程衰减,就需要加入预加重处理来补偿跌落的功率。一般是用一个预加重滤波器处理信号,然后还需要再加上 -6dB 倍频程的频率特性来去除预加重以还原原来的信号特性。
加窗处理是用一个窗截取语音信号,实际上是进行短时分析。目前,常用的窗函数有矩形窗、海宁窗和汉明窗等。而语音信号进过加窗后得到一帧一帧的短时信号,按照顺序依次提取每一帧短时信号数据进行分析处理得到相应的参数,再由每一帧所有的参数构成语音情感特征参数的时间序列。
一般来说,语音信号包括无声和有声的部分,有声部分又包含背景噪声等非语音信号,端点检测就是从中检测出用于分析处理的有声信号部分。常用的方法有短时能量分析、短时过零率或基于短时能量和过零率的双门限端点检测法
1.1.2 声学情感特征提取
一般语音情感特征分为语言学和非语言学特征,基于语言学的情感特征一般包含于语义信息中,如词汇、语法、语境和句法等,非语言学特征就是基于声学的情感特征,基于不同类型特征的语音情感识别流程如下:
其中声学情感特征提取有基频、共振峰、Mel频率倒数系数、非个性化特征、特征统计等方法。
1.2 视觉信号
面部表情是情感表达中最直观的一种方式,对视觉信号的处理即识别面部表情,主要是利用计算机对人脸的表情信息进行特征提取分析,按照人的认知和思维方式加以归类和理解,结合现有情感信息方面的先验知识对人脸信息中分析理解人的情绪和情感。
人脸表情识别系统框架将人脸表情识别分为三个过程,即人脸检测定位获取、人脸特征提取、人脸表情特征分类,具体框架图如下:
1.2.1 人脸检测与定位
目前人脸检测方法有三种,即基于人脸几何特征的方法、基于人脸肤色模型的方法和基于人脸统计理论的方法。
a、基于人脸几何特征的方法
人的面部器官具有几何运动变化的特点,会随面部运动而产生一定的几何改变,这种在物理几何上体现的轮廓变化即人脸的几何特征。目前存在如下三种方法:
一是基于先验知识的方法,该方法利用人类的灰度差异和对称性来制定相应准则检测人脸是否存在;
二是基于特征不变的方法,该方法主要是检测如眼睛、鼻子、嘴巴等不变的特定特征来判断人脸的存在。该方法具有识别率高和稳定性好等优点,但易被噪声和遮挡等因素的干扰,对检测图像要求较高;
三是基于模板的方法,该方法给定一个人脸模板,并确定其模板的值,通过对照的方法,如果模板匹配则检测出人脸,否则检测错误。该方法具有过程简单、容易实现等优点,但检测精度不高、效果不好、检测率低。
b、基于人脸肤色模型的方法
由于肤色不依赖于面部其他器官,相对来说具有较强的稳定性,因此可以通过检测肤色来进行人脸检测与定位。
人脸肤色特征一般通过建立相应的模型来描述,检测时首先根据被测图像像素与肤色模型的相似程度,结合空间相关性将可能的人脸区域从背景中分割出来;然后对分割出的区域进行几何特征分析,确定与人脸特征的相关值,从而排除非人脸的似肤色区域,达到检测人脸的目的。
c、基于人脸统计理论的方法
该方法从整个人脸的角度出发,利用统计的原理,从众多图像中提出人脸共有的一些规律来进行人脸检测。因人脸图像的复杂性,描述人脸特征具有一定困难,所以基于统计的方法更加受到重视。主要的方法有子空间、支持向量机、隐马尔可夫模型、神经网络和Adaboost。
1.2.2 人脸表情特征提取
人脸表情特征提取的核心目标是提取人脸图像中可分性好的表情信息,同时达到数据降维的目的。目前,在表情识别中,提取的特征包括原始特征、形变特征和运动特征。主要存在两种提取表情特征的方法:基于形变的表情特征提取和基于运动的表情特征提取。
a、基于形变的表情特征提取
该方法主要包括基于子空间、几何特征、模型、Gabor小波变换等方法。
基于子空间的方法包括主成分分析PCA、线性判别分析LDA。其特点是用一个正交维数空间来说明数据变化的主要方向。通过减少在表情识别中处理数据的时间进而提高表情识别的速率甚至识别率。
基于几何特征的方法主要考虑了人脸表情跟人脸运动有较大的关联,通过对显著特征包括眼睛、眉毛、嘴巴的位置变化进行定位测量提取表情特征。在本身质量较差或复杂环境中,以及不能精确定位到表情信息区域时,特征提取效果不佳。
基于模型的方法可以在一定条件下提取人脸几何形变特征和纹理特征信息,但需要人工干预,处理信息量较大,计算复杂。
基于Gabor小波变换的方法在模式识别领域有着广泛应用,它通过一组具有不同时频特性的滤波器,可多方向、多尺度地提取原始图像在每个通道下的局部特征,具有良好的空间位置以及方向选择性。
b、基于运动的表情特征提取
该方法将表情看成一个运动场,通过面部运动的变化信息来分析、识别面部表情,主要核心是将运动变化作为识别特征。目前,主要有光流法、特征点跟踪法。
光流是一种表达方式,通过点的速度在视觉传感器的成像来表现,其针对的是空间物体表面的某一点。光流法就是通过将器官变化以及变化趋势用表情特征点的光流表示出来,以此表示表情的变化。
特征点跟踪法是将人脸中各个部分的特征点随人脸变化而变化的位置改变作为一个要提取的特征向量。在提取时,主要集中在表情变化幅度较大的区域,其他部分忽略,这样减少计算量,解决了在表情识别过程中 处理数据量大的问题。不足的是需要人工标定,因此可能忽略某些重要的表情信息,对识别结果有一定的不利影响。
二、情感信息融合
当进行多模态情感交互时,通过多通道传感器获取交互者当前情感状态下不同模态的情感信号,再进行数据融合与决策。其关键在于将各通道的情感特征数据融合,并按一定规则判别出对应的情感类别属性。多模态情感信息融合分为特征级融合与决策融合两种方式,整体框架如下:
2.1 特征级融合
特征级融合包括两部分:首先对来自传感器的原始信息进行特征处理,然后对特征信息进行综合分析和处理。
特征级融合的优点在于实现了可观的信息压缩,有利于实时处理,且所提取的特征直接与决策分析有关,因此融合结果能最大限度地给出决策分析所需要的特征信息。这种方法对通信带宽的要求低,但数据丢失使其准确性有所下降。
当多模态信息来自紧密耦合的传感器或是同步的模态信息,特别是当这些信息针对同一内容而又不相互包含时,特征级融合方法能最大限度地保留原始信息,理论上可以达到最佳识别效果。
在多模态信息融合中,特征级融合策略是先将每个模态下的情感特征数据分别提取处理,然后将全部模态的特征数据级联为一个特征向量用于情感识别,对于全部模态的情感特征数据仅设计一个情感分类器,该分类其的输出即待测试样本的情感类型预测结果,其示意图如下:
目前,这一层次的主要方法有特征串联、特征并联和基于神经网络的方法等。
特征串联即每一个传感器接收前一级传感器传来的结果,然后将处理后的信息往后传,直至结果达到某个给定的可信度或最后一级融合。其优点是融合效果好,缺点是对线路的故障非常敏感,若中间一级发生故障,整个融合都将终止。
特征并联是将所有传感器把各自的信息数据传输给融合中心,融合中心按一定规则将各传感器信息进行融合,做出最终决策。优点是对线路不敏感,缺点是速度慢。
神经网络可根据当前系统所接收的样本相似性,确定分类标准。这种确定分类的方法主要表现在网络权值分布上。同时,也可采用神经网络特定的学习算法来获取知识,得到不确定性推理机制。
2.2 决策级融合
决策级融合是在融合之前,每个局部传感器相应的处理部件已独立完成了决策或分类任务,其实质是按一定的准则和每个传感器的可信度进行协调,做出全局最优决策。决策级融合是一个联合决策结果,在理论上比任何单传感器决策更精确、更明确。同时,它也是一种高层次融合,其结果可为最终决策提供依据。因此,决策级融合必须从具体决策问题的需求出发,充分利用特征级融合所提取的测量对象的各种特征信息,采用适当的融合技术来实现。决策级融合是直接针对具体决策目标的,融合结果直接影响决策水平。
与特征级融合不同,决策级融合策略将不同模态的情感特征看出是相互独立的,并考虑不同模态情感特征数据对情感识别的重要性。决策级融合策略首先为每个模态的情感特征数据设计相应的情感分类器,然后根据一定的判决规则对每个分类器的输出进行决策合成最终的情感识别结果,其示意图如下:
决策层融合所采用的方法有贝叶斯推理、Dempster-Shafer证据理论和模糊推理等。
贝叶斯推理是融合静态环境中多传感器底层数据的一种常用方法,其信息描述为概率分布,适用于具有可加高斯噪声的不确定性。
Dempster-Shafer证据理论是基于证据理论的一种推理方法,其中证据分为支持证据、拒绝证据和中性证据。当用于多传感器数据融合时,从传感器获得的相关数值就是该理论中的证据,构成待识别目标模式的信度函数分配,每个传感器形成一个证据组。当融合时,即按一定规则联合每个传感器的信度函数分配形成融合的信度函数分配,从而为目标模式的决策提供综合准确的信息。
由于各信息源提供的环境信息具有一定的不确定性,对这些不确定信息的融合过程实际上就是一个不确定性推理过程,模糊推理就可以处理这种不确定性,综合利用多种传感器信息来获得有关目标的知识,可以避免单一传感器的局限性,减少不确定性误差的影响。
三、情感表达
3.1语音合成
实现语音的情感表达,最主要的是语音合成,但语音合成着重于语音词汇的准确表达,因此听起来比较单调乏味、不自然,而情感语音合成就是在语音合成过程加入情感因素,就会使语音表达的质量和自然度提高很多。常用方法包括基于波形拼接的合成方法、基于韵律特征的合成方法和基于统计参数特征的合成方法。
基于波形拼接的合成方法首先要建立一个情感语音语料库,然后对输入进行文本分析和韵律分析,得到基本单元信息,如半音节、音节、音素、字等,按一定的规则在语料库中寻找合适的语音单元,根据需求进行一定的修改和调整,然后进行拼接处理得到想要的情感语音。该方法合成语音的自然度高、清晰且可描述性高。但只能得到语料库中有限的情感语音,扩展性较差。
基于韵律特征的合成方法主要是通过改变韵律特征来表达特定的情感,其主要特征是基频、时长和能量。这三个韵律特征在不同的情感表达中是不同的。基频是反映情感的重要特征,是提高合成自然度的关键因素;时长表达的是语速特征,当人处于不同情感状态时,语速会有相应的变化;能量表现在语音信号的振幅上,例如对于高兴、害怕等情感,信号振幅的幅度值往往较高,而悲伤情感的幅度值较低。
基于统计参数特征的合成方法是通过提取基因频率、共振峰等语音特征,运用隐马尔可夫模型对特征进行训练得到模型参数。该方法主要分为两个阶段:模型训练和语音合成。模型训练需要根据经验先进行参数设置,然后进行数据准备,包括声学数据和标注数据。语音合成阶段是对输入文本进行文本分析得到上下文属性,然后根据上下文属性及频谱、基频和时长的决策树得到相应的模型序列,接着利用参数生成算法生成相应的普参数和基频,利用合成器合成最终情感语音。
3.2 面部表情合成与表达
面部表情作为人体语言的一部分,在人机交流中有着重要意义,其合成一般是利用计算机技术在屏幕上合成一张带有表情的人脸图像。常用方法有基于伪肌肉模型的方法、基于运动向量分析的方法和基于统计学分析的方法。
基于伪肌肉模型的方法是采用样条曲线、张量、自由曲面变形等方法模拟肌肉弹性。主要建立三种肌肉数学模型:线性肌模型、括约肌模型和扁平肌模型,在伪肌肉表情合成时,真正受力且能够控制的是这三种肌肉模型,把其合成在一起完成面部表情的表达。
基于运动向量分析的方法主要是对面部表情向量进行分析得到基向量,再对基向量进行线性组合得到合成的表情。而面部表情主要是由眉毛、眼睛、鼻子、下颌、嘴巴的运动来实现,因此该方法就通过描述各个部分运动情况,得到面部各运动点示意图,建立运动学模型,通过控制机构运动完成情感表达。
基于统计学分析的方法合成人脸的基本思想是利用训练样本库中的人脸图像以线性组合或其他组合方式来表示新的人脸,这需要先从照片或视频中提取人脸特征点,将不同特征点进行计算得到空间坐标,然后进行插值变形,从而重构出三维人脸模型。其中需要额外注意的是两个人脸图像的属性,一是形状,可有从真实图像中进行特征提取;二是纹理,不能直接利用原始图像轮廓区域内的纹理来建立模型,需要一组具有相同维数和相同对应关系的纹理向量来建模。该方法的优点是合成效果真实感强,具有和照片一样的真实度。但训练模型需要大量数据,当训练样本数较少时,训练结果也对训练集有一定的依赖性。
附:学习书目
《情感计算与情感机器人系统》吴敏 刘振焘 陈略峰