Praat 语音学软件,原名Praat: doing phonetics by computer,通常简称 Praat,是一款跨平台的多功能语音学专业软件,主要用于对数字化的语音信号进行分析、标注、处理及合成等实验,同时生成各种语图和文字报表。
一、Mac 版 Praat 软件的安装
访问官网,下载相应的版本,本实验下载的 Macintosh 版(即Mac 版),官网有详细的安装步骤,概括为:
(1)磁盘映像文件;
(2)下载字体包;
二、Praat 软件的使用
- 导入语音文件
点击 praat —>open —> read from file —> 找到你打开的文件 —> 打 开,文件被添加在了praat 中; -
生成 TextGrid 文件
选中要转写的语音文件 —> annotate - —> To TextGrid... —>语音文件分层(三层)如下图:
点击 OK 生成 TextGrid 文件;
-
编辑语音和 TextGrid 文件
同时选中语音文件和 TextGrid 文件 —> View & Edit;如图:
三、标注语音文件
(一)时间边界定位
按 Tab 键可以播放语音,再次按 Tab 键可以停止播放语音;
command + i:可以放大波形,
command + o:可以缩小波形,
command + s可以保存 TextGrid 文件;-
添加时间边界的方法为:将鼠标移动到语音波形的相应位置,这时会出现一条虚线以及圆圈,分别点击 SPEAKER 层和 CONTENT
层对应的圆圈即可。在整个语音文件中,SPEAKER 层和 CONTENT
层的时间边界的数目是完全一致的,每一对时间边界也是完全相等的。请注意,SPEAKER 层和 CONTENT 层的时间边界必须保持一致。也就是说不管点击哪一层的时间边界,另外一层一定是空心蓝色,而不是实心蓝色。
(二)标注全局文件
GLOBAL 层主要标注语音文件的一些全局信息,包括说话人性别信息和语种信息(方言区)。标注格式如下:
[speaker]:[空格]1[空格]性别,[空格]2[空格]性别;[空格][language]:[空格]1[空格]方言区,[空格]2[空格]方言区
例如:[speaker]: 1 male, 2 female; [language]: 1 普通话, 2 普通话
- SPEAKER 层需要标注的是说话人信息,“说话人”取值为以下两种:1、2,分别表示说话人1、说话人2。(说话人1、2仅标注在文字段上,符号段不标注);
- 如果是客服类对话,则 SPEAKER 层的“说话人”取值为1的语音,必须是话务员;用户的语音取值为2;
- 客服定义为奇数,用户为偶数;(客服一定是和用户有直接对话,否则不算客服)。
(三)CONENT 层的语音标注
-
CONTENT 层正常语音的标注:
(1)数字的标注,用简体中文;例如: “27” → “二十七”; “我的电话是2381832” → “我的电话是二三八幺八三二
(2)注意边界线:两层始终对齐;
(3)交叉语音:SPEAKER 层不标注内容,CONTENT 层标注“+”;
(4)边界线导致的半个语音:可用 [*] 或 [UNK] 来表示;[*] 和 [UNK] 取决于是单段的听不清,还是在语音中听不清;
(5)每个时间段的长度最多不能超过 8s,也不能太短,一般在 5-6秒;
(6)可舍弃包含不进来的字;
(7)英文内容标注:例如: “网址是三w点sina点com”; “二三八幺八三二艾特qq点com”;(不要写@) “请以井号键结束”;(不要写#)
(8)英文内容标注:每个字母中间用空格隔开
例如:good表示单词读音,g o o d则表示字母读音。 例如:我的编号是f m s幺三二
(9)“恩、阿” 统一用口字旁的。
-
噪音的标注:
CONTENT层短暂噪音的标注:
所有此类标注都是中括号与语音内容的组合,不要标注时间边界。
(1)听不清的一个字/英文单词直接在句子中标注 [UNK];例如:二三八幺八[UNK]二
(2)两个或者两个以上听不懂的字,标注[*] ;
例如:听不清的长句、方言、大段的英文句子、拿着话筒和其他人说话
(3)短暂的笑声:直接在句子中标注 [LAUGH];
(4)短暂的由说话人发出的干扰浊音:直接在句子中标注
[SONANT];例如:咳嗽声、打喷嚏、清嗓子
(5)系统播出的语音提示:[PROMPT] 系统自动播放的语音内容,而非说话人的语音内容(第二层不用标说话人);
例如:[PROMPT] 欢迎致电我公司现在由一号客服代表为您服务
CONTENT层持续噪音的标注
需要标注中括号和时间边界,SPEAKER层不标注内容
(1)明显的静音段(大于500ms):[SIL]
(如果空白段没有任何声音,可以空着,后期技术处理)
(2)各种垃圾声音:[ENS]例如:连续的拍桌子、连续的敲击声、持续的各种环境噪音(大于500ms)
(3)连续的笑声:[LAUGH]
(4)持续的音乐声:[MUSIC]例如: · 唱歌声(有歌词和旋律) · 哼唱(没有歌词,但有旋律) · 口哨声 · 可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音 乐和歌声 · 口哨声 · 包括持续时间较长的彩铃声
(5)录音及电信系统引起的噪声:[SYSTEM]
包括电话按键音dtmf、电话忙音 beap、录音系统的其他噪音等,都是通信系统主动发出的声音,而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。一般会用的噪音符号:+,[*],[ENS],[UNK],[SONANT],[LAUGH],[PROMPT],[SYSTEM]