WSOLA仿真


1.WAV文件格式分析

仿真中读出的wav文件信息如下Fs=4.41kHz,nBits = 16 bit/sample

%% 读取音频文件
[wav_data, Fs, nBits, opt] = wavread('s001.wav');
wav_data = wav_data';
sound(wav_data,Fs);

在Windows环境下,大部分的多媒体文件都依循着一种结构来存放信息,这种结构称为"资源互换文件格式"(Resources lnterchange File Format),简称RIFF。例如声音的WAV文件、视频的AVI文件等等均是由此结构衍生出来的。RIFF可以看做是一种树状结构,其基本构成单位为chunk,犹如树状结构中的节点,每个chunk由"辨别码"、"数据大小"及"数据"所组成。

RIFF(标识符) | 数据大小 | 格式类型(WAVE) | fmt | sizeof(PCMWAVEFORMAT) 
| PCMWAVEFORMAT | data | 声音数据大小 | 声音数据 

WAVE文件是非常简单的一种RIFF文件,它的格式类型为"WAVE"。RIFF块包含两个子块,这两个子块的ID分别是"fmt"和"data",其中"fmt"子块由结构PCMWAVEFORMAT所组成,其子块的大小就是sizeofof(PCMWAVEFORMAT),数据组成就是PCMWAVEFORMAT结构中的数据。

//PCMWAVEFORMAT
Typedef struct
...{
     WAVEFORMAT wf;        /波形格式;
     WORD wBitsPerSample;    //WAVE文件的采样大小;
} PCMWAVEFORMAT;

//WAVEFORMAT结构定义如下:
typedef struct
...{
     WORD wFormatag;        //编码格式,包括WAVE_FORMAT_PCM,WAVEFORMAT_ADPCM等
     WORD nChannls;        //声道数,单声道为1,双声道为2;
     DWORD nSamplesPerSec;    //采样频率;
     DWORD nAvgBytesperSec;    //每秒的数据量;
      WORD nBlockAlign;        //块对齐;
} WAVEFORMAT;

总结起来就是说wave文件自己在文件头部保存了很多格式,包括声道数目,采样频率,每秒的数据量,快对齐,编码格式等等,因此在matlab中读出音频文件就直接读出了该文件的各种信息...

"data"子块包含WAVE文件的数字化波形声音数据,其存放格式依赖于"fmt"子块中wFormatTag成员指定的格式种类,在多声道WAVE文件中,样本是交替出现的。如16bit的单声道WAVE文件和双声道WAVE文件的数据采样格式分别如图所示:


1.png

2.预加重高频

说语音信号的预处理。预处理包括预加重和加窗分帧。
预加重,其目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨,使得低频部分到高频部分的频谱平稳,使得低频到高频的信噪比是一样的。

一般是通过传递函数是一阶FIR高通数字滤波器来实现。设第n时刻的语音采样值为x(n),经过预加重处理后的结果是y(n)=x(n)-ax(n-1),其中a为预加重系数,一般是0.9~1.0之间,通常取0.98。
预加重的实现:

matlab:y=filter([1 -1],[1 -0.98],x);

加窗分帧。语音信号是一种随时间而变化的信号,主要分为浊音和清音两大类。浊音的基因周期、清浊音信号幅度和声道参数等都随时间而缓慢变化。可以近似认为在一小段时间里语音信号近似不变,即语音信号具有短时平稳性。之所以具有短时平稳性,我们就可以把语音信号分成一些短段来进行处理。一般每秒的帧数是33~100帧。一般帧之间都有重叠,大多数是50%。帧长一般是10ms到30ms。常见的窗函数主要有矩形窗、汉明窗(hamming)、汉宁窗(hanning)等。

%% 短时傅里叶变换 选取5-50ms 在这里选择30ms
frame_time = 15e-3;
frame_N = floor(frame_time * Fs);

window = frame_N;
noverlap = floor(window/2);
nfft = window;
x = wav_data(1.2*Fs:2*Fs);
[S,F,T,P] = spectrogram(x,window,noverlap,nfft,Fs); 

figure(1)
surf(T,F./1000,10*log10(P),'edgecolor','none'); axis tight; 
view(0,90);
xlabel('Time (Seconds)'); ylabel('kHz');
%% 预加重高频
pre_a = -0.9975;
h = [1 pre_a];
y = filter(h,1,x);
y = x;
%figure(2)
%freqz(h(1),h(2));
figure(3)
[S,F,T,P] = spectrogram(y,window,noverlap,nfft,Fs); 
surf(T,F./1000,10*log10(P),'edgecolor','none'); axis tight; 
view(0,90);
xlabel('Time (Seconds)'); ylabel('kHz');

3.OLA算法

音频最初默认按50%重叠进行分段来做短时傅里叶变换,如果要加快语速,就要把加多重叠部分..

function y_ola = ola(input,frame_N,frame_prelag,scale)

frame_num = floor(length(input)/frame_prelag)-1;
frame = zeros(frame_num,frame_N);

myhamming = zeros(1,frame_N);
for i = 0:frame_N-1
    myhamming(i+1) = 0.5*(1.0-cos(2.0*pi*i/(frame_N-1)));
end

for i = 1:frame_num
%     frame(i,:) = input((i-1)*frame_prelag+1:(i-1)*frame_prelag+frame_N).*hamming(frame_N)';
    frame(i,:) = input((i-1)*frame_prelag+1:(i-1)*frame_prelag+frame_N).*myhamming;
end 

frame_postlag = floor(scale*frame_prelag);
y_ola = zeros(1,floor(length(input)*scale));
for i = 1:frame_num-1
    y_ola((i-1)*frame_postlag+1:(i-1)*frame_postlag+frame_N) = ...
    y_ola((i-1)*frame_postlag+1:(i-1)*frame_postlag+frame_N) ...
    + frame(i,:);
end
extra = length(y_ola((frame_num-1)*frame_postlag+1:end));
if extra<=frame_N
    y_ola((frame_num-1)*frame_postlag+1:end) = ...
        frame(frame_num,1:length(y_ola((frame_num-1)*frame_postlag+1:end)));
else
    y_ola((frame_num-1)*frame_postlag+1:(frame_num-1)*frame_postlag+frame_N) = ...
        y_ola((frame_num-1)*frame_postlag+1:(frame_num-1)*frame_postlag+frame_N) ...
        + frame(frame_num,:);
end
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,932评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,554评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,894评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,442评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,347评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,899评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,325评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,980评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,196评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,163评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,085评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,826评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,389评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,501评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,753评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,171评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,616评论 2 339

推荐阅读更多精彩内容