ACADEMIC RESEARCH 学术研究 基子短B稍趄星特征韵语音端点检测技术研究 ◆刘琦 摘要:语音端点检测是语音识别的关键步骤。短时能量特征是刻画语音能量的重 要特征之一。通过该特征,可以较为精确地确定语音起始端点及结束端点。 关键词:矩形窗;汉明窗;汉宁窗;短时能量 语音信号采集人计算机后,经过一系列预处理,将信号 分帧、加窗等步骤后,就可依据短时能量这一特征进行语音 端点检测。为将语音信号分帧,同时避免“Gibbs效应”, 在进行语音信号短时能量特征统计之前,需要将信号进行加 窗处理。 一、窗函数 一般地,通常使用矩形窗函数、Hamming窗函数、 Hanning窗函数等为语音信号加窗。对信号加窗处理的matlab 代码如下所示(以汉明窗为例): M=wavread(’hnjcxy(man).wav ); L length(M1; subplot(3,1,1), plot(M);title(’original signal’); d N=256; k=0; Ml=floor(L/N); h=hamming(N); subplot(3,l,2), plot(h);title(’汉明窗’); grid for P=1:M1 ofr q=1:N k=p+q N; b(k)=a(k) (q); end end subplot(3,1,31 plot(b);title(’加汉明窗信号’); grid 二、端点检测 短时能量是有用信号与噪声区别的重要特征之一。通过 对短时能量设置门限值可以将有用信息和噪声进行分离,为 确定语音起始端点奠定基础。选择窗函数长度为N,则可定 义E 为: =∑[ ( )w(,7一 )】 = ∑ ( )w 一 )] (4) mm-m m=n-.v+l 当窗函数为矩形窗时,短时能量满足下式: Ⅳ一1 en=∑ ( ) (5) 式中xn为加窗函数截取出的帧长为N的第n帧语音信号。 有时使用式(6)表示窗函数为矩形窗时的短时能量: Ⅳ一1 E =∑1 Xn( )I (6) m=O 本文选择矩形窗函数,帧长选择256。下图为“河南警 察学院”频谱信号及其短时能量图。通过短时能量可以较为 精确地判断出语音信号的起始位置及结束位置, a=wavread(’hnjcxy(man).wav’1; ofri=l:139797 b(i)=a(i,1); end subplot(4,l,1), plot(a);title(’original signal’); grid N=32; M=linspace(1,1,2. 3 N); En=conv(M,b. b1; subplot(2,1,2),plot(En);title(’短时能量’) grid 三、结论 本文主要对如何利用短时能量特征判断语音起始、结束 端点,以及加窗预处理进行理论研究及仿真实验。本文的研 究对相关研究人员具有一定借鉴意义。 吨 参考文献 【1】胡立波带噪语音端点检测算法研究[D]南京信息工程大学系统 分析与集成,2009. 『21张刚,张雪英.语音处理与编码_M1.兵器工业出版社,2000. [3]夏敏磊语音端点检测技术研究fD].浙江大学电气工程,2005. (作者单位:河南警察学院信息安全系) 信息系统T程l 2014 2 20 145