共查询到18条相似文献,搜索用时 62 毫秒
1.
基于熵函数的语音端点检测方法 总被引:8,自引:0,他引:8
根据语音信号的波形特征,利用熵函数的性质,构造了一种特殊的熵函数,通过判断此函数值的大小确定是语音还是无声状态。实验表明,此方法计算简单而且具有很高的准确性。 相似文献
2.
语音信号的端点检测一般都采用短时平均过零率和短时平均能量两参数判定,仅靠某一参数一般难以把噪声、清音和浊音区分开.本文通过理论分析和实验研究证明,仅靠短时过零率参数,只可以把清音和浊音区分开,但无法把清音和噪声有效地区分开. 相似文献
3.
神经网络方法及其在语音识别中的应用 总被引:2,自引:0,他引:2
讨论了神经网络技术用于汉语语音信号的端点检测,声,韵母分离、非线性特征抽取和大字表识别的方法,描述了系统实现框图并给出了应用实例。 相似文献
4.
利用短时过零率来检测清音,用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测。但是在信噪比较小的环境下,这两种方法便失去了作用。为了能在噪声环境下准确地检测出语音信号的端点,根据对含噪语音在时频域中的研究,提出了一种基于Matching pursuits时频分解算法的语音端点检测方法。该方法使用Matching pursuits算法对含噪信号进行分解,然后再对信号进行魏格纳变换,可以完全去除信号的魏格纳交叉干扰项,使得语音信号和噪声信号在时频平面上具有较直观明显的魏格纳能量分布,利用这个特点再进行端点检测,实验结果表明,该方法能在信噪比较低的情况下,准确地检测出语音信号的端点。 相似文献
5.
研究一种以过零率和能量为特征参数,利用VC 开发ActiveX控件,并结合MATLAB实现语音端点检测的方法. 相似文献
6.
7.
8.
在研究单边自相关序列(One-sided autocorrelation,OSA)和相对自相关序列(Relative autocorrelation sequences,RAS)的基础上,提出了一种基于相对自相关序列的语音信号的端点检测算法。该方法利用相对自相关算法能够消除噪声的原理,以语音信号相对自相关序列短时平均幅度代替双门限比较法中的语音信号短时平均幅度,以语音信号短时平均幅度代替语音信号的短时平均过门限率,实验表明,在低信噪比下检测精度要高于传统的双门限比较法。 相似文献
9.
10.
11.
端点检测技术是语音信号处理的关键技术之一,为提高低信噪比环境下端点检测的准确率和稳健性,提出了一种非平稳噪声抑制和调制域谱减结合功率归一化倒谱距离的端点检测算法。该算法首先通过抑制非平稳噪声再采用调制域谱减消除残余噪声来提升信噪比,减少语音失真。然后再提取每帧信号的功率归一化倒谱系数,计算每帧信号与背景噪声的功率归一化倒谱距离。最后将该倒谱距离作为检测参数,采用双门限判决方法进行端点检测。实验结果表明,该端点检测算法对语音帧和噪声帧具有较好的区分性。此外,在低信噪比环境下,所提出的算法对于不同类型的噪声都具有较好的稳健性。 相似文献
12.
13.
鲁棒语音识别技术在人机交互、智能家居、语音翻译系统等方面有重要应用。为了提高在噪声和语音干扰等复杂声学环境下的语音识别性能,基于人耳听觉系统的掩蔽效应和鸡尾酒效应,利用不同声源的空间方位,提出了基于双耳声源分离和丢失数据技术的鲁棒语音识别算法。该算法首先根据目标语音的空间方位信息,在双耳声信号的等效矩形带宽(Equivalent Rectangular Bandwidth,ERB)子带内进行混合语音信号的分离,从而得到目标语音的数据流。针对分离后目标语音在频域存在频谱数据丢失的问题,利用丢失数据技术修正基于隐马尔科夫模型的概率计算,再进行语音识别。仿真实验表明,由于双耳声源分离方法得到的目标语音数据去除了噪声和干扰的影响,所提出的算法显著提高了复杂声学环境下的语音识别性能。 相似文献
14.
当移动荷载接近或远离结构损伤部位时,结构的振动响应的幅值和非线性特征会发生变化,可以从中提取有关结构损伤的信息;近似熵可以表达一个时间序列的复杂性和内在模式。用移动荷载作用于结构上,对其振动响应数据进行近似熵计算,提取其非线性特征值,进而用神经网络进行结构损伤模式识别。通过一个移动荷载作用下简支梁的计算实例考察了这一方法的有效性。移动荷载的作用,使得损伤造成的结构非线性特征更加显著;研究、计算与实测案例表明近似熵能够有效地表征信号的非线性程度,而且对噪声干扰的敏感度低,可以作为神经网络模式识别的特征向量。 相似文献
15.
16.
针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签。同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统。最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音。客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%。主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感。 相似文献