首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
基于维特比算法的语声转换   总被引:2,自引:0,他引:2  
简志华  杨震 《电子学报》2009,37(7):1470-1475
 本文提出了一种基于Viterbi搜索的语声转换算法,利用目标语音帧的转移概率矩阵来描述语音帧的时序信息,通过Viterbi搜索算法来寻找每帧语音的最佳GMM分量,它避免了传统的基于GMM的语声转换算法因丢失语音帧的时序信息所造成的频谱帧间不连续,同时也减少了因加权求平均所带来的语音频谱过于平滑,增强了共振峰.客观评测和主观测试的实验结果都表明,本文算法改善了传统的基于GMM的语声转换算法的性能.  相似文献   

2.
陈晗  戴在平 《电声技术》2008,32(4):48-51
介绍了一种适用于家电控制系统的语音关键词识别算法.算法包括对关键词的搜索与确认两部分.通过对关键词和非关键词分别建立模型,建立起一个并行识别网络.使用帧同步的Viterbi算法在网络上搜索关键词.为使关键词的识别结果精确,在对支持向量机(SVM)的原理进行简要分析后,提出将SVM作为分类器对基于HMM的最大似然搜索结果进行关键词确认.实验结果显示,联合采用HMM和SVM的关键词语音识别混合算法具有较高的性能.  相似文献   

3.
王守觉  潘晓霞  徐春燕  陈旭  安冬  曹文明 《电子学报》2005,33(10):1790-1793
本文使用高维空间点分布分析原理,在仿生模式识别高维空间点覆盖原理的基础上,提出了一种基于高维空间点覆盖动态搜索理论的非特定人连续数字语音识别的新算法,这种算法可以不经过端点检测和分割,通过对被识别连续数字语音直接进行动态搜索,得到被识别语音到各类高维空间覆盖范围的距离随时间变化曲线,通过距离曲线上的极小值点进行识别.  相似文献   

4.
针对真实环境中的多说话人定位问题,提出一种基于子帧分析的多声源定位算法。该算法将一帧语音信号分为8个子帧,利用每个子帧信号计算相位变换加权的可控响应功率函数,分别搜索其最大值得到声源位置的子帧估计。由于语音信号在时域具有稀疏性,这些估计值对应多个声源的位置。利用会聚聚类算法将子帧估计值分为若干类,然后用平均子帧可控响应功率函数对估计值进行评价,得到最终的声源位置估计。实验表明,在2~3个说话人的情况下,该算法比传统算法的定位性能有较大幅度提高。  相似文献   

5.
基于最小频带能量的变噪声电平语音增强   总被引:1,自引:0,他引:1  
吕勇  方元 《电声技术》2006,(2):47-51
噪声估计是变噪声电平环境下语音增强的关键。针对传统搜索频谱最小值方法延迟较大的缺点,提出了最小频带能量算法,加快语音帧内大部分噪声的更新速度。实验结果表明,该算法对电平随时间变化的噪声取得了较好的增强效果。  相似文献   

6.
宽带语音在Internet传输中不可避免会出现丢帧现象,由于错误传播的影响,使接收语音质量急剧下降。该文采取大型连续分布隐马尔可夫模型(LCDHMM)对宽带语音ISF参数建模,采用Viterbi算法确定丢失帧之前若干语音帧ISF参数观察值的最佳状态序列。由于状态的冗余度较大,用丢帧前最近接收的正确帧ISF参数的HMM状态对应的聚类均值和真实值的加权,代替丢失帧的ISF参数值。将采取该算法的补偿语音和采取G.722.2标准附件I所提算法的补偿语音进行比较,仿真结果表明该算法具有较好的补偿效果,其波形与谱失真更小。  相似文献   

7.
一种引入延迟的语音增强算法   总被引:3,自引:0,他引:3  
针对传统语音增强算法中,只采用当前帧和当前帧以前的信息对当前帧语音谱进行估计而造成变电平噪声和音乐噪声的问题,采用一种改进的引入延迟的语音增强算法。通过引入延迟,可以在对当前帧语音谱进行估计时使用当前帧以后帧的信息,在噪声估计中采用类似路径搜索的双向搜索方法消除变电平噪声的影响,在先验信噪比估计中采用改进的非因果先验信噪比估计算法,消除低信噪比平滑不足带来的音乐噪声,在此基础上构建了一个完整的语音增强算法。实验结果表明,该算法基本不受变电平噪声的影响,而且音乐噪声和残留背景噪声都得到了很好的抑制。  相似文献   

8.
本文提出了一种基于多重统计量分析的小波域语音信息隐藏算法.该算法首先将载体语音信号分成若干包含相同采样点的帧,利用短时能量以及过零率找出属于浊音段的帧分别进行多尺度离散小波分解,提取小波分解后的低频系数;然后对低频系数进行分组并计算各组系数的能量、绝对值方差等统计量的值,根据各组统计值的比较及嵌入的秘密信息比特值,采用不改变或者适当调节各组统计值大小关系的方法来隐藏信息.该算法只在语音的浊音段嵌入信息,充分考虑了人耳的听觉特性.实验结果表明:算法可以盲检测,对加噪、低通滤波、重采样、重量化等攻击均具有良好的稳健性.  相似文献   

9.
非平稳噪声环境下的噪声估计算法   总被引:1,自引:0,他引:1  
通过对噪音和语音频谱的分析,针对航空背景噪声的特性,提出一种用于语音增强的新的噪声估计算法。通常的噪声估计一般利用语音端点检测方法,取噪声段的谱平均值作为待估计的噪声谱,但该方法在信噪比较低时性能下降严重。笔者提出的基于频率段能量比的噪音谱估计方法,不依赖于语音端点检测而直接由语音帧来估计噪音谱,通过计算一帧语音中各频率段中能量比,以判断该帧是否含有语音来修正噪声谱估计的计算因子。算法提高了谱减法的适用范围,还在一般谱相减方法的基础上提出了改进的谱相减算法。  相似文献   

10.
为了有效抑制非平稳背景噪音对语音处理系统的严重干扰,提出了一种基于长短时能量均值的活动语音检测算法。该算法基于两个合理的假设,一个是基于语音隐含成分集的稀疏分解,不但能尽可能地深留含噪语音中的语音信息,还能在一定程度上消除非语音类噪音的干扰;另一个是对上述稀疏分解的语音进行重构,该重构信号中语音段的时域能量高于非语音段的时域能量。在上述两个假设的基础上,采用重构信号的时域能量作为音频特征,以当前帧为中心,并将与其相邻的特定数量帧的短时能量均值作为当前帧的得分值;以当前帧及其之前特定数量帧的长时能量均值怍为判决阈值,进而提出了以当前帧的短时能量均值和长时能量均值大小作为判断条件的活动语音检测算法。买验结果显示,该算法能有效地区分低信噪比(平稳噪音和忙平稳噪音)条件下的语音和非语音片段,并且其性能优于基于单Gaussian分布的似然比算法.  相似文献   

11.
It has been demonstrated that wavelet transforms can be developed to find the C/V segmentation point of a Mandarin speech signal. The basic idea is the utilisation of a specific function, the product function, for indicating the C/V segmentation point. Based on the wavelet transforms, the product function is generated from the appropriate approximation signal and detail signal of the input speech, and its energy profile contains the evidence for detecting the C/V segmentation point. It is shown that the C/V segmentation point can be obtained directly using of the product function and its energy profile. The main advantage of the proposed scheme is the capability of forward and directly searching for the C/V segmentation point, and there is no need to set any predetermined threshold. Thus, the pitch detector and backward-processing required in the conventional C/V segmentation algorithm are completely avoided. The analysis of the proposed algorithm on various types of Mandarin speech indicates considerable improvement over the conventional method. Experiments show that the overall accuracy rate of the proposed method reaches 95.4%  相似文献   

12.
在语音信号处理中,作为预处理前端的语音分段技术对于语音增强、编码和识别都有极其重要的作用。本文分析比较了几种传统的语音分段算法的性能,重点研究基于小波变换的语音音素分段算法,针对平滑渐变的低频能量不能对音素进行有效分割的缺点,提出了基于小波变换累积能量包络的语音分段算法。但由于小波的敏感性,会出现一定数目的伪点,本文提出2种去除伪点的方法,从而提高了音素分段的精确度。  相似文献   

13.
为能准确有效地判断出连续语音中各个音节的起止点,提出了一种改进的分形维计算方法,该算法将插值分形维的步长因子进一步精确到采样频率的数量级上,先求出语音分形维的最小二乘能量轨迹,再差分求其动态特征;在此基础上,设计了连续语音的两级搜索实时分割算法,并进行了基于DSP的硬件系统实验。结果证明,该算法较好地实现了语音段的实时分割和汉语音节切分,鲁棒性好,使得系统在信噪比为0 dB时音节分割准确率仍可保持在一个较高的水平上。最后开发了一个在线汉语语音标注器,借此阐述了论文工作在语音识别方面的应用。  相似文献   

14.
刘雪琴 《电视技术》2014,38(5):34-37
目标跟踪技术是视频检测技术中一个十分重要的组成部分,为此,提出一种基于特征点的快速跟踪算法。该方法避免了困难的目标分割过程。采用两次帧差共同确定角点选择区域,利用Moravec算法提取合适角点;采用一种特别设计的包含不平滑区域的结构化模板获取更好的匹配点;利用预测点缩小搜索范围,降低计算复杂度和时间复杂度。实验证明该算法能够快速实现目标的实时跟踪,跟踪准确度高,对不同的场景都具有良好的鲁棒性。  相似文献   

15.
黄伟  欧世峰 《现代电子技术》2010,33(21):100-103
针对拉普拉斯先验模型下的语音增强问题,给出了一种模型因子估计算法,它利用语音分量方差与模型因子的对应关系来获取模型因子的估计;在语音分量方差的估计过程中,通过利用带噪语音分量与先前帧语音方差计算当前帧语音分量方差,提出一种新的语音分量方差估计算法。通过结合这两种新算法获得的拉普拉斯模型因子估计能够有效消除噪声分量能量对估计精度的影响,且提高系统的语音增强性能。多种噪声背景下的仿真结果表明,基于该模型因子估计方案的方法的语音增强算法具有更好的增强效果。  相似文献   

16.
提出一种基于多候选基频提取和歌声基频判别的声乐主旋律提取算法。该算法可以有效降低旋律定位虚警率,提高整体准确率。利用度量距离(DIS)算法对音乐进行音符切分,并用方差法实现浊音段检测;采用幅度压缩基音估计滤波器(PEFAC)多基频提取技术,通过计算音高显著度提取每个浊音帧的多个候选基频。最后用维特比算法跟踪浊音段主导基频轨迹,并用基频判别模型进行歌声主旋律判别。在MIR-1K数据集上进行的实验表明,在信干比为5 dB和0 dB的情况下,本文算法提取的声乐主旋律整体准确率分别达到了86.22%和77.4%,相比于其他算法至少提高了3.79%和2.01%。  相似文献   

17.
Various techniques are described to measure, small displacements of television images. If two successive video frames are considered, their differences are approximately a linear combination of the components of the displacement of the object. If all the points of the frame undergo the same movement, then the velocity estimation problem is solved using linear estimation. However, if some points belong to the moving object and the others to the background, the problem can be stated in the same way only if an algorithm is available to segment the image into fixed and moving areas. Afterwards, linear estimation can be applied to the moving area only. In this paper a segmentation algorithm is proposed which uses dynamic programming (Viterbi algorithm with three states). A more complex situation arises when the points belonging to the moving area are subjected to different movements. The problem can be solved once more using dynamic programming if the displacement components are quantized into(2M + 1) (2M + 1)values, and the number of states of the Viterbi algorithm is augmented to(2M + 1)^{2}. To reduce the technical difficulties of this approach, a simpler method that makes possible the estimation of thenmost probable displacements is proposed. Then the image is segmented into n moving areas with different displacements and a background area using a Viterbi algorithm withn + 1states. Experimental results show that the precision obtainable is about 0.1 pel when the displacements are up to 2-3 pels, the object had approximate dimensions of90 times 90pels, and the signal-to-noise ratio was higher than 33 dB.  相似文献   

18.
曹瑜镠  方元  吕勇 《电声技术》2006,(12):43-46
提出了一个基于最小统计及谱减法的语音增强方法。不采用端点检测,在语音帧内及噪声帧内都进行噪声更新。为了实时应用的需求,提出了一种加快最小值更新的方法,实验表明,该方法能有效削弱变电平噪声。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号