首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
将基于隐马尔可夫的分类方法与基于支持向量机的分类方法相结合,构造了一种混合语音识别系统,可以对静音、音乐、带背景语音和纯语音(语音+音乐)四类音频信号进行分类。实验结果表明,该算法的两级分类效果较好。  相似文献   

2.
提出了将语音帧符号化后度量语音相似性的方法.首先,去除语音段中的静音部分,并提取每帧语音的MFCC参数;其次,将MFCC参数进行k均值聚类和KNN分类,并根据分类结果对语音信号进行符号化;最后,采用编辑距离计算语音段之间的相似性.实验表明,将语音符号化后,音频之间的可区分性更加明显,识别率也有了明显提高.  相似文献   

3.
针对基于模型的语音/非语音检测方法鲁棒性不强的问题,提出了一种层次化检测方法。该方法第一层对测试数据进行粗分类;第二层利用粗分类结果,首先根据高过零率比率(High Zero Crossing RateRatio,HZCRR)和短时能量(Short Time Energy,STE)特征选取数据建立静音和可听非语音初始模型,然后训练自适应检测模型,最后利用贝叶斯信息准则(Bayesian Information Criterion,BIC)对结果进行修正。实验结果表明:与基于模型的方法相比,能够适应各种测试数据且检测精度更高、鲁棒性更强。  相似文献   

4.
在综合分析了不同音频信号的有效区别性特征后,根据低能量帧率和子带能量在不同音频信号中的特征,对音频信号分类算法进行了研究。提出了一种综合利用低能量帧率和子带能量比的音频信号分类算法。通过仿真和实验,对连续噪声信号、音乐信号、语音信号进行了分类,结果证明该算法具有较好的分类效果。  相似文献   

5.
为提高图像传输的安全性,将基于音频采样点倒置的算法用于基于语音的图像信息隐藏算法中,引入了静音检测(voice activity detection,VAD)技术筛选适宜隐藏信息的语音段,并采用Logistic混沌映射对秘密图像预处理。实验表明,该算法实现了盲提取,较大地降低了提取误码率,嵌入图像信息后的载体语音具有良好的透明性和鲁棒性。  相似文献   

6.
基于MFCC和HMM的音乐分类方法研究   总被引:2,自引:0,他引:2  
采用基于Mel倒谱系数特征的隐马尔可夫模型对音乐进行分类.对音乐通过有监督的学习方式进行聚类,分类时将测试样本归入似然值最大的类别,对同一音频抽取若干样本,对样本识别结果采用投票法判定该音频的音乐类别,使分类的准确率得到进一步的提高.仿真实验对4种分类器在有干扰和无干扰的环境下的分类性能进行了比较,实验结果表明该方法具有更好的抗干扰能力和正确率.  相似文献   

7.
环境音识别是机器学习领域中的一个研究重点和难点,它可以帮助智能系统识别音频数据中的环境音。本文提出一种新的环境音识别方法,它是将梅尔频率倒谱系数(mel frequency cepstral coefficents,MFCC)和修正群延迟函数(modified group delay function,MODGDF)联合作为特征参数,然后利用多分类支持向量机(support vector machine,SVM)进行参数分类,达到识别音频数据中环境音的目的。结果表明,在DCASE 2018数据集上,该方法的实验效果优于DCASE 2018数据集基线系统识别效果,整体识别准确率提高了25.8%。  相似文献   

8.
基于小波变换的静音与语音分割新算法   总被引:6,自引:1,他引:6  
含噪语音信号的静音与语音分割,即端点检测问题是语音识别至关重要 的一步,为了提高语音分割对环境的适应性,提出了一种利用小波变换分割含噪语音信号中静音与语音的新算法,该算法首先将语音信号进行小波变换,利用小波系数去噪,然后选择小波部分子带跟踪信号的能量变化以分割语音与静音,仿真实验表明该算法在低信噪比条件下也能够有效分割语音。  相似文献   

9.
为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭代收敛得到稳定划分.建立静音和语音模型,通过帧间连续性原理进行不确定性解码得到帧类属信息,开展低能量短时间语音碎片后处理完成语音活动检测.在富标注说话人日志数据集上测试,实验结果表明,由于对静音模型的描述更加可靠,采用该方法可以减少帧间跳动,减少静音模型对语音的吸收误判,性能比基于子带熵顺序统计滤波(SE-OSF)方法提高明显.  相似文献   

10.
为了提高英语音频句子切分的效果,提出了基于双阈值的句子边界检测方法.该方法针对VOA、BBC等特别适合英语学习者的音频所具有的波形规范、环境噪声小、速率通常比较稳定等特点,利用静音能量阈值和静音时延阈值来检测音频句子的边界,并辅以对照文本信息进行校正.针对VOA慢速英语的实验结果表明:单纯使用双阈值方法,音频切分的召回率超过96%,精确率超过94%;利用对照文本校正后,可进一步提高精确率.  相似文献   

11.
根据传统的谱相减语音增强算法,提出了一种抑制噪声的迭代多带谱相减语音增强方法,暨将迭代方法和多带谱相减方法相结合。同时该方法采取了一种不需要静音检测(VAD)的自适应方法来估计噪声。仿真结果表明, 该方法在较好的抑制背景噪声和残留音乐噪声的同时,保持较好的语音可懂度。  相似文献   

12.
The immittance spectral frequencies (ISFs) is proposed as a new set of classification features and compared with the linear spectral frequencies (LSFs) applied in a frame-level wideband speech/music discrimination system. These two sets of features can be shared by the classifier and coding module to reduce the total computational complexity, making our classification system suitable for multi-mode audio coding applications. A performance assessment and comparison of the features are made. The experiment results show that the ISFs and LSFs have similar good performance when using full covariance matrices in classification models and the ISFs perform slightly better when using diagonal matrices. Their statistical differences for speech and music signals are also revealed.  相似文献   

13.
一种基于正弦模型的变码率低速率宽带语音编码算法   总被引:1,自引:1,他引:0  
基于语音正弦模型,采用能量谱熵和子谐波谐波比率方法进行语音分析。根据最小二乘估计准则提取语音参数,引入多形态量化方法和幅度参数拟合量化模型,在对分裂矢量量化过程中采用动态时间归整的方法快速搜索码本,提出了一种变码率、低速率、宽带语音编码算法。仿真结果表明:在有效降低码率和算法复杂度的前提下,该算法具有语音参数分析精度高、实时性好和语音合成质量较高的特点,并能在汽车及音乐背景噪声下重建高质量语音。  相似文献   

14.
In order to improve the accuracy of the voiced/unvoiced/silence classification, a new method based on the Stack Autoencoder (SAE) is proposed. This method is implemented with a deep neural network composed of SAE and Softmax. First, the SAE is trained with the unsupervised method using a speech parameter training sequence which includes the residual signal peak, gains, pitch periods, and line spectrum frequency (LSF), while the Softmax is trained with supervision by the use of the output of the SAE with the speech parameters training sequence as its training input. Then a supervised fine-turning method to the deep neural network is conducted to obtain the final parameters of the networks. Test results have shown that the accuracy of the speech classification of the presented method is better than the traditional methods in different background noise conditions with different signal-to-noise ratios (SNR), especially in the low SNR condition.  相似文献   

15.
为了提高语音端点检测的准确性,增强端点检测算法在噪声环境下的鲁棒性,提出两种新的端点检测参数。其中,基于临界频带的谱熵参数综合考虑了人耳对语音的感知特性以及语音信号和噪声信号的频域分布差异,差值频域能量参数考虑了语音帧和无声帧在频域上的能量差异。结合两种参数的优点,构成一种鲁棒的端点检测参数,同时,为了避免因阀值判决的单一性而产生误判,在端点检测过程中加入了基于特征分布统计的过渡段判决。试验结果表明,本研究提出的语音端点检测算法对语音帧和无声帧具有较好的区分性,在不同噪声且信噪比较低情况下,端点检测准确率相比传统抗噪端点检测算法均有所提升,特别是在非平稳噪声下,准确率提升超过5%。  相似文献   

16.
哼唱记谱是音乐创作谱曲的重要方法与过程。该文分析了受多种环境因素影响的复杂哼唱音频基本特征;基于加窗傅里叶变换方法,以音符为单位对哼唱音频进行区域性的划分、定义和特征提取,提出了以相对振幅为依据快速提取基频的方法,设计出一种可变区域的傅里叶变换迭代算法。采用Python 3.6编程实现了上述迭代算法,自动获取哼唱音符的音高和音长并形成数字乐谱,实验测试准确率达到84.3%。上述结果表明,该算法能更加精确地识别哼唱曲调,为开发精准辅助作曲软件提供了一种可行的识别与记谱算法,具有较好的应用前景。  相似文献   

17.
提出了一种基于小波变换的水印算法,把一段语音作为水印信息,自适应地嵌入音频信号中,水印的提取不需要原始信号。仿真实验表明嵌入的水印具有很好的不可感知性。  相似文献   

18.
针对助听器应用中背景噪声场景分类算法需同时具备低延时性和高分类准确率的问题,提出一种基于LightGBM集成学习模型的助听器场景分类算法以减少分类过程的计算时间,给出一种新的子带谱相关性特征并联合子带谱熵特征构成分类特征来提高助听器场景分类的准确率,使用双耳差分信号提取子带谱特征减少计算过程中的内存占用率以及模型离线训练工作量,提高计算效率。对双耳助听器声学环境识别数据集中的安静室内、交通环境、风噪声、音乐、鸡尾酒会、汽车噪声6种场景下的背景声音进行测试,实验结果表明,相对于基于随机森林模型和子带信号周期性特征、子带信号熵特征的场景分类算法,该算法在实时性和分类准确率方面的性能均有显著改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号