期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张凤仪夏秀渝冉国敬何礼叶于林《计算机系统应用》2015,24(4):32-37

针对多声源干扰环境下说话人识别系统性能急剧下降的问题,提出一种提取目标语音的前端处理方法,该方法依据独立语音时频域的近似稀疏性,基于目标语音方位信息采用非线性时频掩蔽方法提取目标语音。建立了基于梅尔倒谱系数(MFCC)的高斯混合模型(GMM)说话人识别系统。仿真实验证明,该方法能有效提取目标语音,提高说话人识别系统的鲁棒性。该文多声源干扰仿真实验条件下,说话人识别系统的识别率平均提高了25%左右。相似文献

2.

文本无关的说话人识别系统抗噪方法研究

叶蕾方鹏《计算机与现代化》2010,(10):16-19

研究了基于美尔倒谱特征参数及高斯混合模型的文本无关的说话人识别系统,为了提高噪声环境下识别系统的识别率,从两个角度研究改善该系统抗噪性能的方法,即利用语音识别将文本无关的系统转化为文本有关的说话人识别方法和通过选择鲁棒性较强的帧进行说话人识别的方法,分析了以上方法对系统识别性能的改善作用,并通过实验验证上述方法确实可以提高系统在噪声环境下的识别率。相似文献

3.

采用复倒谱峰值滤波GMM识别混响语音

孔荣吴迪廖启鹏朱俊杰周强陶智《计算机工程与应用》2014,(15):191-193,203

针对混响环境下语音识别系统性能急剧下降问题,提出一种采用复倒谱峰值滤波GMM识别混响语音的方法。通过训练纯净语音的MFCC特征参数构建高斯混合模型,在识别混响语音前引入复倒谱峰值滤波器以减少混响引起的语音失真而提高混响环境下语音识别率。经实验验证,该方法避免了在现实条件下准确估计房间冲击响应函数的麻烦,降低了计算难度,提高了混响环境下至少4%的系统识别率。相似文献

4.

基于基频的情感语音聚类的说话人识别方法

李冬冬吴朝晖杨莹春《模式识别与人工智能》2009,22(1)

针对存在情感差异性语音情况下说话人识别系统性能急剧下降以及缺乏充足情感语音训练说话人模型的问题,提出一种基于基频的情感语音聚类的说话人识别方法,能有效利用系统可获取的少量情感语音.该方法通过对男女说话人设定不同的基频阈值,根据阈值,对倒谱特征进行聚类,为每个说话人建立不同基频区间的模型.在特征匹配时,选用最大似然度的基频区间模型的得分作为该说话人的得分.在中文情感语音库上的测试结果表明,与传统的基于中性训练语音的高斯混合模型说话人识别方法和结构化训练方法相比,该方法具有更高的识别率. 相似文献

5.

说话人识别技术中Mel倒谱参数改进算法的C程序实现

叶蕾方鹏《计算机与现代化》2007,(11):26-28

基于语音信号的频谱特性,本文对说话人识别技术中Mel倒谱参数做了改进,并通过Microsoft Visual C 6.0验证了在低信噪比时使用改进后的Mel倒谱参数可以提高说话人识别系统的正确识别率. 相似文献

6.

连续隐马尔可夫模型和神经网络在说话人识别中的比较

周茉刘蓉陈琦《计算机与数字工程》2006,34(9):105-108

连续隐马尔可夫模型（CHMM）和人工神经网络（ANN）广泛的应用于说话人识别系统中，本文分别建立基于这两种模型的说话人识别系统，提取感知谐波倒谱系数作为与文本有关的说话人识别的特征参数，并分别在理想和噪声环境下仿真比较。实验结果表明ANN和CHMM模型在理想环境下平均识别率基本一致，而在噪声环境下ANN模型鲁棒性明显优于CHMM模型，识别率较高。相似文献

7.

基于回波隐藏的说话人身份识别研究

陈亮张雄伟《模式识别与人工智能》2004,17(2)

信息隐藏是信息安全领域的一门新兴学科.本文以回波隐藏技术为核心,提出并实现了一种应用于语音保密通信的说话人身份识别系统.与传统说话人识别的本质区别在于:本文通过回波形成的秘密通道来传递表征说话人身份的伪随机(PN)码,同时利用相关盲检测获取对方的身份信息.与一般的回波隐藏算法相比,本文采用语音倒谱代替复倒谱,降低了计算复杂度.用倒谱自相关来代替复倒谱并提取隐藏比特,大大提高了信息恢复率.实验结果表明语音嵌入隐藏信息后,音质的下降不易察觉,在信道中受到加噪、压缩和滤波等攻击时性能比传统方法有明显改善. 相似文献

8.

基于GMM的说话人识别算法的研究与应用

吴慧玲杜成东毛鹤《现代计算机》2014,(5):31-35

说话人识别是根据检测到的语音进行说话人身份的认证．是将待识别语音与数据库中的说话人语音进行匹配的过程。设计基于高斯混合模型（GMM）说话人识别系统,提取输入语音的Mel倒谱系数作为观察向量,用GMM算法进行说话人语音模型训练和识别。同时设计基于TMS320DM3730DSP的嵌入式硬件平台,并在该平台上实现所设计的说话人识别系统。为进行性能测试,自行录制相应的语音材料库,录音的人数为38人,其中男19人,女19人。经测试表明,在正常环境下．该设计的说话人系统识别率可达到95％以上。相似文献

9.

一种改进动态特征参数的话者语音识别系统

申小虎万荣春张新野《计算机仿真》2015,32(4):154-158

研究语音动态特征参数提取问题,在话者语音识别过程中,动态特征参数可以有效提高识别率.但是传统算法在其提取过程中存在大量干扰冗余信息,造成了识别率降低并带来运算速度的降低.为解决上述副作用,提出在说话人识别系统中,使用一种动态时频倒谱系数参数的方法.上述方法在不减少反应话者个体特征分布特性的前提下,可消除冗余信息并降低样本特征的维度.利用上述方法提取语音特征参数并输入混合高斯-通用背景模型进行说话人语音分类.在Matlab上仿真结果表明,动态时频倒谱系数可有效改进话者语音识别系统的识别正确率. 相似文献

10.

短语音噪声环境下说话人识别特征提取

高会贤马全福郑晓势《计算机应用》2010,30(10):2712-2714

为了使说话人识别系统在语音较短和存在噪声的环境下也具有较高的识别率,基于矢量量化识别算法,对提取的特征参数进行研究。把小波变换与美尔频率倒谱系数(MFCC)的提取相结合,并将改进后的特征与谱质心特征进行了组合,建立了一种美尔频率小波变换系数+谱质心(MFWTC+SC)的新的组合特征参数。经实验表明,该组合特征可以有效地提高说话人识别系统的性能。相似文献

11.

Significance of duration modification for speaker verification under mismatch speech tempo condition

Rohan Kumar Das Bidisha Sharma S. R. Mahadeva Prasanna 《International Journal of Speech Technology》2018,21(3):401-408

This work explores the scope of duration modification for speaker verification (SV) under mismatch speech tempo condition. The SV performance is found to depend on speaking rate of a speaker. The mismatch in the speaking rate can degrade the performance of a system and is crucial from the perspective of deployable systems. In this work, an analysis of SV performance is carried out by varying the speaking rate of train and test speech. Based on the studies, a framework is proposed to compensate the mismatch in speech tempo. The framework changes the duration of test speech in terms of speaking rate according to the derived mismatch factor between train and test speech. This in turn matches speech tempo of the test speech to that of the claimed speaker model. The proposed approach is found to have significant impact on SV performance while comparing the performance under mismatch conditions. A set of practical data having mismatch in speech tempo is also used to cross-validate the framework. 相似文献

12.

实用环境语音识别鲁棒性技术研究与展望

刘敬伟肖熙《计算机工程与应用》2006,42(24):7-12

语音识别系统在实用环境中的鲁棒性是语音识别技术实用化的关键问题。鲁棒性研究的核心问题是如何解决实用环境语音特征和模型与干净环境语音识别系统的失配问题,这涉及到噪声补偿、信道适应、说话人自适应等关键技术。文章综述了语音识别鲁棒性技术研究的主要方法、原理及研究现状,分析了实用环境语音识别中声学模型和语言模型的适应技术,并展望了近期语音识别实用化技术发展的研究方向。相似文献

13.

基于聚类分析与说话人识别的语音跟踪

郝敏刘航李扬简单王俊影《计算机与现代化》2020,(4):7-13,18

目前语音跟踪在说话人干扰的条件下,即一段语音中存在多个说话人的混合语音信号时,语音跟踪质量会严重下降。针对这种情况,提出一种基于聚类分析与说话人识别的语音跟踪算法。算法首先使用改进的聚类分析方法进行语音分离,具体包括在K-means聚类中对质心进行缓存并降低采样率,以及在embedding特征空间引入正则项。其次,算法采用GMM-UBM说话人模型进行语音跟踪。实验结果表明改进的聚类分析方法可以有效提高算法的实时性及其语音分离质量,GMM-UBM模型在3 s语音的测试中具有84%的识别率。相似文献

14.

Speaker verification in sensor and acoustic environment mismatch conditions

G. Pradhan B. C. Haris S. R. M. Prasanna R. Sinha 《International Journal of Speech Technology》2012,15(3):381-392

Our initial speaker verification study exploring the impact of mismatch in training and test conditions finds that the mismatch in sensor and acoustic environment results in significant performance degradation compared to other mismatches like language and style (Haris et al. in Int. J. Speech Technol., 2012). In this work we present a method to suppress the mismatch between the training and test speech, specifically due to sensor and acoustic environment. The method is based on identifying and emphasizing more speaker specific and less mismatch affected vowel-like regions (VLRs) compared to the other speech regions. VLRs are separated from the speech regions (regions detected using voice activity detection (VAD)) using VLR onset point (VLROP) and are processed independently during training and testing of the speaker verification system. Finally, the scores are combined with more weight to that generated by VLRs as those are relatively more speaker specific and less mismatch affected. Speaker verification studies are conducted using the mel-frequency cepstral coefficients (MFCCs) as feature vectors. The speaker modeling is done using the Gaussian mixture model-universal background model and the state-of-the-art i-vector based approach. The experimental results show that for both the systems, proposed approach provides consistent performance improvement on the conversational approach with and without different channel compensation techniques. For instance, with IITG-MV Phase-II dataset for headphone trained and voice recorder test speech, the proposed approach provides a relative improvement of 25.08?% (in EER) for the i-vector based speaker verification systems with LDA and WCCN compared to conventional approach. 相似文献

15.

用于说话人识别的电话信道补偿技术 总被引：1，自引：0，他引：1

下载免费PDF全文

张磊王文华郑贵滨《计算机工程》2008,34(13):84-86

在说话人识别平台上,针对碳键型电话产生的线性和非线性失真带来的影响,提出一个系统的补偿框架。通过研究电话信道对频谱包络的影响,从留数角度分析虚峰出现的原因,结合留数归一化方法和传统的倒谱均值减,对中间维的倒谱加以提升。实验结果表明,在训练环境和测试环境不匹配的情况下,该方法具有较好的顽健性。相似文献

16.

基于GFCC与RLS的说话人识别抗噪系统研究

茅正冲王正创黄芳《计算机工程与应用》2015,51(10):215-218

为了提高说话人识别抗噪系统的性能,提出了将RLS自适应滤波器作为语音信号去噪的预处理器,进一步提高语音信号的信噪比,再通过Gammatone滤波器组,对去噪后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC,进而将特征参数GFCC用于说话人识别系统中。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种方法应用于说话人识别抗噪系统,系统的识别率及鲁棒性都有明显的提高。相似文献

17.

基于因子分析信道失配补偿的SVM话者确认方法

吴德辉李辉刘青松戴蓓蒨《模式识别与人工智能》2010,23(1):59-64

针对信道失配和统计模型区分性不足而导致话者确认性能下降问题,文中提出一种将因子分析信道失配补偿与支持向量机模型相结合的文本无关话者确认方法。在SVM话者模型前端采用高斯混合模型-背景模型(GMM-UBM)方法对语音特征参数进行聚类和升维,并利用因子分析(FA)方法,对聚类获得的超矢量进行信道补偿后作为基于SVM话者确认的输入特征,从而有效解决SVM用于文本无关话者确认的大样本、升维问题,以及信道失配对性能影响问题。在NIST 06数据库上实验结果表明,文中方法比未做失配补偿的GMM-UBM系统、GMM-SVM系统在等误识率上有50%以上的改善,比做了FA失配补偿的GMM-UBM系统也有15。8%的改善。相似文献

18.

双谱图在语音分析中的应用

周丽红雷金辉《传感器与微系统》2018,(2):158-160

为便于对不同的语音特征进行辨析,提出了一种基于双谱分析的语音辨别方法.通过采样语音数据,进行相应处理,再进行双谱分析,对不同类型的语音双谱图进行对比,因其语音包含因素不同,双谱图形上表现的双谱特征亦不同,其结果差异明显.试验结果表明:将双谱应用于语音分析中,可以对不同语音进行识别,能提高语音辨别的准确性,对处理语音信号有显著效果.双谱图是进行语音辨识的一种有效方法,具有良好的应用前景. 相似文献

19.

语音识别中的一种说话人聚类算法 总被引：1，自引：1，他引：1

肖述才欧智坚王作英《中文信息学报》2005,19(4):85-89

本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR 距离作为距离测度的时候,该算法对句子的聚类正确率达85169 %;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。相似文献

20.

基于MAP+CMLLR的说话人识别中发声力度问题

黄文娜彭亚雄贺松《计算机应用》2017,37(3):906-910

为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率（MAP）和约束最大似然线性回归（CMLLR）相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率（EER）明显降低,与基线系统、最大后验概率（MAP）自适应方法、最大似然线性回归（MLLR）模型投影方法和约束最大似然线性回归（CMLLR）特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。相似文献