首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 212 毫秒
1.
黄伟  戴蓓蒨  李辉 《电子与信息学报》2004,26(10):1607-1612
该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。  相似文献   

2.
说话人差异是影响语言辨识系统性能的一个重要方面.采用说话人聚类技术对训练数据进行了预分类,以此为基础训练各种语言模型,得到聚类后的语言辨识系统.高斯混合模型、高斯混合模型-全局背景模型和遍历隐马尔可夫模型3种语言模型的实验证明,这种方法是有效的,它普遍地减小了说话人差异对语言辨识的影响,提高了语言辨识率.  相似文献   

3.
针对基于因子分析模型的说话人确认系统评分的复杂性以及需要较大运算量的问题,文章直接利用话者因子的余弦距离相似度来计算评分。首先在训练阶段和测试阶段分别用因子分析的方法从语音中估计出话者因子,然后直接利用话者因子评分。对比SVM和其它的JFA-GMM-UBM话者确认系统,本文中所采用的系统训练阶段和测试阶段的流程相同,并且目标话者模型只需要存储话者因子,存储量少。在NIST2008数据库上的实验结果表明,余弦距离评分对比其它因子分析模型的评分方法,更加简单,并且话者确认系统的性能也有提高。  相似文献   

4.
基于说话人分类技术的分级说话人识别研究   总被引:3,自引:0,他引:3       下载免费PDF全文
刘文举  孙兵  钟秋海 《电子学报》2005,33(7):1230-1233
识别正确率和抗噪性能固然是说话人识别的研究重点,但识别响应速度也是决定系统实用化的关键所在.本文成功地提出了基于说话人分类技术的分级说话人辨识方法,极大地提高了系统运行速度,随着注册说话人数的增多,较之传统的说话人辨识方法,其优势更加明显.同时在说话人确认中,该方法的使用,进一步提高了确认的正确率,有效地降低了错误接受和错误拒绝率.本文提出的可信度打分方法,也一定程度上改进了系统的性能.实验表明:基于说话人分类技术的说话人辨识方法使系统的运行速度平均提高了3.5倍,对说话人确认等误识率和最小误识率平均下降了53.75%.  相似文献   

5.
张靖  俞一彪 《通信技术》2020,(3):618-624
说话人识别系统实际应用时,一旦应用环境和训练环境不一致,系统的性能会急剧下降。由于环境噪声的多变性,系统训练时无法预测实际应用中的环境噪声。因此,引入环境自学习和自适应思想,通过改进的矢量泰勒级数(Vector Taylor Series,VTS)刻画环境噪声模型和说话人语音模型之间的统计关系,提出一种具有环境自学习能力的鲁棒说话人识别算法。系统应用中每当环境变化时利用语音输入前采集到的环境噪声信号来迭代更新环境噪声模型参数,进一步基于VTS确立的统计关系,将说话人语音模型自适应到实际应用环境来补偿环境失配的影响。说话人辨认实验结果表明,提出的方法在低信噪比条件下对于不同种类的噪声都能显著提升系统的识别性能。  相似文献   

6.
加性噪声条件下鲁棒说话人确认   总被引:1,自引:0,他引:1       下载免费PDF全文
张二华  王明合  唐振民 《电子学报》2019,47(6):1244-1250
基于非负矩阵分解的语音去噪,在提高语音信号信噪比的同时,也会引起语音失真,从而导致噪声环境下说话人确认系统性能下降.本文提出基于分区约束非负矩阵分解的语音去噪方法(Nonnegative Matrix Factorization with Partial Constrains,PCNMF),目的是在未知和非平稳噪声条件下提高话人确认系统的鲁棒性.PCNMF在满足分区约束条件的基础上分别构建语音字典和噪声字典.考虑到传统语音训练产生的语音字典往往含有一定的噪声成分,PCNMF通过数学模型产生基音及泛音频谱,在此基础上利用该频谱模仿人声的共振峰结构来合成字典,从而保证语音字典纯净性.另一方面,为了克服传统噪声字典构建方法带来的部分噪声信息丢失问题,PCNMF对在线分离出的噪声样本进行分帧和短时傅里叶变换,然后以帧为单位线性组合生成噪声字典.性能评估实验引入了多种噪声类型,实验结果表明PCNMF可有效提高说话人确认系统的鲁棒性,特别是在未知和非平稳噪声条件下其等错率相比基线系统(Multi-Condition)平均降低了5.2%.  相似文献   

7.
大多数实际应用环境中总是存在各种各样的噪声,由于训练环境与识别环境不匹配,现有的绝大多数说话人识别系统在噪声环境中的性能都不可避免的急剧下降。为了让说话人识别系统在强噪声环境中,有较好的识别效果.研究一个将语音增强器和说话人识别系统级连起来的系统,该系统中将语音增强作为前端处理来提高输入的信噪比。实验证明,该系统具有很好的抗噪声性能。  相似文献   

8.
源-目标话者的声音转换是一种变换说话人声音特性的技术,它将源说话人的声音转换成另一个指定的目标说话人的声音.对源话者声道谱特性的修改是声音转换的关键之一.为了克服一般分类线性转换算法中分类不准确所带来的误差,本文引入了分类线性加权转换的策略,根据不同子类的转换函数对谱特性的贡献,赋予不同的加权系数,给出了一种基于GMM后验概率加权的线性转换算法.在微软汉语普通话语音数据库上做的四组对比实验表明,该算法在谱转换性能上均有不同程度的提高.  相似文献   

9.
本文给出了一种语言辨识的新方法。通常来讲,语言辨识系统是说话人无关的,但说话人的个体特征对语言辨识系统有很大的影响,文本采用了一种粗分类精识别的思想,利用说话人聚类技术有效解决了粗分类的问题,对每类相近说话人集合建立模型,然后进行识别。实验表明,该方法对于说话人无关的语言辨识问题是有效的。  相似文献   

10.
通过对比麦克风与固话信道下语音信号的时域、频域参数,结合固话传输系统的特性,分析语音信号经过固话信道传输后,各参数的异同点以及固话信道对语音信号的影响。并采用F比的方法,分析麦克风信道和固话信道下语音信号MFCC特征参数的差异。实验结果表明,语音信号经过固话信道传输后,不仅造成信号的频率失真,还伴随有宽带噪声和共振型噪声。在MFCC特征参数方面,麦克风和固话信道的第二维MFCC参数差异最明显,低维参数相比高维参数差异较大,男性说话人特征参数相比女性说话人差异较大。  相似文献   

11.
该文提出了一种将模糊C-均值聚类法与矢量量化法相结合进行说话人识别的方法。该算法将从语音信号中提取的 12阶 LPC(线性预测编码)倒谱系数作为待分类样本的 12个指标,先用矢量量化法求出每个说话人表征特征参数的码书,作为模糊聚类算法的聚类中心,最后将待识别的特征矢量以得到的码书为聚类中心,进行聚类识别。该算法所使用的特征参数较少,计算比较简单,但识别率较矢量量化法高。  相似文献   

12.
基于可区分性加权的模糊核说话人识别   总被引:2,自引:1,他引:1       下载免费PDF全文
林琳  王树勋  陈建 《电子学报》2008,36(7):1446-1450
 针对训练和识别语音数据较少的情况,本文提出了一种新的说话人识别算法.通过核映射,在高维特征空间对说话人的语音特征进行模糊矢量量化.为了增加说话人之间的可区分性,提出了一种基于高维特征空间的码字矢量的权值分配方法,对具有较强区分性的码字矢量分配较大的权值,并将产生的权值和说话人的码书一起形成说话人数据库.识别时,提出一种模糊核加权最近邻近分类器,在高维特征空间中对说话人进行匹配.实验表明,该算法在训练语音少于8s,识别语音为1s时,能够得到较好的识别结果.  相似文献   

13.
基于高斯混合模型和残差预测的说话人转换系统   总被引:1,自引:1,他引:0  
说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。  相似文献   

14.
当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。  相似文献   

15.
基于码本的说话人自适应方法   总被引:1,自引:0,他引:1  
吕津  赵明生  王作英 《电子学报》2001,29(4):456-460
本文提出了一种基于码本的说话人自适应方法.它可以将变换方法和Bayes估计法这两大类说话人自适应方法的优点有机的结合起来,既能实现快速的说话人自适应,还具有良好的一致渐进性.自适应过程可分为两个阶段:在第一阶段,用由大量参考说话人的语音码本构成的线性组合来逼近用户的语音码本.此时只需要很少的自适应训练数据就可以用基于Rosen梯度投影法的优化算法计算出线性组合中各码本的最佳权值.在第二阶段,码本的最佳线性组合被用作用户码本的先验估计值.随着更多自适应训练数据的获得,系统对用户码本进一步进行Bayes估计,从而可以实现累进的自适应.作者将该方法应用于说话人无关的连续汉语语音识别系统.一系列的对比实验表明该自适应方法很有前途.  相似文献   

16.
A real-time full search vector quantization system for speech waveform coding is implemented using LSTTL and CMOS devices. The system consists of low-pass filters, A/D and D/A converters, an algorithm for discriminating voiced and unvoiced speed, a full search vector quantizer encoder and decoder, and a microprocessor-based controller. The system is designed to operate at two possible rates: one bit/sample using a dimension 8 vector quantizer (6500 bits/s) or 2 bits/sample using a dimension 4 vector quantizer (13 000 bits/s). In both cases the codebooks have rate 8 bits/vector. Separate codebooks were designed for voiced and unvoiced speech based on a training sequence of 640 000 samples containing five different speakers. The subjective and quantitative results are compared to both simulations and with a real-time array processor based implementation.  相似文献   

17.
本文从模板匹配的角度研究了多层前向感知机(MLP)在汉语孤立数目字语音识别中的应用,针对训练样本数受限的情况提出了新的训练方法,研究了语音固化、特征提取、学习算法和策略诸方面问题。对特定人和非特定人汉语孤立数目字语音识别分别达至了95.7%和93.0%(无拒识)的识别率。  相似文献   

18.
A system capable of producing near video-realistic animation of a speaker given only speech inputs is presented. The audio input is a continuous speech signal, requires no phonetic labelling and is speaker-independent. The system requires only a short video training corpus of a subject speaking a list of viseme-targeted words in order to achieve convincing realistic facial synthesis. The system learns the natural mouth and face dynamics of a speaker to allow new facial poses, unseen in the training video, to be synthesised. To achieve this the authors have developed a novel approach which utilises a hierarchical and nonlinear principal components analysis (PCA) model which couples speech and appearance. Animation of different facial areas, defined by the hierarchy, is performed separately and merged in post-processing using an algorithm which combines texture and shape PCA data. It is shown that the model is capable of synthesising videos of a speaker using new audio segments from both previously heard and unheard speakers.  相似文献   

19.
针对当前神经网络声学建模中数据混用困难的问题,文中提出了一种基于听感量化编码的神经网络语音合成方法。通过设计听感量化编码模型学习海量语音在音色、语种、情感上的不同差异表征,构建统一的多人数据混合训练的神经网络声学模型。在统一的听感量化编码声学模型内通过数据共享和迁移学习,可以显著降低合成系统搭建的数据量要求,并实现对合成语音的音色、语种、情感等属性的有效控制。提升了神经网络语音合成的质量和灵活性,一小时数据构建语音合成系统自然度可达到4.0MOS分,达到并超过普通说话人水平。  相似文献   

20.
黄文娜  彭亚雄 《电声技术》2016,40(11):44-47
为了改善发声力度变化对说话人识别系统性能的影响.针对不同发声力度下语音信号的分析,提出了使用发声力度最大后验概率(Vocal Effort Maximum A Posteriori,VEMAP)自适应方法更新基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的说话人识别系统模型.实验表明,所提出的方法使不同发声力度下系统EER%降低了88.45%与85.16%,有效解决了因发声力度变化引起的训练语音与测试语音音量失配,从而导致说话人识别性能降低的问题,改善说话人识别系统性能效果显著.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号