首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文提出了一种基于语音分段辨认序列信息的与文本无关的说话人确认方法,并且着重分析了其中关键因素的变化,包括聚类数、阈值以及判定准则的变化,对确认效果的影响。通过实验证明了分段辨认序列频度信息是一种非常有效的说话人确认信息,对于确认结果起到很好的辅助作用。同时也指出了新方法的不足和今后的改进方向。  相似文献   

2.
提出了一种新的说话人辨认的神经网络结构。这种结构是独立文本的、噪声鲁棒性的、基于贝叶斯理论和自组织映射网络的。试验结果表明这种贝叶斯自组织网络在说话人辨认中是有效的。  相似文献   

3.
提出了一种新的说话人辨认的神经网络结构.这种结构是独立文本的、噪声鲁棒性的、基于贝叶斯理论和自组织映射网络的.试验结果表明这种贝叶斯自组织网络在说话人辨认中是有效的.  相似文献   

4.
一种新的说话人确认方法   总被引:3,自引:0,他引:3  
张怡颖  朱小燕  张钹 《软件学报》1999,10(4):372-376
文章在对说话人确认和说话人辨认进行比较研究的基础上,提出一种新的说话人确认方法.同传统方法相比,该方法通过建立非特定说话人模型综合多个说话人的语音特性,使其能够对于不同的待确认语音给出不同的判决阈值,从而解决了说话人确认在判决阈值设置上存在的困难.实验结果表明,该方法能够显著降低说话人确认系统的错误接受率和错误拒绝率,为说话人确认应用于保密性要求较高的环境提供了一条有效的途径.  相似文献   

5.
针对说话人确认中话者建模问题,提出GMM-DNN的混合建模方法。该方法先通过GMM提取原始语音特征的统计特征,然后进一步通过DNN非线性映射的方式将统计特征变换到一个与说话人相关的线性可分空间。选用栈式自编码神经网络SAE(Stacked Auto-encoder Neutral Network)作为深度神经网络的基本模型。在注册阶段从已训练的DNN网络中抽取最后一层作为说话人模型,称为p-vector。测试阶段,通过抽取测试语音的p-vector与注册说话人p-vector进行匹配,从而作出判决;另外还详细说明了DNN隐藏层的作用。通过对NIST语料库的实验表明,采用GMM-DNN的说话人确认方法相对于传统的GMM-UBM话者建模方法具有一定的优势。  相似文献   

6.
利用MATLAB软件,设计了一种基于GMM模型的与文本无关的说话人辨认系统。该系统包括语音活动检测、提取MFCC参数、训练GMM参数和判决辨认四部分。经过TIMIT数据库测试,该系统的性能良好。  相似文献   

7.
传统的声音识别系统通过短时声音频谱信息来辨识说话人.这种方法在某些条件下具有较好的性能。但是由于有些说话人特征隐藏在较长的语音片段中,通过添加长时信息可能会进一步提高系统的性能。在文中.音素持续时间信息被添加到传统模型上,以提高说话人辨识率。频谱信息是通过短时分析获得的,但音素持续时间的提取却属于长时分析,它需要更多的语音数据。通过大量语音数据探讨了音素持续时间信息对说话人辨识的有效性,提出2种方法来解决数据量小所引起的问题。实验结果表明,当说话人的声音模型被恰当建立时,即使在语音数据量小的情况下,音素持续时间信息对说话人辨识率的提高也是有效的。  相似文献   

8.
与文本无关的说话人自适应确认方法   总被引:2,自引:0,他引:2  
张怡颖  朱小燕  张钹 《软件学报》2000,11(6):799-803
该文提出一种与文本无关的自适应说话人确认方法.此自适应方法基于作者所提出的用全局说话人模型标准化似然得分值进行说话人确认的方法,以解决此方法应用于实际系统时存在的训练时间较长的问题,从而缩短新用户注册系统的等待时间,使新用户能够在较短的时间内开始系统的使用.实验结果充分说明了此方法的有效性;当系统有30个用户时,新用户的注册速度加快了12倍.  相似文献   

9.
传统的声音识别系统通过短时声音频谱信息来辨识说话人,这种方法在某些条件下具有较好的性能。但是由于有些说话人特征隐藏在较长的语音片段中,通过添加长时信息可能会进一步提高系统的性能。在文中,音素持续时间信息被添加到传统模型上,以提高说话人辨识率。频谱信息是通过短时分析获得的,但音素持续时间的提取却属于长时分析,它需要更多的语音数据。通过大量语音数据探讨了音素持续时间信息对说话人辨识的有效性,提出2种方法来解决数据量小所引起的问题。实验结果表明,当说话人的声音模型被恰当建立时,即使在语音数据量小的情况下,音素持续时间信息对说话人辨识率的提高也是有效的。  相似文献   

10.
《微型机与应用》2016,(11):51-55
在文本无关说话人确认领域,基于总差异空间的说话人确认方法已成为主流方法,其中概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)因其优异的性能受到广泛关注。然而传统PLDA模型没有考虑注册语音与测试语音时长失配情况下的差异信息,不能很好地解决因时长失配带来的说话人确认系统性能下降的问题。该文提出一种估计时长差异信息方法,并将此差异信息融入PLDA模型,从而提高PLDA模型对时长差异的鲁棒性。在NIST数据库上的实验表明,所提出的方法可以较好地补偿时长差异,性能上也优于PLDA方法。  相似文献   

11.
针对粒子群算法容易过早出现早熟收敛问题,提出一种改进的PSO算法。在当前粒子陷入局部最优时,该算法根据平均粒距对部分粒子以一定的概率进行变异,从而扩大粒子群的全局搜索能力。将改进的PSO算法用来训练支持向量机,并应用在说话人识别系统中。通过实验证明改进的PSO算法在收敛速度和识别精度上都得到了改善。  相似文献   

12.
通过分析GMM(高斯混合模型)的说话人辨认系统的性能,提出了一种捕捉不同说话人交互信息的人工神经网络(ANN)方法,构成一个GMM/ANN混合说话人辨认系统。实验表明,GMM/ANN混合系统的说话人辨认能够取得比基于GMM和基于MLP(多层感知器)更高的辨认率。  相似文献   

13.
建立声学模型是说话人识别技术的重要环节.文章介绍了一种改进的GMM算法,将基于样本和核的相似性度量的动态聚类算法与传统高斯混合模型结合起来进行建模,识别辨认时,对语音帧得分进行加权处理.实验表明:改进后的与文本无关的说话人辨认系统无论是在建模时间还是识别效率上都要高于传统的基于GMM的说话人辨认系统.  相似文献   

14.
王成儒  王金甲 《计算机工程》2003,29(13):105-106,114
提出了一种基于最小分类错误准则的概率神经网络的训练算法。实验结果表明,该系统及其MCE学习算法在20个说话人辨认应用中利用5s清晰语音获得98.9%的辨认率,利用l5s电话语音获得86.2%的辨认率。  相似文献   

15.
无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署.针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概...  相似文献   

16.
给出了一种基于声学分类的并行异方差PNN的说话人辨认系统。该模型的训练采用最大似然准则,并发展了EM算法来调整参数。试验证明,新模型在保持辨认率的同时,也减少了1/3的计算工作量。  相似文献   

17.
为探究对抗样本对端到端说话人辨认系统的安全威胁与攻击效果,比较现有对抗样本生成算法在语音环境下的性能优劣势,分析FGSM、JSMA、BIM、C&W、PGD 5种白盒算法和ZOO、HSJA 2种黑盒算法.将7种对抗样本生成算法在ResCNN和GRU两种网络结构的端到端说话人辨认模型中实现有目标和无目标攻击,并制作音频对抗...  相似文献   

18.
张玉莲  姚姗姗  王超  畅江 《计算机应用》2023,(12):3727-3732
说话人确认任务旨在判断注册语音与测试语音是否属于同一说话人。针对说话人识别系统提取的声纹特征通常会受到与身份信息无关的因素干扰进而导致系统的准确性严重下降的问题,提出一种基于不确定性学习(UL)的文本无关的说话人确认(TISV)方法。首先,在说话人主干网络中引入不确定性同时学习声纹特征(均值)和话语数据的不确定性(方差),以建模语音数据集中的不确定性;其次,通过重采样技巧得到特征的分布表示;最后,在说话人分类损失中引入KL散度正则化约束噪声的分布,从而解决计算分类损失过程中的退化问题。实验结果表明,当训练集为VoxCeleb1和VoxCeleb2开发集时,与基于确定性方法的Thin ResNet34模型相比,所提方法的模型在VoxCeleb1-O测试集上的等错误率(EER)分别降低了9.9%和10.4%,最小检测代价函数(minDCF)分别降低了10.9%和4.5%。可见,所提方法在有噪声、无约束场景下的准确度有所提高。  相似文献   

19.
李燕萍  唐振民  丁辉  张燕 《计算机工程》2009,35(14):221-223
针对说话人辨认中训练语音有限时系统泛化能力差的问题,提出一种基于半监督学习的复合高斯混合模型算法。通过复合高斯混合模型对所有说话人的特征分布统一建模,基于半监督学习机制下的EM算法对学习样本进行学习。实验证明,该算法能够充分利用未标记样本对系统进行有效的自适应更新,改善系统的性能,获得比传统高斯混合模型更高的识别率,提高系统的泛化能力。  相似文献   

20.
在噪声环境下, 为提高说话人识别系统的鲁棒性, 需要对系统进行各种抗噪声处理. 本文基于说话人特征的统计特性和直方图均衡化在说话人识别中的应用特点, 提出了直方图均衡化的自适应方法. 实验结果表明, 与普通直方图均衡化变换方法相比, 自适应直方图均衡化能进一步提高辨认系统的辨认率; 并且无论在平稳噪声还是非平稳噪声环境下, 该算法都能取得较好辨认率, 进一步增强系统的鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号