共查询到20条相似文献,搜索用时 31 毫秒
1.
本文提出了一种基于语音分段辨认序列信息的与文本无关的说话人确认方法,并且着重分析了其中关键因素的变化,包括聚类数、阈值以及判定准则的变化,对确认效果的影响。通过实验证明了分段辨认序列频度信息是一种非常有效的说话人确认信息,对于确认结果起到很好的辅助作用。同时也指出了新方法的不足和今后的改进方向。 相似文献
2.
提出了一种新的说话人辨认的神经网络结构。这种结构是独立文本的、噪声鲁棒性的、基于贝叶斯理论和自组织映射网络的。试验结果表明这种贝叶斯自组织网络在说话人辨认中是有效的。 相似文献
3.
提出了一种新的说话人辨认的神经网络结构.这种结构是独立文本的、噪声鲁棒性的、基于贝叶斯理论和自组织映射网络的.试验结果表明这种贝叶斯自组织网络在说话人辨认中是有效的. 相似文献
4.
5.
《计算机应用与软件》2016,(12)
针对说话人确认中话者建模问题,提出GMM-DNN的混合建模方法。该方法先通过GMM提取原始语音特征的统计特征,然后进一步通过DNN非线性映射的方式将统计特征变换到一个与说话人相关的线性可分空间。选用栈式自编码神经网络SAE(Stacked Auto-encoder Neutral Network)作为深度神经网络的基本模型。在注册阶段从已训练的DNN网络中抽取最后一层作为说话人模型,称为p-vector。测试阶段,通过抽取测试语音的p-vector与注册说话人p-vector进行匹配,从而作出判决;另外还详细说明了DNN隐藏层的作用。通过对NIST语料库的实验表明,采用GMM-DNN的说话人确认方法相对于传统的GMM-UBM话者建模方法具有一定的优势。 相似文献
6.
利用MATLAB软件,设计了一种基于GMM模型的与文本无关的说话人辨认系统。该系统包括语音活动检测、提取MFCC参数、训练GMM参数和判决辨认四部分。经过TIMIT数据库测试,该系统的性能良好。 相似文献
7.
传统的声音识别系统通过短时声音频谱信息来辨识说话人.这种方法在某些条件下具有较好的性能。但是由于有些说话人特征隐藏在较长的语音片段中,通过添加长时信息可能会进一步提高系统的性能。在文中.音素持续时间信息被添加到传统模型上,以提高说话人辨识率。频谱信息是通过短时分析获得的,但音素持续时间的提取却属于长时分析,它需要更多的语音数据。通过大量语音数据探讨了音素持续时间信息对说话人辨识的有效性,提出2种方法来解决数据量小所引起的问题。实验结果表明,当说话人的声音模型被恰当建立时,即使在语音数据量小的情况下,音素持续时间信息对说话人辨识率的提高也是有效的。 相似文献
8.
9.
传统的声音识别系统通过短时声音频谱信息来辨识说话人,这种方法在某些条件下具有较好的性能。但是由于有些说话人特征隐藏在较长的语音片段中,通过添加长时信息可能会进一步提高系统的性能。在文中,音素持续时间信息被添加到传统模型上,以提高说话人辨识率。频谱信息是通过短时分析获得的,但音素持续时间的提取却属于长时分析,它需要更多的语音数据。通过大量语音数据探讨了音素持续时间信息对说话人辨识的有效性,提出2种方法来解决数据量小所引起的问题。实验结果表明,当说话人的声音模型被恰当建立时,即使在语音数据量小的情况下,音素持续时间信息对说话人辨识率的提高也是有效的。 相似文献
10.
《微型机与应用》2016,(11):51-55
在文本无关说话人确认领域,基于总差异空间的说话人确认方法已成为主流方法,其中概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)因其优异的性能受到广泛关注。然而传统PLDA模型没有考虑注册语音与测试语音时长失配情况下的差异信息,不能很好地解决因时长失配带来的说话人确认系统性能下降的问题。该文提出一种估计时长差异信息方法,并将此差异信息融入PLDA模型,从而提高PLDA模型对时长差异的鲁棒性。在NIST数据库上的实验表明,所提出的方法可以较好地补偿时长差异,性能上也优于PLDA方法。 相似文献
11.
针对粒子群算法容易过早出现早熟收敛问题,提出一种改进的PSO算法。在当前粒子陷入局部最优时,该算法根据平均粒距对部分粒子以一定的概率进行变异,从而扩大粒子群的全局搜索能力。将改进的PSO算法用来训练支持向量机,并应用在说话人识别系统中。通过实验证明改进的PSO算法在收敛速度和识别精度上都得到了改善。 相似文献
12.
通过分析GMM(高斯混合模型)的说话人辨认系统的性能,提出了一种捕捉不同说话人交互信息的人工神经网络(ANN)方法,构成一个GMM/ANN混合说话人辨认系统。实验表明,GMM/ANN混合系统的说话人辨认能够取得比基于GMM和基于MLP(多层感知器)更高的辨认率。 相似文献
13.
14.
提出了一种基于最小分类错误准则的概率神经网络的训练算法。实验结果表明,该系统及其MCE学习算法在20个说话人辨认应用中利用5s清晰语音获得98.9%的辨认率,利用l5s电话语音获得86.2%的辨认率。 相似文献
15.
无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署.针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概... 相似文献
16.
给出了一种基于声学分类的并行异方差PNN的说话人辨认系统。该模型的训练采用最大似然准则,并发展了EM算法来调整参数。试验证明,新模型在保持辨认率的同时,也减少了1/3的计算工作量。 相似文献
17.
18.
说话人确认任务旨在判断注册语音与测试语音是否属于同一说话人。针对说话人识别系统提取的声纹特征通常会受到与身份信息无关的因素干扰进而导致系统的准确性严重下降的问题,提出一种基于不确定性学习(UL)的文本无关的说话人确认(TISV)方法。首先,在说话人主干网络中引入不确定性同时学习声纹特征(均值)和话语数据的不确定性(方差),以建模语音数据集中的不确定性;其次,通过重采样技巧得到特征的分布表示;最后,在说话人分类损失中引入KL散度正则化约束噪声的分布,从而解决计算分类损失过程中的退化问题。实验结果表明,当训练集为VoxCeleb1和VoxCeleb2开发集时,与基于确定性方法的Thin ResNet34模型相比,所提方法的模型在VoxCeleb1-O测试集上的等错误率(EER)分别降低了9.9%和10.4%,最小检测代价函数(minDCF)分别降低了10.9%和4.5%。可见,所提方法在有噪声、无约束场景下的准确度有所提高。 相似文献
19.