首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
说话人差异是影响语言辨识系统性能的一个重要方面.采用说话人聚类技术对训练数据进行了预分类,以此为基础训练各种语言模型,得到聚类后的语言辨识系统.高斯混合模型、高斯混合模型-全局背景模型和遍历隐马尔可夫模型3种语言模型的实验证明,这种方法是有效的,它普遍地减小了说话人差异对语言辨识的影响,提高了语言辨识率.  相似文献   

2.
基于高斯混合模型和残差预测的说话人转换系统   总被引:1,自引:1,他引:0  
说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。  相似文献   

3.
高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC(Bilinear Frequency Cepstrum Coefficients)下相对误识率分别下降了41.41%和22.21%。  相似文献   

4.
黄伟  戴蓓蒨  李辉 《电子与信息学报》2004,26(10):1607-1612
该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。  相似文献   

5.
陈存宝  赵力 《信号处理》2010,26(4):563-568
本文提出了一种嵌入时延神经网络(TDNN)的高斯混合背景模型(GMM UBM)说话人确认方法,它集成了作为判别性方法的时延神经网络和作为生成性方法的高斯混合模型各自的优点。该方法利用时延神经网络挖掘特征向量集的时序性,然后把时间信息传递给GMM;并且通过时延网络的变换使需要假设变量独立的最大似然概率(ML)方法更为合理。该方法利用极大似然概率作为训练准则,把高斯混合模型和神经网络作为整体来进行训练。训练过程中,高斯混合模型和神经网络的参数交替更新。实验结果表明,采用本文提出的方法结合TNorm比基线系统的等误差率(EER)降低28%。   相似文献   

6.
《现代电子技术》2019,(16):174-178
针对公交出行特征的传统数据分析方法人工成本大的问题,提出一种基于高斯混合聚类模型的公交出行特征分析方法。以公交IC卡刷卡数据、公交运行GPS数据及静态站点数据为基础,建立高斯混合聚类模型,对比节假日与通勤日公交出行特征差异。最后以深圳市某路公交为实例,仿真结果表明,节假日与通勤日公交出行在高峰时段分布与持续时间上具有显著差异,验证了高斯混合聚类模型在交通数据分析领域中的有效性,对公交运营与调度优化有一定的借鉴意义。  相似文献   

7.
嵌入自联想神经网络的高斯混合模型说话人辨认   总被引:1,自引:0,他引:1  
该文提出了一种嵌入自联想神经网络的高斯混合模型,它充分利用了神经网络和高斯混合模型各自的优点,以最大似然概率(ML)为准则,把它们作为一个整体来进行训练。训练过程中,高斯混合模型和神经网络的参数交替更新。由于神经网络起到了数据整形的作用,因而提高了类内数据的相似性。实验结果表明,采用该文提出的模型在各种信噪比情况下的识别率都比基线系统有所提高,最高能达到19%。  相似文献   

8.
赵振东  张静  李圆  胡喜梅 《通信技术》2009,42(10):192-193
提出了基于高斯混合模型(GMM)说话人分类的分级说话人识别系统,同时将小波神经网络(WNN)引入到子识别系统中。分别对未分级说话人识别系统和分级说话人识别系统进行了比较。仿真实验结果表明,分级网络在保证正确识别率的同时,不仅改善了网络训练速度,亦大大提高了识别响应速度。  相似文献   

9.
基于聚类统计与文本无关的说话人识别研究   总被引:6,自引:2,他引:4  
从语音信号特征矢量的空间映射出发,在二元分裂算法的基础上提出了一种裂合并的聚类算法,并用于与本文无关的说话人识别研究,初步建立了基于聚类统计的开放系统,该系统用说话人语音信号在特征空间的分布中心建立参考模板,用聚类统计中心代替待识语音段的特征矢量进行了模式匹配计算,系统规模的越大,节省的计算量就越多。在小规模说话人辨认系统的实践研究中,研究了特征矢量的加权,语音段的时长以及a因子的选择对系统性能的影响。  相似文献   

10.
为了进一步提高基于传统的GMM模型的说话人辨识的识别率,引入了GMM-UBM模型,并且在特征提取方面采用多种特征参数组合来代替单一特征参数,以提高有效特征维数来弥补特征样本的不足,同时在说话人辨识的端点检测部分,用基于MFCC相似度和谱熵的端点检测方法来代替传统的基于短时能量和过零点的方法,以解决其对含噪语音检测不准确而影响说话人辨识的问题。实验表明,与传统的GMM模型相比,GMM-UBM模型能够有效地提高说话人辨识的性能,并且使用组合特征参数和利用基于MFCC相似度和谱熵的端点检测方法都可以进一步提高说话人辨识的性能。  相似文献   

11.
基于说话人分类技术的分级说话人识别研究   总被引:3,自引:0,他引:3       下载免费PDF全文
刘文举  孙兵  钟秋海 《电子学报》2005,33(7):1230-1233
识别正确率和抗噪性能固然是说话人识别的研究重点,但识别响应速度也是决定系统实用化的关键所在.本文成功地提出了基于说话人分类技术的分级说话人辨识方法,极大地提高了系统运行速度,随着注册说话人数的增多,较之传统的说话人辨识方法,其优势更加明显.同时在说话人确认中,该方法的使用,进一步提高了确认的正确率,有效地降低了错误接受和错误拒绝率.本文提出的可信度打分方法,也一定程度上改进了系统的性能.实验表明:基于说话人分类技术的说话人辨识方法使系统的运行速度平均提高了3.5倍,对说话人确认等误识率和最小误识率平均下降了53.75%.  相似文献   

12.
This paper concerns robust and reliable speaker model training for text‐independent speaker verification. The baseline speaker modeling approach is the Gaussian mixture model (GMM). In text‐independent speaker verification, the amount of speech data may be different for speakers. However, we still wish the modeling approach to perform equally well for all speakers. Besides, the modeling technique must be least vulnerable against unseen data. A traditional approach for GMM training is expectation maximization (EM) method, which is known for its overfitting problem and its weakness in handling insufficient training data. To tackle these problems, variational approximation is proposed. Variational approaches are known to be robust against overtraining and data insufficiency. We evaluated the proposed approach on two different databases, namely KING and TFarsdat. The experiments show that the proposed approach improves the performance on TFarsdat and KING databases by 0.56% and 4.81%, respectively. Also, the experiments show that the variationally optimized GMM is more robust against noise and the verification error rate in noisy environments for TFarsdat dataset decreases by 1.52%.  相似文献   

13.
提出一种可用于说话人识别的自适应RBFN阵列。RBF网设计的核心在于确定网络中心的数目及位置,该自适应算法有效地融合了IOC与ROLS算法的优点,不仅能动态调节RBF网的隐节点数,还能使网络的数据中心自适应变化,很好地优化了网络的结构。用与文本无关的闭集说话人识别系统对该算法进行了验证,实验结果表明,该方法与传统的RBF算法相比,自适应RBF网具有较好的鲁棒性以及精简的网络结构等优点。  相似文献   

14.
一种改进的模糊C-均值聚类算法在说话人识别中的应用   总被引:3,自引:0,他引:3  
杨彦  赵力 《电声技术》2006,(1):40-43
提出了一种将改进的FCM聚类算法与矢量量化相结合的说话人识别的方法。先从语音信号中提取待识别的特征矢量集,再利用矢量量化来设计码本,最后用改进的算法对待识别语音进行辩识。该算法解决了FCM算法对初始值敏感、易陷入局部最优的问题。所使用的特征参数较少,计算比较简单,但识别率较高,且具有较好的鲁棒性。  相似文献   

15.
蒋晔  唐振民 《电子学报》2011,39(4):953-957
针对短语音说话人辨认训练语料不充分的特点,对特征参数和GMM模型进行优化和改进,提出一种基于局部模糊PCA的GMM说话人辨认方法.该方法采用特征组合代替单一特征,以提高有效特征维数来弥补特征样本的不足,并用局部模糊PCA对组合特征进行有效降维,在对识别率影响很小的前提下,降低了系统的时空复杂度.本文还对GMM参数初始化...  相似文献   

16.
本文针对摄像机固定下的复杂背景环境,提出一种基于时空的自适应混合高斯背景建模方法,克服经典混合高斯模型(Gaussian Mixture Model,GMM)中只考虑单个像素的独立性而忽略相邻像素间的空间域相关性。首先采用混合高斯模型对每个像素在时间域上进行学习,然后利用相邻像素的自信息对背景及前景目标进行二次聚类,以修正错误的判断。实验结果表明,与经典混合高斯背景算法相比,本文提出的方法目标检测结果更加完整,具有更强的鲁棒性和很好的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号