共查询到16条相似文献,搜索用时 78 毫秒
1.
2.
3.
高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC(Bilinear Frequency Cepstrum Coefficients)下相对误识率分别下降了41.41%和22.21%。 相似文献
4.
基于分类特征空间高斯混合模型和神经网络融合的说话人识别 总被引:2,自引:0,他引:2
该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。 相似文献
5.
本文提出了一种嵌入时延神经网络(TDNN)的高斯混合背景模型(GMM UBM)说话人确认方法,它集成了作为判别性方法的时延神经网络和作为生成性方法的高斯混合模型各自的优点。该方法利用时延神经网络挖掘特征向量集的时序性,然后把时间信息传递给GMM;并且通过时延网络的变换使需要假设变量独立的最大似然概率(ML)方法更为合理。该方法利用极大似然概率作为训练准则,把高斯混合模型和神经网络作为整体来进行训练。训练过程中,高斯混合模型和神经网络的参数交替更新。实验结果表明,采用本文提出的方法结合TNorm比基线系统的等误差率(EER)降低28%。 相似文献
6.
7.
嵌入自联想神经网络的高斯混合模型说话人辨认 总被引:1,自引:0,他引:1
该文提出了一种嵌入自联想神经网络的高斯混合模型,它充分利用了神经网络和高斯混合模型各自的优点,以最大似然概率(ML)为准则,把它们作为一个整体来进行训练。训练过程中,高斯混合模型和神经网络的参数交替更新。由于神经网络起到了数据整形的作用,因而提高了类内数据的相似性。实验结果表明,采用该文提出的模型在各种信噪比情况下的识别率都比基线系统有所提高,最高能达到19%。 相似文献
8.
9.
10.
为了进一步提高基于传统的GMM模型的说话人辨识的识别率,引入了GMM-UBM模型,并且在特征提取方面采用多种特征参数组合来代替单一特征参数,以提高有效特征维数来弥补特征样本的不足,同时在说话人辨识的端点检测部分,用基于MFCC相似度和谱熵的端点检测方法来代替传统的基于短时能量和过零点的方法,以解决其对含噪语音检测不准确而影响说话人辨识的问题。实验表明,与传统的GMM模型相比,GMM-UBM模型能够有效地提高说话人辨识的性能,并且使用组合特征参数和利用基于MFCC相似度和谱熵的端点检测方法都可以进一步提高说话人辨识的性能。 相似文献
11.
识别正确率和抗噪性能固然是说话人识别的研究重点,但识别响应速度也是决定系统实用化的关键所在.本文成功地提出了基于说话人分类技术的分级说话人辨识方法,极大地提高了系统运行速度,随着注册说话人数的增多,较之传统的说话人辨识方法,其优势更加明显.同时在说话人确认中,该方法的使用,进一步提高了确认的正确率,有效地降低了错误接受和错误拒绝率.本文提出的可信度打分方法,也一定程度上改进了系统的性能.实验表明:基于说话人分类技术的说话人辨识方法使系统的运行速度平均提高了3.5倍,对说话人确认等误识率和最小误识率平均下降了53.75%. 相似文献
12.
This paper concerns robust and reliable speaker model training for text‐independent speaker verification. The baseline speaker modeling approach is the Gaussian mixture model (GMM). In text‐independent speaker verification, the amount of speech data may be different for speakers. However, we still wish the modeling approach to perform equally well for all speakers. Besides, the modeling technique must be least vulnerable against unseen data. A traditional approach for GMM training is expectation maximization (EM) method, which is known for its overfitting problem and its weakness in handling insufficient training data. To tackle these problems, variational approximation is proposed. Variational approaches are known to be robust against overtraining and data insufficiency. We evaluated the proposed approach on two different databases, namely KING and TFarsdat. The experiments show that the proposed approach improves the performance on TFarsdat and KING databases by 0.56% and 4.81%, respectively. Also, the experiments show that the variationally optimized GMM is more robust against noise and the verification error rate in noisy environments for TFarsdat dataset decreases by 1.52%. 相似文献
13.
提出一种可用于说话人识别的自适应RBFN阵列。RBF网设计的核心在于确定网络中心的数目及位置,该自适应算法有效地融合了IOC与ROLS算法的优点,不仅能动态调节RBF网的隐节点数,还能使网络的数据中心自适应变化,很好地优化了网络的结构。用与文本无关的闭集说话人识别系统对该算法进行了验证,实验结果表明,该方法与传统的RBF算法相比,自适应RBF网具有较好的鲁棒性以及精简的网络结构等优点。 相似文献
14.
一种改进的模糊C-均值聚类算法在说话人识别中的应用 总被引:3,自引:0,他引:3
提出了一种将改进的FCM聚类算法与矢量量化相结合的说话人识别的方法。先从语音信号中提取待识别的特征矢量集,再利用矢量量化来设计码本,最后用改进的算法对待识别语音进行辩识。该算法解决了FCM算法对初始值敏感、易陷入局部最优的问题。所使用的特征参数较少,计算比较简单,但识别率较高,且具有较好的鲁棒性。 相似文献
15.
16.
本文针对摄像机固定下的复杂背景环境,提出一种基于时空的自适应混合高斯背景建模方法,克服经典混合高斯模型(Gaussian Mixture Model,GMM)中只考虑单个像素的独立性而忽略相邻像素间的空间域相关性。首先采用混合高斯模型对每个像素在时间域上进行学习,然后利用相邻像素的自信息对背景及前景目标进行二次聚类,以修正错误的判断。实验结果表明,与经典混合高斯背景算法相比,本文提出的方法目标检测结果更加完整,具有更强的鲁棒性和很好的应用前景。 相似文献