共查询到19条相似文献,搜索用时 93 毫秒
1.
2.
为了探讨高斯混合模型在说话人识别中的作用,设计了一个基于GMM的说话人识别系统。整个系统由音频信号预处理,语音活动检测,说话人模型建立以及音频信号识别4个模块组成。前三个模块构成了系统的模型训练部分,最后一个模块构成了系统的语音识别部分。包含在第二个模块中的由GMM模型搭建的语音活动检测器是研究的创新之处。利用增强的多方互动会议语料库中的视听会议对系统中的部分可调参数以及系统的识别错误率进行了测试。仿真结果表明,在语音活动检测器和若干滤波算法的帮助下,系统对包含重叠语音的音频信号的识别准确率可以达到83.02%。 相似文献
3.
4.
说话人识别作为当今的一个研究热点,具有广泛的应用和研究前景。文章针对说话人识别的前端处理进行了相关研究,设计并实现了一个有效的处理算法。提取出Mel频率倒谱系数MFCC,讨论了MFCC各维参数对最终结果的贡献。文章通过研究高斯混合模型GMM的模型训练,使用最大似然估计算法和期望一最大化算法,在研究和改进基础上开发了一个基于高斯混合模型的说话人识别系统。同时完成了多线程并行测试与MFEC各维参数对最终识别结果的增益比较研究。 相似文献
5.
为了提高说话人识别系统的识别效率,提出一种基于说话人模型聚类的说话人识别方法,通过近似KL距离将相似的说话人模型聚类,为每类确定类中心和类代表,构成分级说话人识别模型。测试时先通过计算测试矢量与类中心或类代表之间的距离选择类,再通过计算测试矢量与选中类中的说话人模型之间对数似然度确定目标说话人,这样可以大大减少计算量。实验结果显示,在相同条件下,基于说话人模型聚类的说话人识别的识别速度要比传统的GMM的识别速度快4倍,但是识别正确率只降低了0.95%。因此,与传统GMM相比,基于说话人模型聚类的说话人识别能在保证识别正确率的同时大大提高识别速度。 相似文献
6.
7.
研究了情绪的维度空间模型与语音声学特征之间的关系以及语音情感的自动识别方法。介绍了基本情绪的维度空间模型,提取了唤醒度和效价度对应的情感特征,采用全局统计特征减小文本差异对情感特征的影响。研究了生气、高兴、悲伤和平静等情感状态的识别,使用高斯混合模型进行4种基本情感的建模,通过实验设定了高斯混合模型的最佳混合度,从而较好地拟合了4种情感在特征空间中的概率分布。实验结果显示,选取的语音特征适合于基本情感类别的识别,高斯混合模型对情感的建模起到了较好的效果,并且验证了二维情绪空间中,效价维度上的情感特征对语音情感识别的重要作用。 相似文献
8.
9.
随着说话人模型数量的增加,说话人识别系统的识别速度下降,不能满足实时性要求。针对这个问题,提出了基于分层识别模型的快速说话人识别方法。将变分法求解的KL散度的近似值作为模型间的相似性度量准则,并设计了说话人模型聚类的方法。结果表明,本文方法能够保证说话人模型聚类结果的有效性,在系统识别率损失很小的情况下,使系统的识别速度得到大幅度提升。 相似文献
10.
11.
语音识别中的一种说话人聚类算法 总被引:1,自引:1,他引:1
本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR 距离作为距离测度的时候,该算法对句子的聚类正确率达85169 %;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。 相似文献
12.
针对云南境内白族、纳西族、傈僳族3个典型的少数民族及汉族普通话语音,采用了高斯混合模型来训练每个民族的口音模型,并用少量的测试语音来获得较为满意的口音分类识别率,目的在于探索降低非母语口音话者语音识别错误率的有效途径.该文通过实验给出,对云南民族口音汉语普通话口音识别,当混合数为16,语音特征采用39维MFCC及其一阶、二阶差分参数时,口音识别正确率可达90.83%. 相似文献
13.
基于计算听觉场景分析和语者模型信息的语音识别鲁棒前端研究 总被引:1,自引:0,他引:1
传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition, ASR)系统的鲁棒性问题. 本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis, CASA)和语者模型信息的混合语音分离系统. 该系统在CASA框架下, 利用语者模型信息和因子最大矢量量化(Factorial-max vector quantization, MAXVQ)方法进行实值掩码估计, 实现了两语者混合语音中有效地分离出目标说话人语音的目标, 从而为ASR系统提供了鲁棒的识别前端. 在语音分离挑战(Speech separation challenge, SSC)数据集上的评估表明, 相比基线系统, 本文所提出的系统的语音识别正确率提高了15.68%. 相关的实验结果也验证了本文提出的多语者识别和实值掩码估计的有效性. 相似文献
14.
论文针对说话人识别中语音能量变化和噪声对提取有效语音数据的影响,在传统时域语音切分算法犤1,3犦的基础上,提出了三种孤立词的精确切分算法和一种连续语音的非精确切分算法。实验表明,新算法较好地克服了语音能量变化对切分的影响,在原始语音具有较高信噪比(≥10dB)的情况下,能够切除某些短时噪声和白噪声犤2犦。 相似文献
15.
语音识别技术近些年来发展非常迅速,并且在许多方面已经有了很好的应用。以语音识别技术在对话娃娃中的应用为例,阐述如何利用语音识别技术来设计智能控制系统,并详细介绍了系统的结构和原理。该系统具有很好的扩展性,稍微做些改动,就可以设计出各种各样的语音控制系统。 相似文献
16.
17.
杨杰 《单片机与嵌入式系统应用》2022,22(2):46-50
针对工业控制中智能视频的应用,本文研究了基于SOPC的智能视频在工业控制中目标检测与跟踪系统,本系统包含四个模块:图像采集模块、存储模块、目标检测跟踪模块和VGA显示模块,可以完成视频中图像的采集与处理、目标的检测与跟踪和显示等功能,实现了运动目标检测与跟踪的准确性和实时性.实验结果显示,本研究在运动目标的跟踪时偏移度... 相似文献
18.
19.
针对传统高斯混合模型在建模过程中只采用倒谱系数表示的语音谱特征,而忽略说话人基音频率信息的问题,提出了一种基于多空间概率分布的基音融合高斯混合模型。该模型在每个高斯成分空间中对浊音和清音进行选择性区分,并将基音与倒谱特征参数进行融合。实验结果表明,通过对模型参数进行重估计,在TIMIT、NTIMIT两种不同语料库情况下,该模型的识别率较两种不同的基线系统均有提高。 相似文献