首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
语音识别中的一种说话人聚类算法   总被引:1,自引:1,他引:1  
本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR 距离作为距离测度的时候,该算法对句子的聚类正确率达85169 %;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。  相似文献   

2.
相对解码重建后的语音进行说话人识别,从VoIP的语音流中直接提取语音特征参数进行说话人识别方法具有便于实现的优点,针对G.729编码域数据,研究基于DTW算法的快速说话人识别方法。实验结果表明,在相关的说话人识别中,DTW算法相比GMM在识别正确率和效率上有了很大提高。  相似文献   

3.
为了提高说话人识别系统的识别效率,提出一种基于说话人模型聚类的说话人识别方法,通过近似KL距离将相似的说话人模型聚类,为每类确定类中心和类代表,构成分级说话人识别模型。测试时先通过计算测试矢量与类中心或类代表之间的距离选择类,再通过计算测试矢量与选中类中的说话人模型之间对数似然度确定目标说话人,这样可以大大减少计算量。实验结果显示,在相同条件下,基于说话人模型聚类的说话人识别的识别速度要比传统的GMM的识别速度快4倍,但是识别正确率只降低了0.95%。因此,与传统GMM相比,基于说话人模型聚类的说话人识别能在保证识别正确率的同时大大提高识别速度。  相似文献   

4.
由于说话人之间声学特征上的差异,可以将来自于不同说话人的语音段按照话者之间的相似程度进行聚类.在语音段长度不等和说话人数目未知的情况下,本文提出了一种基于纯度信息的不同话者语音段的无监督聚类方法.首先为每个语音段分别建立GMM模型,通过模型似然比计算和GLR距离测度获得语音段之间的相似程度,对语音数据集进行无监督的分级聚类.采用纯度信息和BBN算法进行每级聚类的聚类质量和效果计算,并以此进行分级聚类的剪枝选择.文中给出了平行剪枝和最优剪枝两种剪枝方法及剪枝的评估方法.实验表明,该方法具有较好的聚类效果.  相似文献   

5.
i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类.然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别.实验表明该方法能够提高语音识别的性能。  相似文献   

6.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

7.
为提高构音障碍识别准确率,提出一种基于多特征组合的构音障碍语音识别方法.利用遗传算法进行特征选择,从语音的韵律特征、频谱特征、人耳听觉特征、嗓音质量特征和声道模型特征等5类特征组合成的多特征组合中选择出分类准确率最高的特征子集,通过SVM分类器对选择出的特征进行识别.在Torgo声学和发音数据库对不同的语音刺激类型进行...  相似文献   

8.
王波  徐毅琼  李弼程 《计算机工程与设计》2007,28(10):2401-2402,2416
提出了一种使用段级语音特征对测试进行说话人分段从而实现对话环境下说话人分段算法,算法实现中基于车比雪夫和不等式提出了基于协方差模型的段级特征的距离测度描述.该识别方法根据实验选择了合适的段级特征语音段长度,实验结果表明基于段级特征的说话人识别方法在有效地在对话环境下将多人的语音进行分段,从而提高了说话人识别系统的精度和识别速度.  相似文献   

9.
针对目前广泛应用于说话人识别领域的MFCC特征参数包含较少说话人特征信息的问题和SVM分类器选择核函数时受到Mercer准则限制的问题,提出了一种将混沌粒子群算法(CPSO)与核匹配追踪算法(KMP)相结合的说话人识别方法.首先通过CPSO聚类算法将MFCC特征参数进行变换处理,得到精简的MFCC特征参数(SMFCC),然后利用KMP算法对核函数的形式没有任何限制的特性和良好的分类识别性能,对约简后的SMFCC特征参数进行分类训练和识别.仿真实验结果表明,基于CPSO-KMP说话人识别方法相比主流的GMM-UBM方法,在EER性能上相对提高了31%.  相似文献   

10.
运用软硬件协同设计,在DE2-70开发板上实现了一个基于SoPC的实时说话人识别控制器,控制器有很好的实时性和良好的识别性能。控制器的语音特征参数采用线性预测倒谱系数(LPCC),匹配算法采用动态时间规整算法(DTW)。  相似文献   

11.
详细阐述CMOS图像的采集及在实际环境下图像处理和存储的方法;提出一种基于最小二乘法构建无损路径图像的新算法,给出一种适应性强的智能车循迹策略和相应的程序。实验表明,在这种控制策略下,小车运行稳定,能够排除各种干扰,并且能够使小车维持在很高的速度上行驶。基于此策略,本小组获得了第二届全国大学生智能车竞赛特等奖。  相似文献   

12.
随着世界经济越来越发达,各国经济交流日益加深,人们每天要处理大量的票据.手写数字在这个领域是必不缺少的,例如人们要处理许多支票、发票、货物单等数据,这些都要大量与数据打交道.传统的方法是利用光学的光电变换原理对数字进行识别,该方法对环境要求比较高,成本较高,识别率和实时性比较低.文中提出基于图像识别的对0至9手写数字识别技术.实验表明,对2,3,4,5,8,9字符准确识别,而对1,7,0,6,数字基本识别无误,该方法提高了对数字识别率和实时性.  相似文献   

13.
Fu  K.S. 《Computer》1976,9(5):9-10
During the past fifteen years, there has been a considerable growth of interest in problems of pattern recognition. This interest has created an increasing need for theoretical methods and experimental software and hardware for use in the design of pattern recognition systems. A number of books have been published on this subject,1-16and some special pattern recognition machines have been designed and built for practical use. Applications of pattern recognition include character recognition,12target detection, medical diagnosis, analysis of biomedical signals and images, remote sensing, identification of human faces and fingerprints, reliability,17socio-economics,18speech recognition and understanding,19and machine parts recognition.  相似文献   

14.
与其他生物识别技术相比,面像识别技术的可接受性强,人们通常不会介意将面孔作为识别特征。所以,在科技迅速发展的今天,面像识别技术已经在国家安全、军事安全和公安、司法、民政、金融、民航、海关、及民用等领域得到了应用。本文着重从面像识别技术的发展历程、技术框架、特点与功能等多方面进行阐述,便于读者对关乎我们日常安全的自动识别技术有更全面的了解。  相似文献   

15.
针对目前对各类文献资料进行数字化识别时,公式无法直接转化为可编辑文本形式的问题,提出一种基于扫描圈的字符识别方法。首先对公式中的各个字符进行识别,然后再确定这些字符之间的关系,以达到公式识别的目的。扫描圈识别是一种以笔划结构分析为基础的字符识别方法,通过搜索将字符中的所有连笔符号转化为四进制的扫描圈,然后从扫描圈中提取字符的不变特征量。以这些特征量为模板,用模式匹配法对字符进行识别,并采用最短距离比较的方法进行匹配,以获得较为精确的识别结果。  相似文献   

16.
为了解决中国移动资源数据库中哑设备资源难以精确把控的问题,以分光器为切入点、图像识别角度作为突破口,提出了模拟时间延迟积分(Time delay integration,TDI)成像解析分光器端口的算法。首先对运维人员上传的图像进行筛选,保证图像数据的质量;然后利用HSV颜色空间进行端口位置和轮廓的提取;再使用图像轮廓进行杂点过滤和分光器端口分布方向拟合;最后,使用拟TDI成像算法解析端口占用情况,输出分光器端口占用情况,给出分光器的分光比、占用端口号,以提升资源数据平台对分光器资源的数据质量。结果表明该算法运行速度快,端口分析准确,具有较高的应用前景。  相似文献   

17.
18.
介绍一种基于明暗度二值化的车牌模糊识别的算法.这种算法在车牌识别的使用可以有效避免因光照、车辆运动速度及车牌清晰度、光洁度而带来的误识别.介绍了这种算法的构建、实验平台、实验环境、实验处理结果,并对结果进行了讨论.  相似文献   

19.
Gesture recognition is an important research in the field of human-computer interaction. Hand Gestures are strong variable and flexible, so the gesture recognition has always been an important challenge for the researchers. In this paper, we first outlined the development of gestures recognition, and different classification of gestures based on different purposes. Then we respectively introduced common methods used in the process of gesture segmentation, feature extraction and recognition. Finally, the gesture recognition was summarized and the studying prospects were given.  相似文献   

20.
Computer speech recognition has been very successful in limited domains and for isolated word recognition. However, widespread use of large-vocabulary continuous-speech recognizers is limited by the speed of current recognizers, which cannot reach acceptable error rates while running in real time. This paper shows how to harness shared memory multiprocessors, which are becoming increasingly common, to increase the speed significantly, and therefore the accuracy or vocabulary size, of a speech recognizer. To cover the necessary background, we begin with a tutorial on speech recognition. We then describe the parallelization of an existing high-quality speech recognizer, achieving a speedup of a factor of 3, 5, and 6 on 4-, 8-, and 12-processors respectively for the benchmark North American business news (NAB) recognition task.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号