首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对说话人识别技术多基于语音的现状,文章提出了一种新颖的基于唇动的说话人识别技术。通过离散余弦变换,从说话人讲话时的图像序列提取那些既反映说话人嘴部生理特性也反映了说话人唇动的行为特性的视觉特征。基于这些特征,为说话人建立静态-动态混合模型,其中使用半连续隐马尔可夫模型为说话人建立动态模型。在一个小型的视觉语料库上,我们分别对说话人辨认系统和确认系统进行实现。对说话人辨认系统,其文本有关与文本无关模式的正确率分别达到了100%和99.7%;对说话人确认系统,文本有关与文本无关模式的等错误率分别为0.09%与0.33%。  相似文献   

2.
研究了多种低速率信道环境下,语音编码对与文本无关说话人确认的影响。针对训练和测试语音匹配和不匹配的两种情况下,分别提出了两种方法来提高系统的鲁棒性。在前者中,通过分析语音编码对LPCC参数的影响,提出了一种基于编码失真的 LPCC 加权参数。在后者中,采用了基于高斯混合模型(GMM)的语音编码检测器,通过判别测试语音的编码类型,选择不同的说话人确认模型。实验结果表明,这两种方法提高了说话人确认系统在多信道条件下的鲁棒性。  相似文献   

3.
基于GMM统计特性参数和SVM的话者确认   总被引:1,自引:0,他引:1  
针对与文本无关的话者确认中大量训练样本数据的情况,本文提出了一种基于GMM统计特性参数和支持向量机的与文本无关的话者确认系统,以说话人的GMM统计特性参数作为特征参数训练建立目标话者的SVM模型,既有效地提取了话者特征信息,解决了大样本数据下的SVM训练问题,又结合了统计模型鲁棒性好和辨别模型分辨力好的优点,提高了确认系统的确认性能及鲁棒性。对微软麦克风语音数据库和NIST’01手机电话语音数据库的实验表明该方法的有效性。  相似文献   

4.
基于说话人聚类和支持向量的说话人确认研究   总被引:2,自引:0,他引:2  
侯风雷 《计算机应用》2002,22(10):33-35
说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选或选取与目标说话人相近的说话人,采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据,实验表明该方法地与文本无关的说话人确认问题是有效的。  相似文献   

5.
针对传统英语对话系统受环境噪声影响,出现多人混合语音分离现象,造成多人英语语音识别和对话效果降低的问题,提出一种基于深度学习的语音增强和传统阵列信号处理的多人英语语音分离系统。首先,采用基于长短时记忆网络LSTM的多目标语音增强算法捕捉英语语音序列的长时特性;然后建立一个两阶段的单通道多人语音分离框架提取目标说话人语音;最后将提取语音与阵列算法进行融合,并通过空间信息实现目标说话人英语语音精确估计。结果表明,相较于DNN-DM模型和LSTM-IRM模型,提出的LSTM-DM模型的信噪比指标明显更高,此模型的平均PESQ由2.66提升至2.95,增益为0.074%。由此说明,LSTM-DM模型的英语语音去噪和语音增强效果更好。提出的特定说话人前端系统的英语语音对话词错误率为65.3%,对比于Officoal Beamformlt系统和CGMM3Mask Fusion模型下降了14.6%和5.1%。说明此系统可实现多人混合英语语音分离,具备一定的有效性。  相似文献   

6.
基于说话人聚类和支持向量机的说话人确认研究   总被引:3,自引:1,他引:3  
说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选取或选取与目标说话人相近的说话人。采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据。实验表明该方法对与文本无关的说话人确认问题是有效的。  相似文献   

7.
以线性预测系数为特征通过高斯混合模型的迭代算法对训练样本的初始k均值聚类结果进行优化,得到语音组成单位的表示.以语音组成单位的模式匹配为基础,提出一种文本无关说话人确认的方法--均值法,以及一种文本无关说话人辨认方法.实验结果表明,即使在短时语音下本文方法都能取得较好效果.  相似文献   

8.
在文本无关的说话人辨识中,为了提高系统在电话语音条件下的鲁棒性,提出了将说话人确认中常用的评分规整手段用于说话人辨识中,即对测试语音通过不同话者模型的评分分别进行评分规整,为测试语音选取最接近的话者模型作为系统识别输出,有效地提高了系统性能。在NIST’03 1spk数据库上的说话人辨识实验表明了评分规整技术对说话人辨识的有效性。  相似文献   

9.
提出了一种简单有效的与说话人有关的阈值设置方法 ,同时在确认系统中采用高斯混合模型(GMM)作为背景模型来模拟未知的冒认者的语音 ,在冒认文本多样化的情况下获得了比用隐马尔可夫模型(HMM)作背景模型更好的性能 .本文在此基础上实现了一个基于Internet的与文本有关的远程语音身份认证系统 ,在实验测试和应用测试中均获得了满意的确认性能 .  相似文献   

10.
研究了基于美尔倒谱特征参数及高斯混合模型的文本无关的说话人识别系统,为了提高噪声环境下识别系统的识别率,从两个角度研究改善该系统抗噪性能的方法,即利用语音识别将文本无关的系统转化为文本有关的说话人识别方法和通过选择鲁棒性较强的帧进行说话人识别的方法,分析了以上方法对系统识别性能的改善作用,并通过实验验证上述方法确实可以提高系统在噪声环境下的识别率。  相似文献   

11.
针对广播电视新闻节目中的主持人跟踪问题,提出了一种将说话人分割聚类和说话人确认有效结合的算法,并根据该算法设计了一套主持人跟踪系统.该系统首先利用音频活动检测算法去除新闻音频资料中的静音段,然后说话人分割聚类算法将多说话人语音段分成若干单一话者语段,最后通过基于 GMM-UBM 的说话人确认算法辨认每段单一话者语段的话者身份是否为目标主持人.此外,分析了 T-Norm 对系统性能的影响.以中央电视台《新闻联播》为评测数据集,实验结果表明,该算法取得了良好的效果,跟踪系统的查准率(Precision)和查全率(Recall)分别为93.03%和84.34%.  相似文献   

12.
This paper addresses the issue of speaker variability and session variability in text-independent Gaussian mixture model (GMM)-based speaker verification. A speaker model adaptation procedure is proposed which is based on a joint factor analysis approach to speaker verification. It is shown in this paper that this approach facilitates the implementation of a progressive unsupervised adaptation strategy which is able to produce an improved model of speaker identity while minimizing the influence of channel variability. The paper also deals with the interaction between this model adaptation approach and score normalization strategies which act to reduce the variation in likelihood ratio scores. This issue is particularly important in establishing decision thresholds in practical speaker verification systems since the variability of likelihood ratio scores can increase as a result of progressive model adaptation. These adaptation methods have been evaluated under the adaptation paradigm defined under the NIST 2005 Speaker Recognition Evaluation Plan, which is based on conversation sides derived from telephone speech utterances. It was found that when target speaker models were trained from a single conversation, an equal error rate (EER) of 4.5% was obtained under the NIST unsupervised speaker adaptation scenario.  相似文献   

13.
14.
This work explores the use of speech enhancement for enhancing degraded speech which may be useful for text dependent speaker verification system. The degradation may be due to noise or background speech. The text dependent speaker verification is based on the dynamic time warping (DTW) method. Hence there is a necessity of the end point detection. The end point detection can be performed easily if the speech is clean. However the presence of degradation tends to give errors in the estimation of the end points and this error propagates into the overall accuracy of the speaker verification system. Temporal and spectral enhancement is performed on the degraded speech so that ideally the nature of the enhanced speech will be similar to the clean speech. Results show that the temporal and spectral processing methods do contribute to the task by eliminating the degradation and improved accuracy is obtained for the text dependent speaker verification system using DTW.  相似文献   

15.
16.
针对有声出版物语音分割系统,提出了一种阈值自适应加相似度判决的系统分割模型,基于脚本中的先验知识提出了能量阈值自适应分割算法.对于传统的端点检测算法无法排除的干扰,为提高系统的抗干扰能力以增强其适用性,提出了基于语音单元相似性进行分析判决的新方法.测试结果表明,无干扰时,系统分割的正确率100%,每个语音文件包含两个人为干扰信号时,系统分割正确率98.8%,能够满足有声出版物语音自动分割的需要.  相似文献   

17.
基于句子级的唇读语料库及其切分算法   总被引:1,自引:0,他引:1  
论文对适合唇读研究的连续音节双模态语料库及其语料切分算法的设计和研究工作进行了讨论。介绍了基于句子级的双模态语料库HITBi-CAVDatabaseII的设计和建立,形式化地讨论了该库的主要特点及基于语音能量的语料切分算法的可行性。该切分算法在基于能量的语音切分算法基础上,结合了双模态语料库的一些特征,实现了对语料的自动切分。  相似文献   

18.
Nowadays, several computational techniques for speech recognition have been proposed. These techniques suppose an important improvement in real time applications where speaker interacts with speech recognition systems. Although researchers proposed many methods, none of them solve the high false alarm problem when far-field speakers interfere in a human-machine conversation. This paper presents a two-class (speech and non-speech classes) decision-tree based approach for combining new speech pulse features in a VAD (Voice Activity Detector) for rejecting far-field speech in speech recognition systems. This Decision Tree is applied over the speech pulses obtained by a baseline VAD composed of a frame feature extractor, a HMM-based (Hidden Markov Model) segmentation module and a pulse detector. The paper also presents a detailed analysis of a great amount of features for discriminating between close and far-field speech. The detection error obtained with the proposed VAD is the lowest compared to other well-known VADs.  相似文献   

19.
实时卡片字符识别与校验系统的设计与实现   总被引:1,自引:0,他引:1  
论文设计并实现了一种基于多阈值字符分割、多分类器融合分类和相似判断的IC卡字符识别与校验系统。为了减少分割可能带来的错误识别,系统采用了对多阈值下的识别结果取平均的方法来提高识别的稳定性。通过分类结果、分类权向量和给定字符之间的相似性判断最终确定打印的字符是否正确。相似性规则中的阈值由实验确定。硬件上采用了性价比较高的设备,实验结果表明文中的系统能满足实际要求。  相似文献   

20.
张扬  赵晓群  王缔罡 《计算机应用》2016,36(5):1410-1414
研究汉语自然语音音节切分方法具有明显现实意义,比较准确的自然语音切分方法可以代替人工对一些拥有参照文本的语音进行标注。然而至今为止并没有完全准确的汉语语音音节切分方法。依据相同发音环境下汉语语音音节时间长度服从某种高斯分布和相邻语音音节之间存在短时能量波谷两个假设,提出了基于音节时间长度高斯拟合的汉语音节切分方法。对算法进行分析,根据初步切分短时能量波谷分散到各分语音段的特性,提出了简化算法,有效降低了该音节切分方法的时间复杂度。实验结果表明,音节切分准确度(与人工标注切分时间距离平方的均值)达到小数点后3位,在台式机Matlab环境下运算时间均不超过1 s,可以达到应用要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号