首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
基于矢量量化方法的说话人识别技术   总被引:1,自引:0,他引:1  
说话人识别是一项通过语音来识别说话人身份的技术,它在保安、司法、军事、财经和信息服务等领域都具有广泛的应用前景。该文采用线性预测倒谱系数和美尔倒谱系数特征相结合,基于矢量量化聚类方法建立了一个与文本无关的、连续语音发音的说话人识别系统。只要矢量量化聚类法码本大小选择合适,该说话人识别系统就可以获得较好的识别效果。当阈值恰当选取时,该系统具备拒绝识别集外人的功能。  相似文献   

2.
梅尔倒谱系数是一种常用于说话人识别的特征参数,韵律特征是一种描述人的声门特性的参数。为融合MFCC与韵律特征,以图优化说话人确认系统性能,该文采用二次判决的方法来处理这两个特征;参与第二次判决的语音则由通过大量实验制定的判决空间来确定。实验结果表明,采用二次判决时,系统等错误率从仅使用MFCC时的5.56%的下降至4.37%。  相似文献   

3.
基于多特征序贯判决的电话语音声纹鉴别方法研究   总被引:1,自引:0,他引:1  
提出一种基于倒谱特征矢量量化结合音调特征序贯判决的电话语音声纹识别方法.文中分析了长时LPC倒谱特征和音调特征的特性;根据LPE倒谱各维分量对说话人识别贡献不同,改进了失真测度;用矢量量化方法建立每个说话人语音模型,构成一种分类准确、存储数据少、响应速度快的不依赖文本的声纹鉴别系统;构造一种简化的音调测度,将声道和声源特征结合,采用序贯判决策略,提高了系统的顽健性.实验表明,在60位说话人集合中,用大约10秒的话音做识别,正确率达95%以上.  相似文献   

4.
基于多特征序贯判决的电话语音声纹鉴别方法研究   总被引:2,自引:2,他引:2  
提出一种基于倒谱特征矢量量化结合音调特征序贯判决的电话语音声纹识别方法 .文中分析了长时LPC倒谱特征和音调特征的特性 ;根据LPC倒谱各维分量对说话人识别贡献不同 ,改进了失真测度 ;用矢量量化方法建立每个说话人语音模型 ,构成一种分类准确、存储数据少、响应速度快的不依赖文本的声纹鉴别系统 ;构造一种简化的音调测度 ,将声道和声源特征结合 ,采用序贯判决策略 ,提高了系统的顽健性 .实验表明 ,在 60位说话人集合中 ,用大约 10秒的话音做识别 ,正确率达 95%以上  相似文献   

5.
针对说话人确认中的复杂信道环境干扰问题,提出一种基于深度神经网络的信道自适应方法。该方法首先在不同信道类型下训练得到音素信息相关的深度神经网络模型(Deep Neural Networks, DNNs),将说话人语音的声学特征参数在这些DNNs上进行自适应,得到各信道类型下的深瓶颈特征(Deep Bottleneck Feature, DBF)。然后将这些参数进行拼接并通过PCA降维,最后采用目前最有效的基于身份认证矢量(identity vector,i-vector)的建模技术对降维后的DBF进行建模,得到目标说话人模型和测试语音段的i-vector矢量用于最终说话人确认打分判决。在NIST SRE2010核心评测数据库上的实验结果表明,利用提出的方法能有效消除信道干扰对说话人确认的影响,在很大程度上提升了基于i-vector的说话人确认基线系统的性能。  相似文献   

6.
提出了一种基于改进的语音融合特征和GMM模型相结合的跨语种说话人确认方法.首先,采用Teager能量算子提取语音中的浊音段,消除与说话人声道特征无关的静音段和清音段.其次,提取基音周期参数,并与16维的MFCC参数融合形成本文的语音融合特征.最后,将本文方法与文献[9]的方法分别进行了单语种和跨语种的说话人确认对比实验,实验结果表明本文方法识别准确率和平均判别时间均优于文献[9]的方法,证明本文提出的方法有效,可用于跨语种的说话人确认应用领域.  相似文献   

7.
基于MATLAB GUI的语音信号特征提取系统设计   总被引:1,自引:0,他引:1  
语音信号的典型时频特性和核心处理算法是语音识别、合成和说话人识别等系统中的关键问题.结合线性预测分析技术(LPC)和美尔倒谱参数(MFCC)的算法原理,基于MATLAB GUI技术,设计完成了语音信号典型特征提取系统的界面平台,可实现语音信号的装载、播放和波形显示,LPC和MFCC的计算结果显示和数据存储等功能.界面的人机交互性好,操作简单方便,可提高对算法或数据处理效果的直观认识,对语音信号分析和处理等各个研究领域具有重要的现实意义.  相似文献   

8.
介绍了说话人计算机识别系统的基本原理和研究现状,通过对多种可能方案的比较和选择,设计出了一个说话人识别系统,该系统用汉语的6个单韵母作为录入语音,使用了包括短时平均幅度、短时平均过零率、倒频域分析技术和线性预测分析技术等来完成语音的端点检测和语音个性化特征参数的提取,在Windows环境下用MATLAB完成了系统的开发,使系统短小精悍,并取得了较好的实测效果。  相似文献   

9.
两种倒谱特征提取技术在水声目标识别中的应用   总被引:5,自引:0,他引:5  
按照声纳员的感受,被动声纳目标被看作为一个发声体,目标噪声信号表示为激励噪声源与发声体冲激响应的卷积,在这一模型下,使用倒谱分析水声目标噪声的时域特征.提出利用线性预测倒谱和考虑人耳听觉特点的美尔倒谱分析发声体的冲激响应在倒谱域中的表示,据此对水声噪声信号提取这两种倒谱的特征,进行分类识别.设计了神经网络分类器,利用实测数据对三类目标进行分类.分析比较两种方法的分类结果,验证了基于倒谱的水声目标特征提取方法的可行性.  相似文献   

10.
人的声音虽然具有个性特征,但随着电子信息技术的迅猛发展,人的语音也可以被模仿.当模仿者模仿说话人声音相似度极高时,当前说话人身份确认系统就有可能会被非法欺骗.研究了一种双模态信息融合的说话人识别方法,能把声纹信息和人脸信息融合在一起,通过动态贝叶斯网络(DBN)方法来刻画两类特征之间的相关性,并根据DBN模型作出最后的说话人识别结果.实验表明,基于双模态信息融合的说话人识别方法比传统单独的声纹识别和人脸识别有较高的正确识别率.  相似文献   

11.
湖南省内生矿产资源丰富,内生成矿事件主要有加里东期(以志留纪为主)、印支晚期(晚三叠世)、燕山中晚期(晚侏罗世—早白垩世)等3期。以区域矿产资料为基础,结合大地构造、成岩成矿年龄、矿床成因机制等研究成果,对上述3期内生成矿事件的构造格局控矿特征和动力机制进行探讨。①受加里东运动自东南向西北扩展以及深部岩石圈结构差异控制,加里东期湖南省自东南往西北分为成矿特征有别的3个构造带。湘中—湘东南构造岩浆带(Ⅰ)发生后碰撞花岗质岩浆活动,于局部产生与岩浆活动相关的W、萤石等成矿作用; 雪峰构造带(Ⅱ)东部的雪峰冲断带(Ⅱ1)形成了以构造活化成因为主的金矿和锑金矿; 雪峰构造带(Ⅱ)西部的武陵低缓褶皱带(Ⅱ2)及湘西北构造抬升带(Ⅲ)内形成了与寒武纪同沉积断裂活动、加里东运动后的伸展活动以及相应的热液活动有关的汞铅锌矿。②印支晚期受深部岩石圈结构差异控制,湖南省自东南至西北分为3个构造带:湘中—湘东南构造岩浆带(Ⅰ)因后碰撞减压熔融而发生大规模花岗质岩浆活动,从而于其东南部形成钨锡铅锌多金属矿床,西北部形成锑金钨多金属矿床; 雪峰构造带(Ⅱ)可能无内生热液成矿作用; 湘西北褶皱带(Ⅲ)发育小型脉型铅锌矿。③燕山中晚期,湖南省自东南往西北分为3个构造带:湘中—湘东构造岩浆带(Ⅰ)受岩石圈拆沉、软流圈上隆、陆内碰撞后期增温减压、俯冲板块崩塌等深部构造作用控制而发生大规模花岗质岩浆活动,形成了大量的有色金属矿床和金矿床; 雪峰西部构造带(Ⅱ)成矿作用弱,局部存在Au、Hg成矿作用; 湘西北褶皱带(Ⅲ)发育少量低温热液充填型萤石矿和砷矿。  相似文献   

12.
提出基于弱监督学习的属性抽取方法, 利用知识库中已有结构化的属性信息自动获取训练语料, 有效解决了训练语料不足问题. 针对训练语料存在的噪声问题, 提出基于关键词过滤的训练语料优化方法. 提出n元模式特征提取方法, 该特征能够缓解传统n-gram特征稀疏性问题. 实验数据源来自互动百科, 从互动百科信息盒中抽取结构化属性信息构建知识库, 从百科条目文本中自动获取训练数据和测试数据. 实验结果表明, 关键词过滤能有效提高训练语料的质量, 与传统n-gram特征相比, n元模式特征能够提高属性抽取的性能.  相似文献   

13.
为了更准确地度量特征间的关系,提出了一种基于互信息自适应估计的目标函数表示方法。将具有自适应特性的度量方法引入到目标函数中,该目标函数以最大化类内相似度、最小化类间相似度为目标,并能根据深层特征的真实分布情况对相似度进行动态的调整,从而使深度神经网络朝着区分性更强的方向进行优化。此自适应度量方式还被用于特征筛选,其能够根据特征的特点进行有针对性的参数更新,使得选取的特征具有典型性,提升目标函数对于深度神经网络优化方向的指导能力。实验结果表明,相比于其他深度神经网络方法,该方法的相对等错误率最多降低了28%,显著提升了说话人确认系统的性能。  相似文献   

14.
提出一种基于稀疏神经网络的说话人分割方法,利用稀疏的单隐层神经网络提取语音的超矢量特征中说话人因子特征,然后通过K均值聚类得到每帧语音的标号来分割不同说话人,在稀疏网络的训练过程中引入了dropout技术以克服过拟合问题.在TIMIT语音数据库构成的多说话人语音数据上的实验结果表明:通过增加稀疏网络中隐层节点的个数可以提高说话人分割的效果,与贝叶斯信息准则(Bayesian information criterion,BIC)方法和稀疏自编码网络方法相比,所提基于稀疏神经网络的说话人分割方法的性能有明显提高.  相似文献   

15.
根据语音学的研究,提出中性时发音相似的说话人,在情感状态下的发音人相似的假设--邻居相似现象,并通过定量和定性的分析验证了该假设,即在音素内容相同的情况下,同一说话人的中性模型和情感模型对应高斯分量的“邻居”基本类似.为了解决说话人情感变化时语音短时特征的分布与中性语音模型存在差异的问题,提出说话人情感模型合成的方法--将开发库中学习到的中性 情感变化规律移植到评测库中,根据说话人的中性模型合成出情感模型.从邻居相似现象的特性出发,根据KL距离选取该说话人中性下若干相似的邻居,根据基于邻居的方法和基于邻居变换的方法,合成出该说话人的情感模型.MASC库上的实验结果表明,该方法的识别准确率比传统的GMM-UBM算法提高了2.81%,与情感属性映射(EAP)方法相比识别率提高了1.3%.  相似文献   

16.
建立一种新的混合模型-SVM-GMM模型,用以提高说话人辨认的识别率。阐述高斯混合模型(GMM)和支持向量机(SVM)建立的基本原理,分别指出高斯混合模型和支持向量机在实际应用中的不足之处,并针对两种模型的特点,提出将GMM模型的输出机制引入到SVM模型中,以便于调整支持向量(SVM)模型的概率输出,并建立SVM-GMM混合模型。通过实验对比,验证使用SVM-GMM模型能有效地提高系统识别率。  相似文献   

17.
基于核映射的无相关鉴别矢量集算法   总被引:1,自引:1,他引:0  
针对人脸识别这一非线性分类问题,提出了一种基于核的无相关鉴别矢量集算法。应用了支持向量机中核函数的思想,通过核映射将原空间的非线性分类问题转化为特征空间的线性分类问题,然后在特征空间进行无相关鉴别矢量集的求取。其优势在于:利用核函数不但可以将非线性问题转化为线性问题,而且可以提取样本图像的高阶统计特征。在ORL人脸库中的测试结果表明,与传统的全局正交鉴别矢量集算法及传统的无相关鉴别矢量集算法相比,基于核映射的无相关鉴别矢量集算法有更高的识别率,最高识别率可达到99%。  相似文献   

18.
针对传统降噪算法的缺点,提出了将局部投影用于故障声信号的降噪。该算法具有较高的计算效率及广泛的应用前景,不仅可用于线性系统,而且还可用于非线性系统。而独立分量分析可用于分解相互独立的信号,它解决了多传感器信号的信息融合与特征提取问题。综合局部投影算法及独立分量分析算法两者的优点,提出了一种轴承弱故障特征识别算法。试验表明,该方法能有效地分离背景信号及特征信号。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号