首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

2.
《微型机与应用》2018,(4):60-64
在说话人自适应领域,基于深度神经网络(DNN)的说话人自适应方法已成为主流方法。学习性隐层单元贡献(LHUC)作为一种有效的无监督自适应方法比其他自适应方法有诸多优势,而自适应数据的稀疏问题却导致识别性能受到影响。为了降低数据稀疏所带来的影响,在原有LHUC技术的基础上,加入i-vector及多任务学习这两种方法分别与其相结合。在TEDLIUM语料库上进行实验,实验结果表明,两种融合方法都比原系统表现出了更好的性能,单词错误率(WER)分别相对降低了2.5%和1.9%。  相似文献   

3.
提出了一种将基于深度神经网络(Deep Neural Network,DNN)特征映射的回归分析模型应用到身份认证矢量(identity vector,i-vector)/概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)说话人系统模型中的方法。DNN通过拟合含噪语音和纯净语音i-vector之间的非线性函数关系,得到纯净语音i-vector的近似表征,达到降低噪声对系统性能影响的目的。在TIMIT数据集上的实验验证了该方法的可行性和有效性。  相似文献   

4.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

5.
为了解决语音识别中深层神经网络的说话人与环境自适应问题,本文从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案:首先基于高斯混合模型,建立说话人-环境联合补偿模型,对说话人与环境参数进行估计,将此参数作为长时特征;然后,将估计出来长时特征与短时特征一起送入深层神经网络,进行训练。Aurora4实验表明,这一方案可以有效地对说话人与环境因素进行分解,并提升自适应效果。  相似文献   

6.
语音识别中基于i-vector的说话人归一化研究   总被引:1,自引:0,他引:1  
i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类.然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别.实验表明该方法能够提高语音识别的性能。  相似文献   

7.
该文讨论了不同非母语条件下的语音识别说话人自适应问题,提出了说话人分类和声学模型合并两种不同的自适应方法,并用实验说明了所提方法的有效性和实用性。  相似文献   

8.
为了提高说话人识别的性能,提出一种基于GMM模型自适应说话人识别方法。该方法能自动根据不同的说话人选取不同时长的语音进行识别,从提取语音特征和计算识别概率两方面减少识别时间,在不降低识别率的前提下,比传统识别方法识别速度有大幅度提高。实验仿真表明,在保持正确识别率97%以上的情况下,总识别速度可提高4倍左右。该方法特别适合基于GMM的大集合说话人识别。  相似文献   

9.
本文提出一种基于词格信息的置信度计算方法,估计自适应语音识别结果的可靠性,将不可靠的语音从自适应训练集中去掉,从而减小无监督自适应与有监督自适应间的性能差异,提高无监督自适应的性能。  相似文献   

10.
该文针对维吾尔语说话人之间的发音差异会在一定程度上影响维吾尔语语音识别系统的性能这一情况研究了说话人自适应技术,将目前较为常用的MLLR和MAP以及MLLR和MAP相结合的自适应方法应用于维吾尔语连续语音识别的声学模型训练中,并用这三种方法自适应后的声学模型分别在测试集上进行识别实验。实验结果表明MLLR、MAP以及MAP+MLLR自适应方法使基线识别系统的单词错误识别率分别降低了0.6%、2.34%和2.57%。
  相似文献   

11.
本文对神经网络语音识别中的语音特征提取、网络结构以及学习算法进行了初步的研究,提出了一种用于时特征矢量量化的简化和改进的自组织神经网络模型VQNN。VQNN中引入了动态规划法估计语音样本矢量的码本类中心初值并确定网络的初始权矩阵,可构造出256个量化等级的码本矢量。该方法具有较强的鲁棒性且矢量量化过程简单迅速。对28个地名的语音量化识别实验结果表明了这种量化方法对时识别的有性。  相似文献   

12.
卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。  相似文献   

13.
BP神经网络应用于孤立词语发音识别的研究   总被引:1,自引:1,他引:1  
介绍了BP神经网络的学习规则和用于语音识别的基本原理,建立了一个用于常用孤立词语音识别的BP神经网络,选择声道反射系数为语音识别的特征值,建立了网络的训练样本集,对网络进行了训练;用MATLAB进行了识别仿真,表明能较好地实现孤立词语音识别.  相似文献   

14.
四元数神经网络模型:彩色图象的识别   总被引:4,自引:0,他引:4  
本文首次把四元数引入到神经网络中,提出了四元数16态离散神经网络模型,应用信噪比理论和计算机模拟考察了该模型的存储稳定性和存储容量,该模型的存储容量比与Hopfield模型相同,该四元数神经网络模型可应用于16色的彩色图象识别中。  相似文献   

15.
提出了采用低通过率波、去最小亮度和向量柱状图来提取人脸特征的方法,设计了模糊ART神经网络的结构、学习规则和识别算法,并采用模糊ART神经网络对向量柱状图生成的特征向量进行识别。仿真实验证明,通过调整神经网络的警戒参数值,不同的人具有不同的最大在线识别率,所有人平均的在线最大识别率可以达到89%。  相似文献   

16.
利用汽车的前视图像,提出一种基于深度学习的汽车型号识别方案。首先用Adaboost算法的级联检测器检测出汽车的车头感兴趣区域。然后针对该感兴趣区域,设计相应的卷积神经网络模型进行汽车型号识别。实验分别对比了当前流行的手工设计特征(SIFT、HOG和LBP特征)用SVM及ELM分类器的识别效果。实验结果显示,基于深度学习的方法识别率显著高于传统机器学习方法,表现出卓越的性能。  相似文献   

17.
为了有效利用样本的先验知识,探讨一种神经网络控制模型—AB网络模型。该模型在学习过程中不仅提高了收敛速度,也有效地避免了传统BP网络模型易陷入局部极小值的缺点。最后通过仿真测试,表明该模型具有更好的收敛性和稳定性,在实际系统中的应用也是可行的。  相似文献   

18.
本文提出了一种基于分类高斯混合模型和神经网络融合的说话人识别系统,根据能量阈值将每个话者语音的语音帧分为两类,在分类子空间分别为每个话者建立两个分类话者模型(GMM),并为每个话者建立一个用于对这两类模型进行数据融合的神经网络,话者识别的结果是经对各个话者神经网络的输出进行判决后做出的.在100个男性话者的与文本无关的说话人识别实验中,基于分类话者模型的策略在识别性能和噪声鲁棒性上均优于传统的GMM话者识别系统,而采用神经网络进行后端融合的策略又优于直接融合的策略,从而可以用较低的话者模型混合度和较短的测试语音获得较好的识别性能及噪声鲁棒性.  相似文献   

19.
引言 无论采用何种学习算法,神经网络一旦投入使用其性能主要体现在泛化能力上,泛化能力是指训练过的神经网络对测试样本或工作样本作出正确反应的能力,或推广应用能力.没有泛化能力的网络是没有实用价值的,如何将其有效地提高已成为神经网络领域最受关注的问题之一为此,国内外学者开展了大量的研究工作,并提出了诸多方法或措施,  相似文献   

20.
提出了一种利用神经网络进行语音信号消噪处理的新方法。在无噪和含噪条件下,提取语音信号的包络谱,用于BP神经网络的训练和识别,再叠加上原始语音信号的特征,最终达到语音信号消噪和提高可懂度的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号