首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

2.
资源稀缺蒙语语音识别研究   总被引:1,自引:1,他引:0  
张爱英  倪崇嘉 《计算机科学》2017,44(10):318-322
随着语音识别技术的发展,资源稀缺语言的语音识别系统的研究吸引了更广泛的关注。以蒙语为目标识别语言,研究了在资源稀缺的情况下(如仅有10小时的带标注的语音)如何利用其他多语言信息提高识别系统的性能。借助基于多语言深度神经网络的跨语言迁移学习和基于多语言深度Bottleneck神经网络的抽取特征可以获得更具有区分度的声学模型。通过搜索引擎以及网络爬虫的定向抓取获得大量的网页数据,有助于获得文本数据,以增强语言模型的性能。融合多个不同识别结果以进一步提高识别精度。与基线系统相比,多种系统融合的识别绝对错误率减少12%。  相似文献   

3.
随着多媒体信息和通信技术的快速发展,网络上的多语言语音数据日益增多.语音识别作为语音分析与处理的核心技术,如何快速地把中文和英文等少数多资源主要语言处理能力推广到更多的低资源语言,是当前识别技术迫切需要突破的瓶颈.文中试图总结声学模型建模领域的最新进展,探讨传统语音识别技术从单语言向多语言跨越过程中可能面临的困难.并在...  相似文献   

4.
秦楚雄  张连海 《计算机应用》2016,36(9):2609-2615
针对卷积神经网络(CNN)声学建模参数在低资源训练数据条件下的语音识别任务中存在训练不充分的问题,提出一种利用多流特征提升低资源卷积神经网络声学模型性能的方法。首先,为了在低资源声学建模过程中充分利用有限训练数据中更多数量的声学特征,先对训练数据提取几类不同的特征;其次,对每一类类特征分别构建卷积子网络,形成一个并行结构,使得多特征数据在概率分布上得以规整;然后通过在并行卷积子网络之上加入全连接层进行融合,从而得到一种新的卷积神经网络声学模型;最后,基于该声学模型搭建低资源语音识别系统。实验结果表明,并行卷积层子网络可以将不同特征空间规整得更为相似,且该方法相对传统多特征拼接方法和单特征CNN建模方法分别提升了3.27%和2.08%的识别率;当引入多语言训练时,该方法依然适用,且识别率分别相对提升了5.73%和4.57%。  相似文献   

5.
针对多噪声环境下的语音识别问题,提出了将环境噪声作为语音识别上下文考虑的层级语音识别模型。该模型由含噪语音分类模型和特定噪声环境下的声学模型两层组成,通过含噪语音分类模型降低训练数据与测试数据的差异,消除了特征空间研究对噪声稳定性的限制,并且克服了传统多类型训练在某些噪声环境下识别准确率低的弊端,又通过深度神经网络(DNN)进行声学模型建模,进一步增强声学模型分辨噪声的能力,从而提高模型空间语音识别的噪声鲁棒性。实验中将所提模型与多类型训练得到的基准模型进行对比,结果显示所提层级语音识别模型较该基准模型的词错率(WER)相对降低了20.3%,表明该层级语音识别模型有利于增强语音识别的噪声鲁棒性。  相似文献   

6.
维吾尔语连续语音识别技术研究   总被引:1,自引:0,他引:1  
维吾尔语连续语音识别技术研究主要阐述维吾尔语连续语音的识别技术.主要包括声学模型和语言模趋。在声学模型中,主要介绍基于隐马尔可夫模型(Hidden Markov Model,HMM)的维吾尔语筵续语音识别声学建模。在语言模型中,主要对比基于文法和基于统计这两种方法的优劣。  相似文献   

7.
我国语音识别技术已达国际水平,但是针对低资源语音识别的研究成果较少。文章以粤语方言为例,建立老年方言语料库,并基于神经网络方法构建高斯混合模型(Gaussian Mixture Model,DNN)-隐马尔可夫模型(Hidden Markov Model,HMM)处理语料库声学特征,使用N-gram语言模型解码特征状态。经实验证明,设计方法识别准确率较高,在以语音识别为核心的智能居家养老系统中具有一定的应用价值。  相似文献   

8.
针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的问题,开展了使用深度神经网络模型进行蒙古语声学模型建模的研究。以深度神经网络为基础,将分类与语音特征内在结构的学习紧密结合进行蒙古语声学特征的提取,构建了DNN-HMM蒙古语声学模型,结合无监督预训练与监督训练调优过程设计了训练算法,在DNN-HMM蒙古语声学模型训练中加入dropout技术避免过拟合现象。最后,在小规模语料库和Kaldi实验平台下,对GMM-HMM和DNN-HMM蒙古语声学模型进行了对比实验。实验结果表明,DNN-HMM蒙古语声学模型的词识别错误率降低了7.5%,句识别错误率降低了13.63%;同时,训练时加入dropout技术可以有效避免DNN-HMM蒙古语声学模型的过拟合现象。  相似文献   

9.
为实现中英文民航陆空通话语音识别,提出一种基于深度学习的跨语种民航陆空通话语音识别方法.基于共享隐层的卷积深度神经网络(CDNN)建立一个跨语种声学模型;将中文音素和英文音素(CMU)融合用于构建混合语言模型;在此基础上将CMU标准英文音素映射为TIMIT标准英文音素重构语言模型用于识别;为了缩短训练和解码的时间,在提取特征阶段加入低帧率.实验结果表明,卷积深度神经网络声学模型可较好地应用于民航陆空通话领域;音素映射方法能够进一步提高识别性能;加入低帧率后有效缩短了训练时间且使词错误率下降到4.28%.  相似文献   

10.
端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。  相似文献   

11.
张爱英 《计算机科学》2018,45(9):308-313
利用多语言信息可以提高资源稀缺语言识别系统的性能。但是,在利用多语言信息提高资源稀缺目标语言识别系统的性能时,并不是所有语言的语音数据对资源稀缺目标语言语音识别系统的性能提高都有帮助。文中提出利用长短时记忆递归神经网络语言辨识方法 选择 多语言数据以提高资源稀缺目标语言识别系统的性能;选出更加有效的多语言数据用于训练多语言深度神经网络和深度Bottleneck神经网络。通过跨语言迁移学习获得的深度神经网络和通过深度Bottleneck神经网络获得的Bottleneck特征都对 提高 资源稀缺目标语言语音识别系统的性能有很大的帮助。与基线系统相比,在插值的Web语言模型解码条件下,所提系统的错误率分别有10.5%和11.4%的绝对减少。  相似文献   

12.
近年来深度学习尤其是神经网络的发展,对语音识别这类复杂的模式分类问题提供了新的解决思路.为加强对我国方言语种的保护工作、提高方言语种识别的准确率以及丰富语音识别的前处理模块,首先采用目前语音识别领域应用最广泛的LSTM模型搭建单任务方言语种识别模型SLNet作为基线系统.其次,针对中国方言的多样性、复杂性特点,基于多任务学习的参数共享机制,通过多任务神经网络模型发现不同语种间的隐含相关特性,提出基于多语种任务的方言语种识别模型MTLNet.进一步根据中国方言的区域特点,采用基于参数硬共享的多任务学习模式,构建基于辅助任务的多任务学习神经网络ATLNet.经实验验证表明:相比于单任务神经网络方言语种识别,MTLNet和ATLNet将识别准确率可提升至80.2%,弥补了单任务模型的单一性和弱泛化性.  相似文献   

13.
师夏阳  张风远  袁嘉琪  黄敏 《计算机应用》2022,42(11):3379-3385
攻击性言论会对社会安定造成严重不良影响,但目前攻击性言论自动检测主要集中在少数几种高资源语言,对低资源语言缺少足够的攻击性言论标注语料导致检测困难,为此,提出一种跨语言无监督攻击性迁移检测方法。首先,使用多语BERT(mBERT)模型在高资源英语数据集上进行对攻击性特征的学习,得到一个原模型;然后,通过分析英语与丹麦语、阿拉伯语、土耳其语、希腊语的语言相似程度,将原模型迁移到这四种低资源语言上,实现对低资源语言的攻击性言论自动检测。实验结果显示,与BERT、线性回归(LR)、支持向量机(SVM)、多层感知机(MLP)这四种方法相比,所提方法在丹麦语、阿拉伯语、土耳其语、希腊语这四种语言上的攻击性言论检测的准确率和F1值均提高了近2个百分点,接近目前的有监督检测,可见采用跨语言模型迁移学习和迁移检测相结合的方法能够实现对低资源语言的无监督攻击性检测。  相似文献   

14.
本文对神经网络语音识别中的语音特征提取、网络结构以及学习算法进行了初步的研究,提出了一种用于时特征矢量量化的简化和改进的自组织神经网络模型VQNN。VQNN中引入了动态规划法估计语音样本矢量的码本类中心初值并确定网络的初始权矩阵,可构造出256个量化等级的码本矢量。该方法具有较强的鲁棒性且矢量量化过程简单迅速。对28个地名的语音量化识别实验结果表明了这种量化方法对时识别的有性。  相似文献   

15.
针对互联网上日渐丰富的多语言文本和匮乏大规模标注平行语料库的问题,为了从多语言的信息源挖掘语言间的关联性与扩展知识图谱,提出了基于注意力迁移的跨语言关系提取方法。首先针对语言间的实际平行语料情况,分类进行跨语言平行语料映射,并针对缺乏种子词典的低资源语言对,提出神经网络翻译模型获取目标语言数据集并保存多语言间的对应注意力权重关系,然后利用BERT端对端的联合抽取模型抽取训练数据实体关系特征,反向迁移语言间注意力权重关系,最后利用反向迁移的注意力进行增强的关系抽取。实验表明,该模型的关系提取效果相比其他模型在准确率和回归上都有所提升,在缺乏双语词典情况下也表现出较好的性能。  相似文献   

16.
17.
主流神经网络训练的交叉熵准则是对声学数据的每个帧进行分类优化,而连续语音识别是以序列级转录准确性为性能度量。针对这个不同,构建基于序列级转录的端到端语音识别系统。针对低资源语料条件下系统性能不佳的问题,其中模型使用卷积神经网络对输入特征进行处理,选取最佳的网络结构,在时域和频域进行二维卷积,从而改善输入空间中因不同环境和说话人产生的小扰动影响。同时神经网络使用批量归一化技术来减少泛化误差,加速训练。基于大型的语言模型,优化解码过程中的超参数,提高模型建模效果。实验结果表明系统性能提升约24%,优于主流语音识别系统。  相似文献   

18.
针对多数语音识别系统在噪音环境下性能急剧下降的问题,提出了一种新的语音识别特征提取方法。该方法是建立在听觉模型的基础上,通过组合语音信号和其差分信号的上升过零率获得频率信息,通过峰值检测和非线性幅度加权来获取强度信息,二者组合在一起,得到输出语音特征,再分别用BP神经网络和HMM进行训练和识别。仿真实现了不同信噪比下不依赖人的50词的语音识别,给出了识别的结果,证明了组合差分信息的过零与峰值幅度特征具有较强的抗噪声性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号