首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

2.
《计算机工程》2018,(1):199-205
为提高普米语语音识别系统的性能,引入深度学习模型进行普米语语音识别,该模型是一个高容量复杂的网络模型。以Kaldi语音识别工具包为实验平台,分别训练5种不同的声学模型,且这5种模型中包含一个有4隐层的深度神经网络模型。比较不同声学模型得到的语音识别率发现,G-DNN模型比Monophone模型的语音识别率平均提升49.8%。实验结果表明,当增加训练集的普米语语音语料量时,基于深度学习的普米语语音识别率会提升,而基于深度学习的普米语语音识别系统的鲁棒性比其余4个声学模型的普米语语音识别系统的鲁棒性更强。  相似文献   

3.
《微型机与应用》2019,(4):67-70
基于深度学习库Tensorflow和深度可分离卷积神经网络(Depthwise Separable Convolutional Neural Network,DS-CNN),实现一个嵌入式离线语音识别系统。利用Tensorflow和DS-CNN对预识别语音进行训练得到声学模型,移植该声学模型至嵌入式处理器中;对采集编码的语音信号经过分帧、加窗等预处理,采用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficent,MFCC)方法进行特征提取,利用声学模型对提取的特征进行分类判别。测试结果表明,基于深度学习的语音识别可以有效地应用在嵌入式平台上,相比于一些传统算法,在识别率和识别时间上有明显的提高。  相似文献   

4.
通过对语音识别技术的发展梳理,简单介绍了语音识别的历史和应用现状,并将传统语音识别的技术和当前的研究进展进行描述.传统语音识别采用基于统计的方法,采用声谱特征,在GMM-HMM混合结构上进行训练和匹配.当前的语音识别模型主要基于深度学习的方法,采用CNN、RNN都可以有效的进行特征提取从而建立声学模型.进一步的研究采用...  相似文献   

5.
传统的语音文档分类系统通常是基于语音识别系统所转录的文本实现的,识别错误会严重影响到这类系统的性能。尽管将语音和识别文本融合可以一定程度上减轻识别错误的影响,但大多数融合都是在表示向量层面融合,没有充分利用语音声学和语义信息之间的互补性。本文提出融合声学特征和深度特征的神经网络语音文档分类,在神经网络训练中,首先采用训练好的声学模型为每个语音文档提取包含语义信息的深度特征,然后将语音文档的声学特征和深度特征通过门控机制逐帧进行融合,融合后的特征用于语音文档分类。在语音新闻播报语料集上进行实验,本文提出的系统明显优于基于语音和文本融合的语音文档分类系统,最终的分类准确率达到97.27%。  相似文献   

6.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

7.
为了提高方言语音识别效果,提出一种基于深度学习的方言语音识别模型。首先结合CTC和Attention架构的互补特点,构建基于端到端的混合CTC/Attention语音识别模型;其次构建多样化的方言数据库作为训练和测试数据,然后在特征提取基础上,利用混合CTC/Attention语音模型对方言进行识别。结果表明,该模型无论是在识别准确率、错误率,还是在模型收敛性和整体识别结果上,基于混合CTC/Attention语音识别模型的识别效果更好。  相似文献   

8.
为降低声学特征在语音识别系统中的音素识别错误率,提高系统性能,提出一种子空间高斯混合模型和深度神经网络结合提取特征的方法,分析了子空间高斯混合模型的参数规模并在减少计算复杂度后将其与深度神经网络串联进一步提高音素识别率。把经过非线性特征变换的语音数据输入模型,找到深度神经网络结构的最佳配置,建立学习与训练更可靠的网络模型进行特征提取,通过比较音素识别错误率来判断系统性能。实验仿真结果证明,基于该系统提取的特征明显优于传统声学模型。  相似文献   

9.
针对多噪声环境下的语音识别问题,提出了将环境噪声作为语音识别上下文考虑的层级语音识别模型。该模型由含噪语音分类模型和特定噪声环境下的声学模型两层组成,通过含噪语音分类模型降低训练数据与测试数据的差异,消除了特征空间研究对噪声稳定性的限制,并且克服了传统多类型训练在某些噪声环境下识别准确率低的弊端,又通过深度神经网络(DNN)进行声学模型建模,进一步增强声学模型分辨噪声的能力,从而提高模型空间语音识别的噪声鲁棒性。实验中将所提模型与多类型训练得到的基准模型进行对比,结果显示所提层级语音识别模型较该基准模型的词错率(WER)相对降低了20.3%,表明该层级语音识别模型有利于增强语音识别的噪声鲁棒性。  相似文献   

10.
为实现中英文民航陆空通话语音识别,提出一种基于深度学习的跨语种民航陆空通话语音识别方法.基于共享隐层的卷积深度神经网络(CDNN)建立一个跨语种声学模型;将中文音素和英文音素(CMU)融合用于构建混合语言模型;在此基础上将CMU标准英文音素映射为TIMIT标准英文音素重构语言模型用于识别;为了缩短训练和解码的时间,在提取特征阶段加入低帧率.实验结果表明,卷积深度神经网络声学模型可较好地应用于民航陆空通话领域;音素映射方法能够进一步提高识别性能;加入低帧率后有效缩短了训练时间且使词错误率下降到4.28%.  相似文献   

11.
端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。  相似文献   

12.
语音识别是人机交互的重要方式,针对传统语音识别系统对含噪语音识别性能较差、特征选择不恰当的问题,提出一种基于迁移学习的深度自编码器循环神经网络模型。该模型由编码器、解码器以及声学模型组成,其中,声学模型由堆栈双向循环神经网络构成,用于提升识别性能;编码器和解码器均由全连接层构成,用于特征提取。将编码器结构及参数迁移至声学模型进行联合训练,在含噪Google Commands数据集上的实验表明本文模型有效增强了含噪语音的识别性能,并且具有较好的鲁棒性和泛化性。  相似文献   

13.
提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经网络的输入,通过网络模型来学习语音信号的更深层次的声学特征,实现端到端的语音分离.客观评价实验说明,本文提出的分离算法不仅有效地提升了语音分离的性能,也减少了语音分离算法的时间延迟.  相似文献   

14.
针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的问题,开展了使用深度神经网络模型进行蒙古语声学模型建模的研究。以深度神经网络为基础,将分类与语音特征内在结构的学习紧密结合进行蒙古语声学特征的提取,构建了DNN-HMM蒙古语声学模型,结合无监督预训练与监督训练调优过程设计了训练算法,在DNN-HMM蒙古语声学模型训练中加入dropout技术避免过拟合现象。最后,在小规模语料库和Kaldi实验平台下,对GMM-HMM和DNN-HMM蒙古语声学模型进行了对比实验。实验结果表明,DNN-HMM蒙古语声学模型的词识别错误率降低了7.5%,句识别错误率降低了13.63%;同时,训练时加入dropout技术可以有效避免DNN-HMM蒙古语声学模型的过拟合现象。  相似文献   

15.
姚煜  RYAD Chellali 《计算机应用》2018,38(9):2495-2499
针对隐马尔可夫模型(HMM)在语音识别中存在的不合理条件假设,进一步研究循环神经网络的序列建模能力,提出了基于双向长短时记忆神经网络的声学模型构建方法,并将联结时序分类(CTC)训练准则成功地应用于该声学模型训练中,搭建出不依赖于隐马尔可夫模型的端到端中文语音识别系统;同时设计了基于加权有限状态转换器(WFST)的语音解码方法,有效解决了发音词典和语言模型难以融入解码过程的问题。与传统GMM-HMM系统和混合DNN-HMM系统对比,实验结果显示该端到端系统不仅明显降低了识别错误率,而且大幅提高了语音解码速度,表明了该声学模型可以有效地增强模型区分度和优化系统结构。  相似文献   

16.
目前基于注意力机制的序列到序列声学模型成为语音识别领域的研究热点。针对该模型训练耗时长和鲁棒性差等问题,提出一种结合瓶颈特征的注意力声学模型。该模型由基于深度置信网络(Deep Belief Network,DBN)的瓶颈特征提取网络和基于注意力的序列到序列模型两部分组成:DBN能够引入传统声学模型的先验信息来加快模型的收敛速度,同时增强瓶颈特征的鲁棒性和区分性;注意力模型利用语音特征序列的时序信息计算音素序列的后验概率。在基线系统的基础上,通过减少注意力模型中循环神经网络的层数来减少训练的时间,通过改变瓶颈特征提取网络的输入层单元数和瓶颈层单元数来优化识别准确率。在TIMIT数据库上的实验表明,该模型在测试集上的音素错误率降低至了17.80%,训练的平均迭代周期缩短了52%,训练迭代次数由139减少至89。  相似文献   

17.
近年来,现代信息技术进入高速发展的阶段,新的研究成果出现的同时也带来了新的难题和挑战,其中,对人工智能的研究应用到了人们生活和生产的各个方面,给社会生活带来了巨大的改变。在人工智能识别中的语音识别研究一直是重点研究项目,虽然基于人工神经网络引入声学理论的研究,让语音识别智能化的效率和准确率大大提高,但是随着对语音识别需求的增多,仍然出现了一些不足。因此需要基于大数据和深度学习,对语音识别进行改善和深入研究,本文通过探讨语言智能识别的现状,用基于大数据和深度学习的方法,改善语音识别中的语音提取,声音模拟和识别判断等,有效提高语音识别技术的发展。  相似文献   

18.
验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory, LSTM)网络和连接时序分类(Connectionist Temporal Classification, CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库生成数据集,简化验证码识别模型,统一语音识别和文本识别方法,实现端到端模型识别。本文提出的方法在较小训练集情况下有更优秀的性能。  相似文献   

19.
语音是一种重要的信息资源传递与交流方式,人们经常使用语音作为交流信息的媒介,在语音的声学信号中包含大量的说话者信息、语义信息和丰富的情感信息,因此形成了解决语音学任务的3个不同方向,即声纹识别(Speaker Recognition,SR)、语音识别(Auto Speech Recognition,ASR)和情感识别(Speech Emotion Recognition,SER),3个任务均在各自的领域使用不同的技术与特定的方法进行信息提取与模型设计。文中首先综述了3个任务在国内外早期的发展历史路线,将语音任务的发展归纳为4个不同阶段,同时总结了3个语音学任务在特征提取时所采用的公共语音学特征,并针对每类特征的侧重点进行了说明。然后,随着近年来深度学习技术在各个领域中的广泛应用,语音任务也得到了很好的发展,文中针对目前流行的深度学习模型在声学建模中的应用分别进行了分析,按照有监督、无监督的方式总结了针对3种不同语音任务的声学特征提取方式及技术路线,还总结了基于多通道并融合注意力机制的模型,用于语音的特征提取。为了同时完成语音识别、声纹识别和情感识别任务,针对声学信号的个性化特征提出了一个基于多任务的Tandem模型;此外,提出了一个多通道协作网络模型,利用这种设计思路可以提升多任务特征提取的准确度。  相似文献   

20.
针对人体行为识别问题,比较了两种基于智能手机惯性加速度传感器数据的深度特征学习方法。与传统的人工特征提取方法相比,基于深度特征学习方法可以实现端到端训练,网络结构简单直观,避免了繁琐的特征工程,通过深度神经网络模型的学习自动获得特征。本文通过对比深度卷积神经网络、长短期记忆网络两种深度学习方法在公开网站UCI的机器学习知识库的人体行为识别数据集上的识别效果,论证了基于Dropout深度卷积神经网络特征学习方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号