首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
语音信息处理技术在深度学习的推动下发展迅速,其中语音合成和转换技术相结合能实现实时高保真的指定对象、内容的语音输出,在人机交互、泛娱乐等领域具有广泛的应用前景.文中旨在对基于深度学习的语音合成与转换技术进行综述.首先,简要回顾了语音合成和转换技术的发展历程;接着,列举了在语音合成、转换领域的常见公开数据集以便研究者开展相关探索;然后,讨论了从文本到语音模型,包括在风格、韵律、速度等方面进行改进的经典和前沿的模型、算法,并分别对比评述了其效果与发展潜力;进一步针对语音转换进行综述,归纳总结了转换方法与优化思路;最后,总结了语音合成与转换的应用与挑战,并根据其在模型、应用和规范方面所面临的问题,展望了未来在模型压缩、少样本学习和伪造检测方面的发展方向.  相似文献   

2.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

3.
随着近几年语音识别研究的逐渐升温,把握好语音识别领域的正确研究方向显得尤为重要。本文介绍了语音识别技术的原理及系统构成,对2010年以来中国知网(CNKI)收录的中文核心期刊中主题为语音识别的论文进行统计分析,得出国内语音识别领域的研究现状和趋势。通过探讨其中存在的问题,得出大数据背景下的大词汇连续语音识别系统的设计及实现、方言语音识别研究、语音识别系统在现实生活中的应用以及深度学习、深层神经网络的应用将是未来语音识别领域研究的主要方向。  相似文献   

4.
基于深度学习的语音识别技术现状与展望   总被引:1,自引:0,他引:1  
首先对深度学习的发展历史以及概念进行简要的介绍。然后回顾最近几年基于深度学习的语音识别的研究进展。这一部分内容主要分成以下5点进行介绍:声学模型训练准则,基于深度学习的声学模型结构,基于深度学习的声学模型训练效率优化,基于深度学习的声学模型说话人自适应和基于深度学习的端到端语音识别。最后就基于深度学习的语音识别未来可能的研究方向进行展望。  相似文献   

5.
为了实现基于人机交互增强算法的便携语言翻译机系统,提出了一种基于傅里叶门控卷积神经网络的语音增强模型与一种基于FSMN+Transformer语音识别模型用于便携语言翻译机。首先,对便携语言翻译机系统进行了整体设计;然后,对系统的关键部分即语音增强模型和语音识别模型分别进行了设计,其中,语音增强模型选择傅里叶门控卷积神经网络优化算法来构建;语音识别模型中,选择矢量型FSMN作为声学模型的基础结构,并引入门控单元和残差网络对其进行优化,同时选择添加交互算法的Transformer算法构建语言模型,共同构成基于FSMN+Transformer的语音识别模型;最后,分别对语音增强模型、语音识别模型以及便携语言翻译机系统进行实验验证。结果表明:基于傅里叶门控卷积神经网络的语音增强模型更具优越性,FSMN+Transformer的语音识别模型的正确率最高,基于提出的语音增强与语音识别模型的便携语言翻译机系统对原始语音的翻译准确率都达到了99%以上。  相似文献   

6.
在语音识别和语音合成的技术领域内,对说话人情绪情感的识别以及在语音合成中再现某些情绪情感都非常重要。对语音的感知其实是人们利用各种感觉器官同时接受各种形式信息的结果,如何在人机交互中有效地利用各种形式的语音信息以达到最佳的信息传递效果,是今后语音信息处理研究的发展方向。  相似文献   

7.
语音分割是语音识别和语音合成中必不可少的基础性工作,其质量对后续系统的影响巨大。使用手工分割和标注虽然精度高,但费时费力,同时需要熟练的领域专家来完成,自动语音分割因此成为语音处理的研究热点。首先针对自动语音分割目前的研究进展,介绍了语音分割的不同分类方法;然后分别介绍了基于对齐的方法和基于边界检测的方法,并详细介绍了可以应用在上述两种框架下的神经网络语音分割方法;接着介绍了基于生物激励信号以及博弈论等方法的新型语音分割技术,并给出了领域内广泛使用的性能评估度量,并对这些评估指标进行比较和分析;最后总结并提出语音分割研究未来发展的重要方向。  相似文献   

8.
针对传统的英语翻译系统存在无法准确识别说话者语音和语气的问题。设计一个基于语音识别和语气语音合成的英语翻译系统,该系统终端主要包括语音识别、语言翻译、语气识别、语气转换和语气语音合成模块。基于CVAE语气语音合成模型对语音识别和语言翻译的英语语句进行语气语音合成,以进行便携式英语翻译终端设计与实现。实验表明,基于CVAE的语气语音合成模型合成语气语音的基频曲线与原始语音间的误差仅为0.02,两者基频曲线十分接近。且在主观评价方面,本模型的语音合成自然度MOS评分为3.84分,方差仅为0.004;情感语气一致性平均打分为3.72,方差为0.002。综合分析可知,本模型可取得较好的语音生成效果,生成语音具备多样性和准确性。系统应用发现,本模型在系统中可提升英语翻译系统终端的语音识别和语气语音合成效果,系统性能优越。  相似文献   

9.
深度学习在语音识别中的研究进展综述   总被引:1,自引:0,他引:1  
在如今的大数据时代里,对于处理大量未经标注的原始语音数据的传统机器学习算法,很多都已不再适用。与此同时,深度学习模型凭借着其对海量数据的强大建模能力,能够直接对未标注数据进行处理,成为当前语音识别领域的一个研究热点。首先主要分析和总结了当前几种具有代表性的深度学习模型;其次是其在语音识别中对于语音特征提取及声学建模中的应用;最后总结了当前所面临的问题和发展方向。  相似文献   

10.
为了解决语言障碍者与健康人之间的交流障碍问题,提出了一种基于神经网络的手语到情感语音转换方法。首先,建立了手势语料库、人脸表情语料库和情感语音语料库;然后利用深度卷积神经网络实现手势识别和人脸表情识别,并以普通话声韵母为合成单元,训练基于说话人自适应的深度神经网络情感语音声学模型和基于说话人自适应的混合长短时记忆网络情感语音声学模型;最后将手势语义的上下文相关标注和人脸表情对应的情感标签输入情感语音合成模型,合成出对应的情感语音。实验结果表明,该方法手势识别率和人脸表情识别率分别达到了95.86%和92.42%,合成的情感语音EMOS得分为4.15,合成的情感语音具有较高的情感表达程度,可用于语言障碍者与健康人之间正常交流。  相似文献   

11.
近年来,现代信息技术进入高速发展的阶段,新的研究成果出现的同时也带来了新的难题和挑战,其中,对人工智能的研究应用到了人们生活和生产的各个方面,给社会生活带来了巨大的改变。在人工智能识别中的语音识别研究一直是重点研究项目,虽然基于人工神经网络引入声学理论的研究,让语音识别智能化的效率和准确率大大提高,但是随着对语音识别需求的增多,仍然出现了一些不足。因此需要基于大数据和深度学习,对语音识别进行改善和深入研究,本文通过探讨语言智能识别的现状,用基于大数据和深度学习的方法,改善语音识别中的语音提取,声音模拟和识别判断等,有效提高语音识别技术的发展。  相似文献   

12.
人工智能的不断发展,使得人与机器的交互变得至关重要.语音是人与智能通讯设备之间通信的重要手段,在近几年飞速发展,说话人识别、情感识别、语音识别得到广泛地普及与应用.特别的,随着深度学习的兴起,基于深度学习的语音技术使机器理解语音内容、识别说话人方面达到近似人的水平,无论是效率还是准确度都得到了前所未有的提升.例如手机语...  相似文献   

13.
基于深度学习的声学模型研究   总被引:1,自引:0,他引:1  
近年来,深度学习凭借其优越的性能广泛应用于图像处理、自然语言处理、语音识别等领域,它对性能的提升远超于以往的传统方法。论文采取循环神经网络(Recurrent Neural Networks,RNN)中的长短期记忆模型(Long Short Time Memory,LSTM)实现了语音识别中的声学模型构建,并增加反向时序信息对训练的影响,构成了双向长短期记忆模型(Bi-directional Long Short Time Memory,BLSTM)。语音信号是一种复杂的时变信号,而BLSTM能够在处理时间序列数据的同时,选择性地记住有效信息,丢弃无用信息,实验表明该方法的识别率较传统的高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)有显著的提高。  相似文献   

14.
In recent years, deep learning based supervised speech enhancement methods have gained a considerable amount of research attention over the statistical signal processing based methods. In this study, we have considered the time–frequency masking based deep learning framework for speech enhancement and investigated how the performance of these methods can be improved further. We have mainly established that significant performance improvement can be achieved if the deep neural network (DNN) is pre-trained by using Fuzzy Restricted Boltzmann Machines (FRBM) rather than using regular Restricted Boltzmann Machines (RBM). This is mainly because of the fact that the performance of FRBM is more robust and effective when the training data is noisy. In order to train an FRBM, we have adopted a defuzzification method based on the crisp probabilistic mean value of fuzzy numbers. The detailed theory of training strategy of an FRBM with different fuzzy membership functions such as Symmetric Triangular Fuzzy Numbers (STFN) and Asymmetric Triangular Fuzzy Numbers (ATFN) is presented. Furthermore, we have evaluated the performance of the proposed training strategies on different DNN based Speech Enhancement Systems (SES) which are developed based on different training targets such as Complex Ideal Ratio Mask (cIRM), Ideal Ratio Mask (IRM) and Phase-Sensitive Mask (PSM). Experimental results on various noise scenarios have shown that the DNN-based speech enhancement system trained by the proposed approach ensures a consistent improvement in various objective measure scores of perceived speech quality and intelligibility while compared to the conventional DNN-based speech enhancement methods which use regular RBM for unsupervised pre-training.  相似文献   

15.
语音辨识技术是人机交互的重要方式。随着深度学习的不断发展,基于深度学习的自动语音辨识系统也取得了重要进展。然而,经过精心设计的音频对抗样本可以使得基于神经网络的自动语音辨识系统产生错误,给基于语音辨识系统的应用带来安全风险。为了提升基于神经网络的自动语音辨识系统的安全性,需要对音频对抗样本的攻击和防御进行研究。基于此,分析总结对抗样本生成和防御技术的研究现状,介绍自动语音辨识系统对抗样本攻击和防御技术面临的挑战和解决思路。  相似文献   

16.
在许多语音信号处理的实际应用中,都要求系统能够低延迟地实时处理多个任务,并且对噪声要有很强的鲁棒性。针对上述问题,提出了一种语音增强和语音活动检测(Voice Activity Detection,VAD)的多任务深度学习模型。该模型通过引入长短时记忆(Long Short-Term Memory,LSTM)网络,构建了一个适合于实时在线处理的因果系统。基于语音增强和VAD的强相关性,该模型以硬参数共享的方式连接了两个任务的输出层,不仅减少了计算量,还通过多任务学习提高了任务的泛化能力。实验结果表明,相较串行处理两个任务的基线模型,多任务模型在语音增强结果非常相近、VAD结果更优的情况下,其速度快了44.2%,这对于深度学习模型的实际应用和部署将具有重要的意义。  相似文献   

17.
深度学习可以有效地解决带噪语音信号与干净语音信号之间复杂的映射问题,改善单通道语音增强的质量,但是增强语音的质量依然不理想。Transformer在语音信号处理领域中已得到了广泛应用,由于集成了多头注意力机制,可以更好地关注语音的长时相关性,该模型可以进一步改善语音增强效果。基于此,回顾了基于深度学习的语音增强模型,归纳了Transformer模型及其内部结构,从不同实现结构出发对基于Transformer的语音增强模型分类,详细分析了几种实例模型。并在常用数据集上对比了Transformer单通道语音增强的性能,分析了它们的优缺点。对相关研究工作的不足进行了总结,并对未来发展进行展望。  相似文献   

18.
语音是人机交互的重要载体,语音中既包含语义信息,还包含性别、年龄、情感等附属信息.深度学习的发展使得各类语音处理任务的性能得到了显著提升,智能语音处理的产品已应用于移动终端、车载设备以及智能家居等场景.语音信息被准确地识别是人与设备实现可信交互的重要基础,语音传递过程中的安全问题也受到了广泛关注.对抗样本攻击是最近几年...  相似文献   

19.
众所周知中文普通话被众多的地区口音强烈地影响着,然而带不同口音的普通话语音数据却十分缺乏。因此,普通话语音识别的一个重要目标是恰当地模拟口音带来的声学变化。文章给出了隐式和显式地使用口音信息的一系列基于深度神经网络的声学模型技术的研究。与此同时,包括混合条件训练,多口音决策树状态绑定,深度神经网络级联和多级自适应网络级联隐马尔可夫模型建模等的多口音建模方法在本文中被组合和比较。一个能显式地利用口音信息的改进多级自适应网络级联隐马尔可夫模型系统被提出,并应用于一个由四个地区口音组成的、数据缺乏的带口音普通话语音识别任务中。在经过序列区分性训练和自适应后,通过绝对上 0.8% 到 1.5%(相对上 6% 到 9%)的字错误率下降,该系统显著地优于基线的口音独立深度神经网络级联系统。  相似文献   

20.
分形理论是描述语音信号的一个非常有效的工具,并已取得了一系列应用成果。本文叙述了分形的基本概念与基本特性。阐述了分形理论在语音分割、端点检测、语音合成、语音增强、信息隐藏、语音识别和语音预测等语音信号处理领域的应用和研究成果。最后对分形理论在语音信号处理中的应用与发展进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号