首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
语音信息处理技术在深度学习的推动下发展迅速,其中语音合成和转换技术相结合能实现实时高保真的指定对象、内容的语音输出,在人机交互、泛娱乐等领域具有广泛的应用前景。文中旨在对基于深度学习的语音合成与转换技术进行综述。首先,简要回顾了语音合成和转换技术的发展历程;接着,列举了在语音合成、转换领域的常见公开数据集以便研究者开展相关探索;然后,讨论了从文本到语音模型,包括在风格、韵律、速度等方面进行改进的经典和前沿的模型、算法,并分别对比评述了其效果与发展潜力;进一步针对语音转换进行综述,归纳总结了转换方法与优化思路;最后,总结了语音合成与转换的应用与挑战,并根据其在模型、应用和规范方面所面临的问题,展望了未来在模型压缩、少样本学习和伪造检测方面的发展方向。  相似文献   

2.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

3.
随着近几年语音识别研究的逐渐升温,把握好语音识别领域的正确研究方向显得尤为重要。本文介绍了语音识别技术的原理及系统构成,对2010年以来中国知网(CNKI)收录的中文核心期刊中主题为语音识别的论文进行统计分析,得出国内语音识别领域的研究现状和趋势。通过探讨其中存在的问题,得出大数据背景下的大词汇连续语音识别系统的设计及实现、方言语音识别研究、语音识别系统在现实生活中的应用以及深度学习、深层神经网络的应用将是未来语音识别领域研究的主要方向。  相似文献   

4.
基于深度学习的语音识别技术现状与展望   总被引:1,自引:0,他引:1  
首先对深度学习的发展历史以及概念进行简要的介绍。然后回顾最近几年基于深度学习的语音识别的研究进展。这一部分内容主要分成以下5点进行介绍:声学模型训练准则,基于深度学习的声学模型结构,基于深度学习的声学模型训练效率优化,基于深度学习的声学模型说话人自适应和基于深度学习的端到端语音识别。最后就基于深度学习的语音识别未来可能的研究方向进行展望。  相似文献   

5.
为了实现基于人机交互增强算法的便携语言翻译机系统,提出了一种基于傅里叶门控卷积神经网络的语音增强模型与一种基于FSMN+Transformer语音识别模型用于便携语言翻译机。首先,对便携语言翻译机系统进行了整体设计;然后,对系统的关键部分即语音增强模型和语音识别模型分别进行了设计,其中,语音增强模型选择傅里叶门控卷积神经网络优化算法来构建;语音识别模型中,选择矢量型FSMN作为声学模型的基础结构,并引入门控单元和残差网络对其进行优化,同时选择添加交互算法的Transformer算法构建语言模型,共同构成基于FSMN+Transformer的语音识别模型;最后,分别对语音增强模型、语音识别模型以及便携语言翻译机系统进行实验验证。结果表明:基于傅里叶门控卷积神经网络的语音增强模型更具优越性,FSMN+Transformer的语音识别模型的正确率最高,基于提出的语音增强与语音识别模型的便携语言翻译机系统对原始语音的翻译准确率都达到了99%以上。  相似文献   

6.
在语音识别和语音合成的技术领域内,对说话人情绪情感的识别以及在语音合成中再现某些情绪情感都非常重要。对语音的感知其实是人们利用各种感觉器官同时接受各种形式信息的结果,如何在人机交互中有效地利用各种形式的语音信息以达到最佳的信息传递效果,是今后语音信息处理研究的发展方向。  相似文献   

7.
语音增强是提高语音质量与可懂度的关键技术,在语音识别、语音通话、电话会议和听力辅助等领域具有广泛应用前景与重要研究价值.从模型方法、数据集、特征、评估指标等方面,对单声道语音增强研究工作的发展现状进行了全面调研和深入分析.1)对传统的与基于机器学习的单声道语音降噪以及语音去混响的已有研究工作进行了梳理分类,简要介绍了典型方法的研究思路,并对不同方法的实验结果进行了综合比较;2)对在实验与结果评估过程中所涉及到的常用数据集、常见特征、学习目标与评估指标等进行了整理与介绍;3)对目前单声道语音增强仍然面临的主要问题与挑战进行了总结.  相似文献   

8.
语音分割是语音识别和语音合成中必不可少的基础性工作,其质量对后续系统的影响巨大。使用手工分割和标注虽然精度高,但费时费力,同时需要熟练的领域专家来完成,自动语音分割因此成为语音处理的研究热点。首先针对自动语音分割目前的研究进展,介绍了语音分割的不同分类方法;然后分别介绍了基于对齐的方法和基于边界检测的方法,并详细介绍了可以应用在上述两种框架下的神经网络语音分割方法;接着介绍了基于生物激励信号以及博弈论等方法的新型语音分割技术,并给出了领域内广泛使用的性能评估度量,并对这些评估指标进行比较和分析;最后总结并提出语音分割研究未来发展的重要方向。  相似文献   

9.
针对传统的英语翻译系统存在无法准确识别说话者语音和语气的问题。设计一个基于语音识别和语气语音合成的英语翻译系统,该系统终端主要包括语音识别、语言翻译、语气识别、语气转换和语气语音合成模块。基于CVAE语气语音合成模型对语音识别和语言翻译的英语语句进行语气语音合成,以进行便携式英语翻译终端设计与实现。实验表明,基于CVAE的语气语音合成模型合成语气语音的基频曲线与原始语音间的误差仅为0.02,两者基频曲线十分接近。且在主观评价方面,本模型的语音合成自然度MOS评分为3.84分,方差仅为0.004;情感语气一致性平均打分为3.72,方差为0.002。综合分析可知,本模型可取得较好的语音生成效果,生成语音具备多样性和准确性。系统应用发现,本模型在系统中可提升英语翻译系统终端的语音识别和语气语音合成效果,系统性能优越。  相似文献   

10.
深度学习在语音识别中的研究进展综述   总被引:1,自引:0,他引:1  
在如今的大数据时代里,对于处理大量未经标注的原始语音数据的传统机器学习算法,很多都已不再适用。与此同时,深度学习模型凭借着其对海量数据的强大建模能力,能够直接对未标注数据进行处理,成为当前语音识别领域的一个研究热点。首先主要分析和总结了当前几种具有代表性的深度学习模型;其次是其在语音识别中对于语音特征提取及声学建模中的应用;最后总结了当前所面临的问题和发展方向。  相似文献   

11.
近年来,现代信息技术进入高速发展的阶段,新的研究成果出现的同时也带来了新的难题和挑战,其中,对人工智能的研究应用到了人们生活和生产的各个方面,给社会生活带来了巨大的改变。在人工智能识别中的语音识别研究一直是重点研究项目,虽然基于人工神经网络引入声学理论的研究,让语音识别智能化的效率和准确率大大提高,但是随着对语音识别需求的增多,仍然出现了一些不足。因此需要基于大数据和深度学习,对语音识别进行改善和深入研究,本文通过探讨语言智能识别的现状,用基于大数据和深度学习的方法,改善语音识别中的语音提取,声音模拟和识别判断等,有效提高语音识别技术的发展。  相似文献   

12.
人工智能的不断发展,使得人与机器的交互变得至关重要。语音是人与智能通讯设备之间通信的重要手段,在近几年飞速发展,说话人识别、情感识别、语音识别得到广泛地普及与应用。特别的,随着深度学习的兴起,基于深度学习的语音技术使机器理解语音内容、识别说话人方面达到近似人的水平,无论是效率还是准确度都得到了前所未有的提升。例如手机语音助手、利用语音控制智能家电、银行业务,以及来远程验证用户防止诈骗等。但是正是因为语音的广泛普及,它的安全问题受到了公众的关注,研究表明,用于语音任务的深度神经网络(Deep neural network, DNN)容易受到对抗性攻击。即攻击者可以通过向原始语音中添加难以察觉的扰动,欺骗DNN模型,生成的对抗样本人耳听不出区别,但是会被模型预测错误,这种现象最初出现在视觉领域,目前引起了音频领域的研究兴趣。基于此,本文对近年来语音领域的对抗攻击、防御方法相关的研究和文献进行了详细地总结。首先我们按照应用场景对语音任务进行了划分,介绍了主流任务及其发展背景。其次我们解释了语音对抗攻击的定义,并根据其应用场景对数字攻击与物理攻击分别进行了介绍。然后我们又按照对抗防御,对抗检测...  相似文献   

13.
针对基于非负矩阵分解(non-negative matrix factorization, NMF)的语音增强方法在低信噪比部分和无结构特征的清音部分会引入失真这一问题,利用语音信号在时频域呈现的稀疏特性和深度神经网络在语音增强应用中表现出的谱重构特性,提出了一种联合稀疏非负矩阵分解和深度神经网络的单通道语音增强方法.首先对带噪语音的幅度谱进行非负矩阵分解得到与语音字典和噪声字典相对应的稀疏编码矩阵,其中语音字典和噪声字典通过对纯净语音和噪声进行训练预先得到,以维纳滤波方法恢复出语音成分的主要结构;然后利用深度神经网络在语音增强中表现出的时频保持特性,通过深层网络学习经维纳滤波分离出的语音的对数幅度谱和理想纯净语音对数幅度谱之间的非线性映射函数,进而恢复出语音结构的缺失成分.实验结果表明:所提方法可以有效抑制噪声且较好地恢复出语音成分,在语音感知质量和对数谱失真性能评价指标上均优于基线方法.  相似文献   

14.

含噪条件下的语音增强技术是语音信号领域的重要研究方向之一,该技术对于提升语音视频通话的质量、提高人机交互和语音识别的性能具有重要作用. 为此,提出了基于扩张卷积和密集连接的语音增强网络结构,通过学习语音时频谱的频率、时间轴的上下文信息,有效提高了网络的特征表达能力. 具体来说,所提结构将扩张卷积融入到时间、频率处理的基础单元中,以确保在频率方向和时间方向上均可获得足够大的感受野,提取出深层语音特征;同时,密集连接被应用到这2个基础单元的级联结构中,由此可避免多处理模块级联带来的信息丢失,从而增强特征利用效率. 实验结果表明所提出的语音增强网络在语音质量客观评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)以及各类主观平均意见方面的总体评分,相比于现有的各类语音增强模型,均居于领先水平. 此外,所提网络对各种含噪条件的泛化能力也在实验中得以评估.

  相似文献   

15.
基于深度学习的声学模型研究   总被引:1,自引:0,他引:1  
近年来,深度学习凭借其优越的性能广泛应用于图像处理、自然语言处理、语音识别等领域,它对性能的提升远超于以往的传统方法.论文采取循环神经网络(Recurrent Neural Networks,RNN)中的长短期记忆模型(Long Short Time Memory,LSTM)实现了语音识别中的声学模型构建,并增加反向时...  相似文献   

16.
In recent years, deep learning based supervised speech enhancement methods have gained a considerable amount of research attention over the statistical signal processing based methods. In this study, we have considered the time–frequency masking based deep learning framework for speech enhancement and investigated how the performance of these methods can be improved further. We have mainly established that significant performance improvement can be achieved if the deep neural network (DNN) is pre-trained by using Fuzzy Restricted Boltzmann Machines (FRBM) rather than using regular Restricted Boltzmann Machines (RBM). This is mainly because of the fact that the performance of FRBM is more robust and effective when the training data is noisy. In order to train an FRBM, we have adopted a defuzzification method based on the crisp probabilistic mean value of fuzzy numbers. The detailed theory of training strategy of an FRBM with different fuzzy membership functions such as Symmetric Triangular Fuzzy Numbers (STFN) and Asymmetric Triangular Fuzzy Numbers (ATFN) is presented. Furthermore, we have evaluated the performance of the proposed training strategies on different DNN based Speech Enhancement Systems (SES) which are developed based on different training targets such as Complex Ideal Ratio Mask (cIRM), Ideal Ratio Mask (IRM) and Phase-Sensitive Mask (PSM). Experimental results on various noise scenarios have shown that the DNN-based speech enhancement system trained by the proposed approach ensures a consistent improvement in various objective measure scores of perceived speech quality and intelligibility while compared to the conventional DNN-based speech enhancement methods which use regular RBM for unsupervised pre-training.  相似文献   

17.
语音辨识技术是人机交互的重要方式。随着深度学习的不断发展,基于深度学习的自动语音辨识系统也取得了重要进展。然而,经过精心设计的音频对抗样本可以使得基于神经网络的自动语音辨识系统产生错误,给基于语音辨识系统的应用带来安全风险。为了提升基于神经网络的自动语音辨识系统的安全性,需要对音频对抗样本的攻击和防御进行研究。基于此,分析总结对抗样本生成和防御技术的研究现状,介绍自动语音辨识系统对抗样本攻击和防御技术面临的挑战和解决思路。  相似文献   

18.
针对不同声学特征之间的信息互补性以及声学建模中各任务间的关联性,提出了一种多特征关联的深层神经网络声学建模方法,该方法首先借鉴深层神经网络(deep neural network, DNN)多模态以及多任务学习思想,通过共享DNN部分隐含层为不同特征声学模型间建立关联,从而挖掘不同学习任务间隐含的共同解释性因素,实现知识迁移以及性能的相互促进;其次利用低秩矩阵分解方法减少模型估计参数的数量,加快模型训练速度,并对不同特征的识别结果采用ROVER(recognizer output voting error reduction)融合算法进行融合,进一步提高系统识别性能.基于TIMIT的连续语音识别实验表明,采用关联声学建模方法,不同特征的识别性能均要优于独立建模时的识别性能.在音素错误率(phone error rates, PER)指标上,关联声学建模下的ROVER融合结果要比独立建模下的ROVER融合结果相对降低约4.6%.  相似文献   

19.
在许多语音信号处理的实际应用中,都要求系统能够低延迟地实时处理多个任务,并且对噪声要有很强的鲁棒性。针对上述问题,提出了一种语音增强和语音活动检测(Voice Activity Detection,VAD)的多任务深度学习模型。该模型通过引入长短时记忆(Long Short-Term Memory,LSTM)网络,构建了一个适合于实时在线处理的因果系统。基于语音增强和VAD的强相关性,该模型以硬参数共享的方式连接了两个任务的输出层,不仅减少了计算量,还通过多任务学习提高了任务的泛化能力。实验结果表明,相较串行处理两个任务的基线模型,多任务模型在语音增强结果非常相近、VAD结果更优的情况下,其速度快了44.2%,这对于深度学习模型的实际应用和部署将具有重要的意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号