首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

2.
语音合成技术在人机交互中扮演着重要角色,深度学习的发展带动语音合成技术高速发展。基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术。从基于深度学习的声码器和声学模型出发对语音合成技术进行综述,探讨各类声码器和声学模型的工作原理及其优缺点,在此基础上对语音合成系统进行综述,系统综述经典的基于深度学习的语音合成系统,对基于深度学习的语音合成技术进行展望。  相似文献   

3.
近年来随着移动智能设备的兴起, 人们越来越频繁的接触和使用语音信息, 语音伪造和鉴伪成为语音处理领域中愈加重要的技术. 本文首先梳理了语音合成系统的一般流程, 并对语音伪造领域中主要的文本到语音(text-to-speech, TTS)和语音转换(voice conversion, VC)两项技术进行系统归纳; 接着, 对语音鉴伪技术中常见的算法进行介绍和分类; 最后, 针对语音伪造和鉴伪目前存在的问题, 本文从数据、模型、训练方法以及应用场景等多个角度出发提出未来可能的发展方向.  相似文献   

4.
深度学习在语音识别中的研究进展综述   总被引:1,自引:0,他引:1  
在如今的大数据时代里,对于处理大量未经标注的原始语音数据的传统机器学习算法,很多都已不再适用。与此同时,深度学习模型凭借着其对海量数据的强大建模能力,能够直接对未标注数据进行处理,成为当前语音识别领域的一个研究热点。首先主要分析和总结了当前几种具有代表性的深度学习模型;其次是其在语音识别中对于语音特征提取及声学建模中的应用;最后总结了当前所面临的问题和发展方向。  相似文献   

5.
针对传统的英语翻译系统存在无法准确识别说话者语音和语气的问题。设计一个基于语音识别和语气语音合成的英语翻译系统,该系统终端主要包括语音识别、语言翻译、语气识别、语气转换和语气语音合成模块。基于CVAE语气语音合成模型对语音识别和语言翻译的英语语句进行语气语音合成,以进行便携式英语翻译终端设计与实现。实验表明,基于CVAE的语气语音合成模型合成语气语音的基频曲线与原始语音间的误差仅为0.02,两者基频曲线十分接近。且在主观评价方面,本模型的语音合成自然度MOS评分为3.84分,方差仅为0.004;情感语气一致性平均打分为3.72,方差为0.002。综合分析可知,本模型可取得较好的语音生成效果,生成语音具备多样性和准确性。系统应用发现,本模型在系统中可提升英语翻译系统终端的语音识别和语气语音合成效果,系统性能优越。  相似文献   

6.
针对语音情感识别研究体系进行综述。这一体系包括情感描述模型、情感语音数据库、特征提取与降维、情感分类与回归算法4个方面的内容。本文总结离散情感模型、维度情感模型和两模型间单向映射的情感描述方法;归纳出情感语音数据库选择的依据;细化了语音情感特征分类并列出了常用特征提取工具;最后对特征提取和情感分类与回归的常用算法特点进行凝练并总结深度学习研究进展,并提出情感语音识别领域需要解决的新问题、预测了发展趋势。  相似文献   

7.
总结和分析了近年来情感可视语音合成领域的一些关键研究成果和研究方法,并根据可视语音合成机制的不同,从基于图像的方法和基于模型的方法两个角度对情感可视语音合成技术进行了系统归类和阐述,分析对比了其各自的优缺点及性能差异。重点讨论了各文献合成的可视语音在真实性和情感表现力两个方面的实现机理和程度。最后指出了合成具有情感表现力的可视语音应该重点考虑的一些问题,为情感可视语音合成的进一步研究指明了方向。  相似文献   

8.
语音是人类与智能手机或智能家电等现代智能设备进行通信的一种常用而有效的方式。随着计算机和网络技术的显著进步,语音识别系统得到了广泛的应用,它可以将用户发出的语音指令解释为智能设备上可以理解的数字指令或信号,实现用户与这些设备的远程交互功能。近年来,深度学习技术的进步推动了语音识别系统发展,使得语音识别系统的精度和可用性不断提高。然而深度学习技术自身还存在未解决的安全性问题,例如对抗样本。对抗样本是指在模型的预测阶段,通过对预测样本添加细微的扰动,使模型以高置信度给出一个错误的目标类别输出。目前对于对抗样本的攻击及防御研究主要集中在计算机视觉领域而忽略了语音识别系统模型的安全问题,当今最先进的语音识别系统由于采用深度学习技术也面临着对抗样本攻击带来的巨大安全威胁。针对语音识别系统模型同样面临对抗样本的风险,本文对语音识别系统的对抗样本攻击和防御提供了一个系统的综述。我们概述了不同类型语音对抗样本攻击的基本原理并对目前最先进的语音对抗样本生成方法进行了全面的比较和讨论。同时,为了构建更安全的语音识别系统,我们讨论了现有语音对抗样本的防御策略并展望了该领域未来的研究方向。  相似文献   

9.
语音欺骗是指通过录音、语音合成(Text-to-speech, TTS)、语音转换(Voice conversion, VC)等手段,将一段非法的、未经过自动说话人验证(Automatic speaker verification, ASV)系统认证的声音进行“修改仿冒”,以达到通过ASV系统检测的目的。随着人工智能和语音欺骗技术的发展,ASV系统在安全性方面遇到了严峻的挑战。检测输入ASV系统的语音的真实性,防止欺骗语音通过ASV的验证以提高ASV系统的安全性,是近年来语音领域研究的一个热点问题。国内外学者的最新研究从声学特征选取、识别模型选择等角度出发,探索了不同的语音欺骗方法对ASV系统的影响,并深入研究了相应的语音欺骗检测技术,在一定程度上提高了ASV系统的防欺骗性能。本文介绍了语音欺骗的基本方法,给出了语音欺骗检测的框架和典型声学特征,分两大类别总结了语音欺骗检测的主要方法和最新进展,梳理了目前语音欺骗检测中仍然存在的若干技术问题,并对语音欺骗检测技术的发展方向进行了展望。  相似文献   

10.
语音识别是一个多学科交叉的边缘学科,它需要语言学、心理学、工程和计算机等领域的专业知识.不仅要对语音识别和语音合成技术进行研究,还要对人在语音通道下的交互机理、行为方式等方面进行研究.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号