期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蓝天彭川李森钱宇欣陈聪刘峤《自动化学报》2022,(2)

为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训练阶段,用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility,STOI)与信源失真比(Source to distortion ratio,SDR)融入到训练的损失函数.在与具有代表性的传统方法和端到端的深度学习方法的对比实验中,本文提出的算法在客观评价指标上均取得了最好的增强效果,并且在未知噪声和低信噪比条件下表现出更好的抗噪性. 相似文献

2.

基于深层声学特征的端到端语音分离

李娟娟王丹李子晋《计算机系统应用》2019,28(10):1-7

提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经网络的输入,通过网络模型来学习语音信号的更深层次的声学特征,实现端到端的语音分离.客观评价实验说明,本文提出的分离算法不仅有效地提升了语音分离的性能,也减少了语音分离算法的时间延迟. 相似文献

3.

探究端到端的深度卷积神经网络语音识别

《软件》2022,43(3)

相似文献

4.

基于辅助学习的改进端到端合成语音检测方法

袁甜甜李志华邱阳《计算机与现代化》2023,(5):52-57+67

随着深度伪造技术的发展,合成语音检测面临越来越多的挑战。本文提出一种将辅助学习融入端到端模型的合成语音检测方法。将音频数据进行数据对齐后在不加提取任何手工特征的情况下直接输入到改进端到端模型,主任务进行真实语音与合成语音的二分类,同时选用不同合成语音类型判别作为辅助任务,为主任务的合成语音检测提供先验假设,并且对主辅任务的权重叠加进行了优化。通过在公开数据集ASVspoof2019及ASVspoof2015上进行的实验结果表明,本文改进的模型与使用手工特征的模型相比能有效降低等错率,且优于改进前的端到端模型,并且在面对未知攻击类型时拥有更好的泛化能力。相似文献

5.

TCN-Transformer-CTC的端到端语音识别

谢旭康陈戈孙俊陈祺东《计算机应用研究》2022,39(3):699-703

基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。相似文献

6.

基于HOPE-CTC的端到端语音识别

徐冬冬蒋志翔《计算机工程与设计》2021,42(2):462-467

为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型.通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖,在解码输出部分添加注意力机制,实现两种不同的端到端模型的融合.在中文数据集AISHELL-1上的实... 相似文献

7.

端到端的深度卷积神经网络语音识别

刘娟宏胡彧黄鹤宇《计算机应用与软件》2020,37(4):192-196

卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。相似文献

8.

基于多头注意力机制的端到端语音情感识别

杨磊赵红东于快快《计算机应用》2022,42(6):1869-1875

针对语音情感数据集规模小且数据维度高的特点,为解决传统循环神经网络（RNN）长程依赖消失和卷积神经网络（CNN）关注局部信息导致输入序列内部各帧之间潜在关系没有被充分挖掘的问题,提出一个基于多头注意力（MHA）和支持向量机（SVM）的神经网络MHA-SVM用于语音情感识别（SER）。首先将原始音频数据输入MHA网络来训练MHA的参数并得到MHA的分类结果;然后将原始音频数据再次输入到预训练好的MHA中用于提取特征;最后通过全连接层后使用SVM对得到的特征进行分类获得MHA-SVM的分类结果。充分评估MHA模块中头数和层数对实验结果的影响后,发现MHA-SVM在IEMOCAP数据集上的识别准确率最高达到69.6%。实验结果表明同基于RNN和CNN的模型相比,基于MHA机制的端到端模型更适合处理SER任务。相似文献

9.

联合优化深度神经网络和约束维纳滤波的单通道语音增强方法

韩伟张雄伟周星宇白崧廷闵刚《计算机应用研究》2017,34(3)

深度神经网络（Deep neural networks,DNNs）依靠其良好的特征提取能力,在语音增强任务中得到了广泛应用。为进一步提高深度神经网络的语音增强效果,提出一种将深度神经网络和约束维纳滤波联合训练优化的新型网络结构。该网络首先对带噪语音幅度谱进行训练并分别得到纯净语音和噪声的幅度谱估计,然后利用语音和噪声的幅度谱估计计算得到一个约束维纳增益函数,最后利用约束维纳增益函数从带噪语音幅度谱中估计出增强语音幅度谱作为网络的训练输出。对不同信噪比下的20种噪声进行的仿真实验表明,无论噪声类型是否在网络的训练集中出现,本文方法都能够在有效去除噪声的同时保持较小的语音失真,增强效果明显优于DNN及NMF增强方法。相似文献

10.

基于门控卷积网络与CTC的端到端语音识别

杨德举马良荔谭琳珊裴晶晶《计算机工程与设计》2020,41(9):2650-2654

相似文献

11.

利用深度卷积神经网络提高未知噪声下的语音增强性能 总被引：2，自引：0，他引：2

袁文浩孙文珠夏斌欧世峰《自动化学报》2018,44(4):751-759

为了进一步提高基于深度学习的语音增强方法在未知噪声下的性能,本文从神经网络的结构出发展开研究.基于在时间与频率两个维度上,语音和噪声信号的局部特征都具有强相关性的特点,采用深度卷积神经网络（Deep convolutional neural network,DCNN）建模来表示含噪语音和纯净语音之间的复杂非线性关系.通过设计有效的训练特征和训练目标,并建立合理的网络结构,提出了基于深度卷积神经网络的语音增强方法.实验结果表明,在未知噪声条件下,本文方法相比基于深度神经网络（Deep neural network,DNN）的方法在语音质量和可懂度两种指标上都有明显提高. 相似文献

12.

基于感知掩蔽深度神经网络的单通道语音增强方法 总被引：1，自引：0，他引：1

韩伟张雄伟闵刚张启业《自动化学报》2017,43(2):248-258

本文将心理声学掩蔽特性应用于基于深度神经网络（Deep neural network,DNN）的单通道语音增强任务中,提出了一种具有感知掩蔽特性的DNN结构.首先,提出的DNN对带噪语音幅度谱特征进行训练并分别得到纯净语音和噪声的幅度谱估计.其次,利用估计的纯净语音幅度谱计算噪声掩蔽阈值.然后,将噪声掩蔽阈值和估计的噪声幅度谱联合计算得到一个感知增益函数.最后,利用感知增益函数从带噪语音幅度谱中估计出增强语音幅度谱.在TIMIT数据库上,对不同信噪比下的20种噪声进行的仿真实验表明,无论噪声类型是否在语音的训练集中出现,所提出的感知掩蔽DNN都能够在有效去除噪声的同时保持较小的语音失真,增强效果明显优于常见的DNN增强方法以及NMF（Nonnegative matrix factorization）增强方法. 相似文献

13.

跨模态信息融合的端到端语音翻译

刘宇宸宗成庆《软件学报》2023,34(4):1837-1849

语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本. 相比于级联式翻译系统, 端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势, 因此越来越多地受到研究者们的关注. 但是, 端到端的语音翻译方法不仅需要处理较长的语音序列, 提取其中的声学信息, 而且需要学习源语言语音和目标语言文本之间的对齐关系, 从而导致建模困难, 且性能欠佳. 提出一种跨模态信息融合的端到端的语音翻译方法, 该方法将文本机器翻译与语音翻译模型深度结合, 针对语音序列长度与文本序列长度不一致的问题, 通过过滤声学表示中的冗余信息, 使过滤后的声学状态序列长度与对应的文本序列尽可能一致; 针对对齐关系难学习的问题, 采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中, 并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系. 在公开的语音翻译数据集上进行的实验表明, 所提方法可以显著提升语音翻译的性能. 相似文献

14.

基于MATLAB的谱相减语音增强算法的研究 总被引：5，自引：0，他引：5

曹晓琳张素莉吴平丁铁夫《计算机仿真》2006,23(3):278-280,283

谱相减算法运算量小、便于快速处理、效果好,是一种重要的语音增强算法。针对谱相减法经典形式存在的“音乐噪声”残留问题,人们提出了各种改进形式。该文以这一类语音增强算法作为对象,对“音乐噪声”的消除方法进行了研究。介绍了谱相减法经典形式及多种改进形式的基本原理,并基于MATLAB,详细说明了算法具体的实现过程。结合实录语音样本,给出了不同形式谱相减法增强后的结果,对各种方法的效果进行了对比,总结了使用经验,并以此为基础提出了一种提高处理后带噪语音信噪比的改进方案。相似文献

15.

语音增强算法评估的研究 总被引：1，自引：0，他引：1

下载免费PDF全文

孟静许刚《计算机工程》2006,32(24):223-225

研究了语音增强算法性能的评估方法。利用客观音质评价方便快捷的优点，针对SNR评估不能充分反映语音信号时变特征的不足，提出了采用IS、LLR、SegSNR 3种客观失真测度与SNR相结合的评估方法。实验表明，该方法可以有效地对语音增强算法进行整体和局部性能的评估。相似文献

16.

一种基于时频域特征融合的语音增强方法

袁文浩时云龙胡少东娄迎曦《计算机工程》2021,47(10):75-81

为充分利用含噪语音特征来提升深度神经网络的语音增强性能,提出一种融合时频域特征的语音增强方法.以含噪语音的波形和纯净语音的对数功率谱分别作为训练特征和训练目标,获取含噪语音时域特征到纯净语音频域特征的映射关系.将含噪语音的波形和对数功率谱共同作为训练特征,构建融合含噪语音时域和频域特征的深度神经网络实现语音增强.实验结... 相似文献

17.

基于增益字典查询的语音增强算法

庞亮陈亮张翼鹏黄清泉《计算机科学》2015,42(10):16-19

对于基于统计模型的语音增强算法,不同分布模型对应于不同的增益函数,由于语音信号的不确定性,没有一种分布函数能准确对语音和噪声谱的分布建模,因此任何一种固定的统计模型均会存在一定的误差。所以提出一种增益字典查询的语音增强算法,该算法通过采用对数谱失真准则对一个语音噪声库进行增益的训练,得到一个增益的字典,其中输入为先验信噪比和后验信噪比的估计值。最后采用ITU-T P.826 PESQ、分段信噪比、总信噪比和对数谱失真对该算法进行了测试,并与基于高斯分布模型、拉普拉斯分布模型的算法进行了对比。实验结果表明,该算法无论在非平稳噪声还是平稳噪声环境下都比其他几种算法增强效果好,且音乐噪声和残留背景噪声也可以得到很好的抑制。相似文献

18.

基于改进深度置信网络的语音增强算法

余华唐於烽赵力《数据采集与处理》2018,33(5):793-800

研究了一种基于深度置信网络的语音增强算法,并针对其不足做如下改进：考虑到对应训练集中噪声种类较少,噪声特性不够丰富的情况,在频域对噪声频谱进行扰动,以丰富噪声频谱特性;考虑到不同频点的信号对系统误差的影响不一样,结合绝对听阈构造权重系数。最后选取在噪声环境下传统语音增强算法中较好的LOG-MMSE和本文改进的基于深度置信网络的语音增强算法进行了分析比较,结果证明深度置信网络的语音增强算法显示出较好性能,尤其对增强后语音质量的提升超过了LOG-MMSE方法。相似文献

19.

联合稀疏非负矩阵分解和神经网络的语音增强

时文华倪永婧张雄伟邹霞孙蒙闵刚《计算机研究与发展》2018,55(11):2430-2438

针对基于非负矩阵分解(non-negative matrix factorization, NMF)的语音增强方法在低信噪比部分和无结构特征的清音部分会引入失真这一问题,利用语音信号在时频域呈现的稀疏特性和深度神经网络在语音增强应用中表现出的谱重构特性,提出了一种联合稀疏非负矩阵分解和深度神经网络的单通道语音增强方法.首先对带噪语音的幅度谱进行非负矩阵分解得到与语音字典和噪声字典相对应的稀疏编码矩阵,其中语音字典和噪声字典通过对纯净语音和噪声进行训练预先得到,以维纳滤波方法恢复出语音成分的主要结构;然后利用深度神经网络在语音增强中表现出的时频保持特性,通过深层网络学习经维纳滤波分离出的语音的对数幅度谱和理想纯净语音对数幅度谱之间的非线性映射函数,进而恢复出语音结构的缺失成分.实验结果表明：所提方法可以有效抑制噪声且较好地恢复出语音成分,在语音感知质量和对数谱失真性能评价指标上均优于基线方法. 相似文献