期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

邢益搏张雄伟郑昌艳曹铁勇《声学技术》2019,38(3):312-316

首先设计了适用于骨导语音增强的语料采集方案,采集了1 320句涵盖音节全面的语料,并制定了相应的录音规范;其次介绍了骨导语音库建立的意义,说明了语音库建立的实施方案,建成了由40个说话人录制的包括气导语音和骨导语音各8 000句的语音库;然后在对比骨导语音与气导语音声学特性的基础上,分析了骨气导语音在高频和低频的互信息量,为骨导语音的增强提供了理论依据;最后基于现阶段的研究及文中构建的语音库对今后的研究做出展望。相似文献

2.

一种基于LSTM-RNN的喉振传声器语音盲增强算法

郑昌艳张雄伟曹铁勇杨吉斌孙蒙《数据采集与处理》2019,34(4):615-624

喉振传声器以其优良的抗噪声特性已在多种强噪声场景中得到应用,但其产生的语音尚存在着中频成份厚重、高频成份缺失等问题,严重影响了语音的清晰度和可懂度。为改善喉振传声器的语音质量,本文提出了一种基于长短时记忆递归神经网络（Long short term memory recurrent neural networks, LSTM-RNN）的喉振传声器语音盲增强算法。与基于低维的谱包络特征估计算法不同,该算法首先利用LSTM-RNN对喉振传声器语音与空气传导语音的高维对数幅度谱之间的转换关系进行建模,能有效捕捉上下文信息实现语音幅度谱的重构,然后采用非负矩阵分解（Non-negative matrix factorization, NMF）对估计出的语音幅度谱进行处理,有效抑制了过平滑问题,进一步提高了语音质量。仿真实验得到的LLR,LSD,PESQ性能指标表明,该算法可有效改善喉振传声器的语音质量。相似文献

3.

基于多分辨率时频特征融合的声学场景分类

下载免费PDF全文

姚琨杨吉斌张雄伟郑昌艳孙蒙《声学技术》2020,39(4):494-500

声学场景分类是计算机听觉中最难的任务之一,在单一特征条件下采用基本的卷积神经网络相对于传统的分类方法精度已经有所提升,但是效果依然不够理想。针对这一问题,在卷积神经网络框架下,提出了一种基于时频特征融合的声学场景分类方案。在分类模型构建方面,提出一种多分辨率卷积池化方案,构造多分辨率卷积神经网络,以更好地适应提取特征的时频结构;在特征选取方面,融合低层次包络特征对数——Mel子带能量和高层次结构特征——非负矩阵分解系数矩阵,把两种二维特征堆叠为三维特征送入分类模型。在2017年和2018年声学场景分类和事件检测挑战赛的开发数据集上进行了训练和测试。实验结果表明,文中提出方案比基线系统的分类精度分别提高7.5%和10.3%,可有效改善分类效果。相似文献

4.

CS-Softmax:一种基于余弦相似性的Softmax损失函数

张强杨吉斌张雄伟曹铁勇郑昌艳《计算机研究与发展》2022,59(4):936-949

卷积神经网络分类框架广泛使用了基于Softmax函数的交叉熵损失(Softmax损失函数),在很多领域中都取得了良好的性能.但是由于Softmax损失函数并不鼓励增大类内紧凑性和类间分离性,在一些多分类问题中,卷积神经网络学习到的判别性嵌入表示的性能难以进一步提高.为了增强嵌入表示的判别性,提出了一种基于余弦相似性的... 相似文献

5.

基于Transformer的单通道语音增强模型综述

下载免费PDF全文

范君怡杨吉斌张雄伟郑昌艳《计算机工程与应用》2022,58(12):25-36

深度学习可以有效地解决带噪语音信号与干净语音信号之间复杂的映射问题,改善单通道语音增强的质量,但是增强语音的质量依然不理想。Transformer在语音信号处理领域中已得到了广泛应用,由于集成了多头注意力机制,可以更好地关注语音的长时相关性,该模型可以进一步改善语音增强效果。基于此,回顾了基于深度学习的语音增强模型,归纳了Transformer模型及其内部结构,从不同实现结构出发对基于Transformer的语音增强模型分类,详细分析了几种实例模型。并在常用数据集上对比了Transformer单通道语音增强的性能,分析了它们的优缺点。对相关研究工作的不足进行了总结,并对未来发展进行展望。相似文献

6.

语音去混响技术的研究进展与展望

张雄伟李轶南郑昌艳曹铁勇孙蒙闵刚 《数据采集与处理》2017,32(6):1069-1081

语音交互技术在实际的话音驱动应用中得到日益普及。然而,当声源距离传声器较远时,由于实际环境中混响现象的影响,语音交互的性能还远不能使人满意。针对混响问题,数十年来学者们不断地进行大量的研究,并提出了很多实用的方法。特别是近期兴起的在很大程度上改变语音处理格局的深度学习技术,在单通道去混响方面也取得了很多令人瞩目的效果。然而,目前系统性总结分析基于深度学习的去混响方法与经典算法之间联系的工作仍然比较匮乏。因此,本文对单通道语音去混响技术的发展脉络进行系统的梳理和总结,并讨论了有待进一步研究的开放问题。相似文献

7.

融合卷积网络与残差长短时记忆网络的轻量级骨导语音盲增强

邦锦阳孙蒙张雄伟郑昌艳《数据采集与处理》2021,36(5):921-931

基于深度学习的骨导语音盲增强已经取得了较好的效果,但仍存在模型体积大、计算复杂度高等问题。为此提出一种融合卷积网络和残差长短时记忆网络的轻量级骨导语音增强深度学习模型,该模型在保持语音增强质量的前提下,能有效提升骨导语音盲增强的效率。该模型借助卷积网络参数量小、特征提取能力强等优点,在语谱图频率维度引入卷积结构,从而深入挖掘时频结构的细节和高低频信息间的关联关系以提取新型特征,并将此新型特征输入改进后的长短时记忆网络中,用于恢复高频成分信息并重构语音信号。通过在骨导语音数据库上实验,表明所提模型可以有效改善高频成分的时频结构,在提升增强效果的同时,降低了模型体积和推理的计算复杂度。相似文献

8.

骨导麦克风语音盲增强技术研究现状及展望

张雄伟郑昌艳曹铁勇杨吉斌邢益搏《数据采集与处理》2018,33(5):769-778

骨导麦克风是一种非声传感器,由于其语音传输通道天然屏蔽了周围环境噪声的影响,因而具有很强的抗噪性能,已在多种强噪声环境的语音通信中发挥重要作用。由于人体传导的低通性能以及传感器工艺水平的限制等,骨导语音听起来比较沉闷、不够清晰,增强骨导语音对进一步改善强噪声环境下的语音通信质量以及骨导产品的推广具有重要意义。骨导麦克风语音盲增强在语音增强阶段仅拥有骨导语音信息,相比于融合带噪气导语音的增强,这种直接的增强方式具有更广泛的应用前景。本文在分析骨导语音特点的基础上,梳理总结了无监督频谱扩展法、均衡法和谱包络转换法等3种骨导麦克风语音盲增强方法,并展望了骨导麦克风语音盲增强研究的发展方向。相似文献