期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张建伟陶亮周健王华彬《声学技术》2015,34(5):424-430

噪声谱估计是单通道语音增强算法的关键步骤,当前大部分语音增强算法旨在提高语音质量,提高语音可懂度的算法却很少。在传统的单通道语音增强算法中,语音质量的提高往往是以牺牲语音的可懂度为代价的。对目前主流的几种噪声谱估计算法对语音可懂度影响进行分析。在不同噪声背景、不同信噪比情况下进行噪声谱估计,并采用谱减法对含噪语音信号作去噪处理,对比分析不同噪声、不同信噪比下增强前后语音的短时客观可懂度(Short-Time Objective Intelligibility,STOI)值,最后根据信噪比,对比分析了不同噪声环境下,语音增强前后语音能量高于噪声能量的时频块所占比例。实验表明,相比其他噪声估计算法,最小统计(Minima Statistics,MS)算法由于保留了更多的以语音能量为主的时频块,使得去噪后的语音有较高的可懂度。相似文献

2.

基于联合失真控制的子空间语音增强算法

下载免费PDF全文

叶琪陶亮周健王华彬《声学技术》2016,35(3):254-259

为提高低信噪比环境下的语音可懂度,提出了一种基于联合失真控制的子空间语音增强算法。由于误差信号中的语音失真和残余噪声分量不能被同时最小化,同时,由语音估计器引起的语音放大失真超过6.02 d B时会严重损害语音可懂度。为此分别对语音失真和残余噪声进行最小化处理,最小化时把语音放大失真控制在6.02 d B以下作为约束条件,通过求解两个约束最优化问题得到两个不同的估计器,再对这两个估计器进行加权求和,得到一种基于联合失真控制的语音估计器。实验结果表明,相比于传统的子空间增强方法,在低信噪比环境下所提出的算法能更有效提高增强后语音的可懂度。相似文献

3.

基于小波变换多阈值语音增强处理研究 总被引：2，自引：0，他引：2

王晶傅丰林陈建《声学与电子工程》2004,(4):32-35

语音通信过程不可避免地会受到各种噪声的干扰，噪声降低了语音的信噪比和可懂度。语音增强就是对带噪语音进行处理，以改善语音质量。小波变换具有多尺度的特性，可以由粗及细的逐步观察信号。本文研究了一种基于小波多尺度特性的多阈值处理的语音增强算法，根据不同的尺度因子和位移因子选择不同的阈值，利用软阈值函数对带噪语音进行消噪，并比较分析了各种小波基处理带噪语音的不同效果。实验结果表明，该算法可以明显提高语音的信噪比，并提高了语音的清晰度和可懂度。相似文献

4.

采用双谱特征的语音可懂度评价算法

下载免费PDF全文

陈晓梅王晓玮钟波商莹莹杨佳燕《声学技术》2022,41(5):678-684

针对现有的语音可懂度评价方法不能有效地处理信号在多种类型的非线性失真下的变化,提出了一种基于双谱特征的语音可懂度评价(Bispectral Speech Intelligibility Metric,BSIM)算法,用三阶统计量从语音信号的谱图中提取特征。双谱可以检测语音信号中的非线性相位耦合,抑制非高斯信号中的高斯噪声,从而揭示更多隐含于信号内部的有用信息。将本方法与现有的语音可懂度指标进行了比较,结果表明,此方法可以成功地预测线性失真和非线性失真造成的语音可懂度下降,其评价结果与主观可懂度结果具有很高的相关度,对信号失真变化敏感。相似文献

5.

基于时延估计改进的主动隔声耳罩语音增强算法

下载免费PDF全文

王宁刘剑刘苏洋《声学技术》2023,42(6):785-793

为实现高噪声场所中的听力保护和不同角度入射声源的语音增强，文章采用基于谱减法改进的广义互相关（Generalized Cross Correlation, GCC）时延估计方法对麦克风阵列接收信号进行同步处理，将同步后的阵列信号与基于广义旁瓣抵消器（Generalized Sidelobe Canceller, GSC）的主动隔声耳罩语音增强算法结合，实现噪声抑制和语音增强。首先以GCC算法为基础，引入多窗谱估计的谱减法作为时延估计信号的预处理环节，提高传声器接收信号的信噪比对算法进行改进。随后对加入谱减法的GCC时延估计算法，比较分析了取不同加权函数的仿真结果。最后由时延估计结果对麦克风阵列信号进行时延补偿，对改进后的主动隔声耳罩语音增强算法的噪声抑制和语音增强效果进行了分析。与改进前算法相比，在不同噪声环境下输出的语音信号质量有明显提升。相似文献

6.

低信噪比环境下语音识别的鲁棒性方法研究

下载免费PDF全文

刘伟波曾庆宁罗瀛郑展恒《声学技术》2019,38(6):650-656

针对噪声环境下语音识别率急剧下降的问题，提出了一种基于语音时频域稀疏性原理的改进最小方差无畸变响应波束形成与改进维纳滤波结合的算法。该算法首先利用麦克风阵列语音信号的空间信息，通过基于时频掩蔽的改进最小方差无畸变响应波束形成器，增强目标声源方向的语音信号，抑制其他方向噪声的干扰，然后再使用改进的维纳滤波器去除残留噪声并提高语音可懂度，对增强后的语音信号提取梅尔频率倒谱系数作为特征参数，使用隐马尔可夫模型搭建语音识别系统。实验结果表明，该方法能够有效提高低信噪比环境下的语音识别率，具有较好的鲁棒性。相似文献

7.

基于Hilbert-Huang变换和听觉掩蔽的语音增强算法 总被引：2，自引：1，他引：1

下载免费PDF全文

宋倩倩于凤芹《声学技术》2009,28(3):280-283

Hilbert-Huang变换是一种新型的具有自适应性的时频分析方法,分析了HHT算法的原理,提出了一种基于HHT和听觉掩蔽的语音增强算法,首先将语音信号进行EMD分解得到各阶IMF分量,然后对高频IMF分量进行听觉掩蔽处理,最后将处理后的分量与剩余分量叠加得到重构信号。仿真结果表明所提出的算法降低了语音失真测度值,提高了语音信号的信噪比、清晰度及可懂度,并与听觉掩蔽算法和谱减法进行了比较,显示了该算法的优越性。相似文献

8.

基于RLS的自适应阵列抗交叉串扰语音增强研究

陈紫强刘庆华曾庆宁《声学与电子工程》2008,(3)

在噪声环境下的麦克风阵列语音增强应用中,由于语音与噪声之间存在交叉串扰,传统自适应算法降噪性能受到很大的影响。为了提高自适应滤波器收敛性能,同时抑制麦克风之间语音信号的交叉串扰,采用两级抗交叉串扰麦克风阵列结构,自适应滤波器均采用RLS格型一阶梯算法。其中,第～级滤波系统仅在确认为无语音阶段进行参数调整,以充分消除噪声的影响。实验结果表明,该方法消噪量大,对语音损伤小,语音增强效果显著。相似文献

9.

基于线性预测模型的氦语音增强算法研究

下载免费PDF全文

张勇赵晓群《声学技术》2007,26(1):111-116

潜水员在水下工作时,由于生理方面的原因,需要以氦氧混合气体作为呼吸气体,由于气体结构的变化出现了氦语音现象,使得语音发生畸变,降低了清晰度。通过介绍基于线性预测模型的氦语音增强算法,将频域的线谱对(LSP)分析应用于氦语音增强中,由于线谱对系数与语音信号谱包络有紧密的联系,用线谱对参数(LSP)构成合成滤波器时更容易保证稳定性,所以提出了一种基于线谱对系数(LSP)的氦语音增强算法。通过实验将这种算法与基于线性预测LPC的增强算法进行了比较,实验结果表明,两种算法均能对氦语音进行矫正,并且新的算法能够对共振峰进行单独调节,在不影响清晰度的同时最大限度地保持了原有语音的细节,提高了可懂度。相似文献

10.

低信噪比环境下的语音识别方法研究

下载免费PDF全文

王群曾庆宁谢先明郑展恒《声学技术》2017,36(1):50-56

单通道语音信号在信噪比较大的环境下经过增强后再识别,能表现出较高的识别率。但是在低信噪比环境下,增强后语音信号的识别率急剧下降。针对此种情况,提出了一种用在识别系统前端的语音增强算法,该增强算法将采集到的带噪语音信号先使用对数最小均方误差(Logarithmic Minimum Mean Square Error,Log MMSE)提高其信噪比,然后再利用改进的维纳滤波去除噪声残留并提升语音可懂度,最后用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和隐马尔科夫模型(Hidden Markov Model,HMM)对增强后的语音信号做特征提取并识别。实验分析结果表明,该方法能有效地抑制背景噪声并减少噪声残留,显著提升低信噪比环境下语音识别的准确性。相似文献

11.

双微阵列语音增强算法在说话人识别中的应用

下载免费PDF全文

毛维曾庆宁龙超《声学技术》2018,37(3):253-260

针对复杂噪声环境下识别性能显著降低的问题,提出一种用于说话人识别系统前端的双微阵列语音增强算法。该算法采用的是相干滤波和频域宽带最小方差无畸变响应波束形成器后置结合改进的维纳滤波器。其基本原理是首先求出双微麦克风阵列信号中两个相邻通道间的相干函数,再利用通道间信号的相干性来进行初始噪声抑制。其次,通过一个频域宽带最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束形成器保留目标声源方向的信号并抑制其他方向的信号干扰,再通过改进的维纳滤波器去除噪声残留提升语音质量。最后,使用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)和伽马通滤波器组频率倒谱系数(Gammatone Filter-bank Frequency Cepstral Coefficients,GFCC)对增强后的语音信号做特征参数提取并进行说话人识别。仿真过程采用声学人工头模拟双耳采集数据,实验结果表明,该语音增强算法在复杂噪声环境下能够获得较好的增强效果,能有效提升说话人识别系统的识别率。相似文献

12.

语音清晰度车身面板贡献量分析与优化

曾发林刘雅晨胡枫《振动与冲击》2021,(7):68-74

车身板面贡献量分析作为研究车身振动对车内噪声影响的重要内容,常用声学传递向量(acoustic transfer vector,ATV)仿真计算来实现。为了进一步探究车身振动对车内语音清晰度的影响,通过对语音清晰度客观参量与主观评价分值的比较,确定以非稳态加速工况下的语言可懂度指数(speech intelligibility index,SII)为指标,运用ATV仿真手段找出对语音清晰度影响最大的面板。分析结果显示车身顶棚面板对语音清晰度影响最大。针对分析结果,采用遗传算法搜寻和ATV逆运算仿真相结合的方法,有针对性地进行了车身顶棚阻尼敷设并加以验证。结果表明,基于语音清晰度车身板面贡献情况的优化设计,有效地改善了非稳态全油门加速工况下的车内语音清晰程度,提高了车内声音品质。相似文献

13.

基于MGSC与改进维纳滤波的麦克风阵列语音增强

下载免费PDF全文

肖强曾庆宁王瑶谢先明毛维《声学技术》2017,36(6):567-573

针对传统广义旁瓣抵消中阻塞矩阵语音泄露、非相干噪声消噪能力较弱及后置维纳滤波中相位不变等问题,提出一种基于改进广义旁瓣抵消与相位补偿维纳滤波的方法。该方法将阻塞矩阵变为阻塞滤波器从而减少了阻塞矩阵语音泄露,然后将相位补偿的维纳滤波用于估计纯净语音的幅度谱和相位谱,从而抑制广义旁瓣抵消残留的噪声。仿真及实测结果表明,该方法能够更加有效地抑制噪声的影响,提高语音的可懂度。相似文献

14.

Maximum confidence measure-based dual-microphone beamforming direction and beamwidth steering algorithm for robust speech recognition

Hsien-Cheng Liao 《中国工程学刊》2016,39(5):574-577

This paper proposes a maximum confidence measure-based closed-loop dual-microphone beamforming direction and beamwidth steering algorithm to facilitate robust speech recognition. This technique involves feeding back the confidence measure reported through a back-end speech recognizer, automatically steering a front-end microphone array to optimally identify the correct speaker direction and array beamwidth. The technique enables users to move around freely and directly improves overall system performance. The experimental results from a voice command task show that the proposed approach demonstrated superior performance. 相似文献

15.

利用波束形成和神经网络进行语音增强

下载免费PDF全文

龚杰冯海泓陈友元方义牟宏宇《声学技术》2020,39(3):323-328

语音增强在语音信号处理的前端非常重要,直接影响后端语音识别等效果。目前用神经网络进行单通道语音分离对于解决鸡尾酒会问题取得了很大的进步,但是用于复杂混合语音时分离效果仍不令人满意。针对单通道情形下的不足,使用多通道结构形成4个方向的超指向波束,结合神经网络算法实现对于指定方向的目标语音增强。仿真和实验结果表明,该算法相较于超指向波束形成算法和谱减法在多种评价指标上均有了明显的提升。相似文献

16.

基于DBLSTM-DCNN的骨导和气导语音转换

下载免费PDF全文

储有亮李梁《声学技术》2021,40(6):815-821

为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络（Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN）的骨导语音转气导语音的语音转换模型。该模型利用DBLSTM层收集和保存相邻连续帧的隐藏信息,再通过DCNN层来提取频域方面的特征信息,可以很好地解决由于骨导语音高频成份严重缺失导致的转换语音不够自然的问题。实验结果表明,该模型的语音质量感知评价（Perceptual Evaluation of Speech Quality,PESQ）、短时客观可懂度（Short-Time Objective Intelligibility,STOI）、对数谱距离（Log-spectral Distance,LSD）等客观评价指标均有良好的表现,证明了该模型在骨导语音转气导语音方面具有较好的转换效果。相似文献