期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张立伟《数据采集与处理》2014,29(2):265-273

非平稳噪声和低信噪比条件下提高增强语音质量一直以来都是语音增强研究的难题。近年来,卷积非负矩阵分解在语音增强算法中成功应用,本文进一步考虑语音信号在时频域的稀疏性,提出了稀疏卷积非负矩阵分解(Sparse Convolutive Nonnegative Matrix Factorization, SCNMF)的语音增强算法。该算法包括训练和增强两个阶段。训练阶段通过SCNMF算法分别对纯净语音和噪声的频谱进行训练,得到纯净语音和噪声字典,并将其作为增强阶段的先验信息。增强阶段首先通过SCNMF算法对带噪语音的频谱进行分解,然后利用纯净语音和噪声联合字典对语音编码矩阵进行估计,重构增强语音。本文通过实验仿真分析了稀疏因子对增强语音质量的影响。实验结果表明,在非平稳噪声和低信噪比条件下,本文算法增强效果均优于多带谱减、非负矩阵分解、卷积非负矩阵分解等传统的算法。相似文献

2.

基于非平滑非负矩阵分解语音增强

王波于凤芹陈莹《计算机工程与应用》2017,53(7):160-164

针对非负矩阵分解稀疏性不够,通过引入平滑矩阵调节字典矩阵和系数矩阵的稀疏性,提出基于非平滑非负矩阵分解语音增强算法。算法通过语音和噪声的先验字典学习构造联合字典矩阵;然后通过非平滑非负矩阵分解更新带噪语音在联合字典矩阵下的投影系数实现语音增强;同时通过滑动窗口法实时更新先验噪声字典。仿真结果表明,该算法相对非负矩阵分解语音增强算法和MMSE算法具有更好的抑制噪声能力。相似文献

3.

稀疏正则非负矩阵分解的语音增强算法

蒋茂松王冬霞牛芳琳曹玉东《计算机应用》2018,38(4):1176-1180

对于非负矩阵分解的语音增强算法在不同环境噪声的鲁棒性问题,提出一种稀疏正则非负矩阵分解（SRNMF）的语音增强算法。该算法不仅考虑到数据处理时的噪声影响,而且对系数矩阵进行了稀疏约束,使其分解出的数据具有较好的语音特征。该算法首先在对语音和噪声的幅度谱先验字典矩阵学习的基础上,构建联合字典矩阵,然后更新带噪语音幅度谱在联合字典矩阵下的系数矩阵,最后重构原始纯净语音,实现语音增强。实验结果表明,在非平稳噪声和低信噪比（小于0 dB）条件下,该算法较好地削弱了噪声的变化对算法性能的影响,不仅有较高的信源失真率（SDR）,提高了1~1.5个数量级,而且运算速度也有一定程度的提高,使得基于非负矩阵分解的语音增强算法更实用。相似文献

4.

多重约束非负矩阵分解的非平稳噪声语音增强

邹月娴刘诗涵王迪松《控制理论与应用》2017,34(6):761-768

低信噪比非稳态噪声环境中的语音增强仍是一个开放且具有挑战性的任务. 为了提高传统的基于非负矩阵分解(nonnegative matrix factorization, NMF)的语音增强算法性能, 同时考虑到语音信号的时频稀疏特性和非稳态噪声信号的低秩特性, 本文提出了一种基于多重约束的非负矩阵分解语音增强算法(multi-constraint nonnegative matrix factorization speech enhancement, MC–NMFSE). 在训练阶段, 采用干净语音训练数据集和噪声训练数据集分别构建语音字典和噪声字典. 在语音增强阶段, 在非负矩阵分解目标函数中增加语音分量的稀疏性约束和噪声信号的低秩性约束条件, MC–NMFSE能够更好地从带噪语音中获得语音分量的表示, 从而提高语音增强效果. 通过实验表明, 在大量不同非平稳噪声条件和不同信噪比条件下, 与传统的基于NMF的语音增强方法相比, MC–NMFSE能获得较低的语音失真和更好的非稳态噪声抑制能力. 相似文献

5.

多重约束非负矩阵分解的非平稳噪声语音增强（英文）

《控制理论与应用》2017,(6)

低信噪比非稳态噪声环境中的语音增强仍是一个开放且具有挑战性的任务.为了提高传统的基于非负矩阵分解(nonnegative matrix factorization,NMF)的语音增强算法性能,同时考虑到语音信号的时频稀疏特性和非稳态噪声信号的低秩特性,本文提出了一种基于多重约束的非负矩阵分解语音增强算法(multi-constraint nonnegative matrix factorization speech enhancement,MC–NMFSE).在训练阶段,采用干净语音训练数据集和噪声训练数据集分别构建语音字典和噪声字典.在语音增强阶段,在非负矩阵分解目标函数中增加语音分量的稀疏性约束和噪声信号的低秩性约束条件,MC–NMFSE能够更好地从带噪语音中获得语音分量的表示,从而提高语音增强效果.通过实验表明,在大量不同非平稳噪声条件和不同信噪比条件下,与传统的基于NMF的语音增强方法相比,MC–NMFSE能获得较低的语音失真和更好的非稳态噪声抑制能力. 相似文献

6.

稀疏低秩模型下的单通道自学习语音增强算法

李轶南贾冲杨吉斌吴海佳张立伟《数据采集与处理》2014,29(2):223-226

针对现有基于字典学习的增强算法依赖先验信息的问题,基于矩阵的稀疏低秩分解提出一种无监督的单通道语音增强算法。该算法首先通过稀疏低秩分解将带噪语音的幅度谱分解为低秩、稀疏和噪声三部分,然后通过对低秩部分进行自学习构建出噪声字典,最后利用所得噪声字典和乘性迭代准则于低秩和稀疏部分中分离出纯净语音。相较于其他基于字典学习的语音增强算法,本文所提算法无需语音或噪声的先验信息,因而更加方便和实用。实验结果显示,本文算法能够在保留语音谐波结构的同时有效抑制噪声,增强效果明显优于鲁棒主成分分析和多带谱减法。相似文献

7.

基于卷积非负矩阵部分联合分解的强噪声单声道语音分离

董兴磊胡英黄浩吾守尔·斯拉木《自动化学报》2020,46(6):1200-1209

非负矩阵部分联合分解(Nonnegative matrix partial co-factorization, NMPCF)将指定源频谱作为边信息参与混合信号频谱的联合分解, 以帮助确定指定源的基向量进而提高信号分离性能.卷积非负矩阵分解(Convolutive nonnegative matrix factorization, CNMF)采用卷积基分解的方法进行矩阵分解, 在单声道语音分离方面取得较好的效果.为了实现强噪声条件下的语音分离, 本文结合以上两种算法的优势, 提出一种基于卷积非负矩阵部分联合分解(Convolutive nonnegative partial matrix co-factorization, CNMPCF)的单声道语音分离算法.本算法首先通过基音检测算法得到混合信号的语音起始点, 再据此确定混合信号中的纯噪声段, 最后将混合信号频谱和噪声频谱进行卷积非负矩阵部分联合分解, 得到语音基矩阵, 进而得到分离的语音频谱和时域信号.实验中, 混合语音信噪比(Signal noise ratio, SNR)选择以-3 dB为间隔从0 dB至-12 dB共5种SNR.实验结果表明, 在不同噪声类型和噪声强度条件下, 本文提出的CNMPCF方法相比于以上两种方法均有不同程度的提高. 相似文献

8.

基于码本学习的改进谱减语音增强算法

下载免费PDF全文

隋璐瑛张雄伟黄建军赵改华《计算机工程与应用》2013,49(16):216-220

提出一种可适应非平稳噪声环境的基于码本学习的改进谱减语音增强算法。该算法分为训练阶段和增强阶段。训练阶段,使用自回归模型对语音和噪声的频谱形状进行建模并构造语音和噪声码本;增强阶段,采用对数谱最小化算法估计出语音和噪声的频谱,通过谱相减消除噪声。算法在每个时间帧估计语音和噪声频谱,即使在语音存在时仍能够有效跟踪快速变化的非平稳噪声;采用自回归模型能得到噪声频谱的平滑估计,减少了音乐噪声。实验仿真表明,相比于传统谱减法和多带谱减法,改进的谱减法具有更好的噪声抑制性能并且语音失真更小。相似文献

9.

稀疏性正则化非负矩阵分解的在线学习方法

薛模根徐国明王峰《模式识别与人工智能》2013,26(3):242-246

针对非负矩阵分解效率低的不足,提出一种基于在线学习的稀疏性非负矩阵分解的快速方法.通过对目标函数添加正则化项来控制分解后系数矩阵的稀疏性,将问题转化成稀疏表示的字典学习问题,利用在线字典学习算法求解目标函数,并对迭代过程的矩阵更新进行转换,采取块坐标下降法进行矩阵更新,提高算法收敛速度.实验结果表明,该方法在有效保持图像特征信息的同时,运行效率得到提高. 相似文献

10.

基于改进稀疏编码的图像超分辨率算法

盛帅曹丽萍黄增喜吴鹏飞《计算机应用》2014,34(2):562-566

针对传统基于稀疏字典对的超分辨率（SR）算法训练速度慢、字典质量差、特征匹配准确性低的缺点,提出一种基于改进稀疏编码的图像超分辨率算法。该算法使用自适应阈值的形态组成分析(MCA)方法提取图像特征,并采用主成分分析算法对训练集进行降维,提高特征提取的有效性,缩短字典训练时间,减少过拟合现象。在字典训练阶段,使用改进的稀疏K-奇异值分解(K-SVD)算法训练低分辨率字典,结合图像块的重叠关系求解高分辨率字典,增强字典的有效性和自适应能力,同时极大地提高了字典的训练速度。在Lab颜色空间对彩色图像进行重建,避免由于颜色通道相关性造成的重建图像质量下降。与传统方法相比,该算法重建图像质量和计算效率更优。相似文献

11.

压缩感知分组分离语音增强 总被引：1，自引：0，他引：1

宁矿凤王景芳《计算机工程与应用》2014,50(24):204-208

压缩感知（Compressive Sensing,CS）是一种基于信号稀疏性的采样方法,可以有效提取信号中所包含的信息。提出了一种分组分离压缩感知语音增强新算法。算法利用语音在离散快速傅里叶变换（Fast Fourier Transform,FFT）域下的稀疏性,设计复域观测矩阵与软阈值对带噪语音进行压缩测量与去噪,通过可分组分离逼近稀疏重建（Sparse Reconstruction by Separable Approximation,SpaRSA）算法恢复语音信号,实现语音增强。实验表明：该算法对含噪信号压缩重构,信噪比幅度较大提高,能更有效地抑制背景噪声。相似文献

12.

基于感知掩蔽深度神经网络的单通道语音增强方法 总被引：1，自引：0，他引：1

韩伟张雄伟闵刚张启业《自动化学报》2017,43(2):248-258

本文将心理声学掩蔽特性应用于基于深度神经网络（Deep neural network,DNN）的单通道语音增强任务中,提出了一种具有感知掩蔽特性的DNN结构.首先,提出的DNN对带噪语音幅度谱特征进行训练并分别得到纯净语音和噪声的幅度谱估计.其次,利用估计的纯净语音幅度谱计算噪声掩蔽阈值.然后,将噪声掩蔽阈值和估计的噪声幅度谱联合计算得到一个感知增益函数.最后,利用感知增益函数从带噪语音幅度谱中估计出增强语音幅度谱.在TIMIT数据库上,对不同信噪比下的20种噪声进行的仿真实验表明,无论噪声类型是否在语音的训练集中出现,所提出的感知掩蔽DNN都能够在有效去除噪声的同时保持较小的语音失真,增强效果明显优于常见的DNN增强方法以及NMF（Nonnegative matrix factorization）增强方法. 相似文献

13.

双层非负矩阵分解的分形图像压缩算法

下载免费PDF全文

方美东王辉张爱华《计算机工程与应用》2022,58(8):204-213

分形图像压缩作为一种基于结构的图像压缩技术,在许多图像处理中得到了应用.但是分形图像压缩的编码阶段非常耗时,且重建图像的质量效果不佳.针对这些问题,提出了一种基于双层非负矩阵分解的分形图像压缩编码算法.在传统的非负矩阵分解理论上,将投影非负矩阵分解与L3/2范数约束相结合,可以在较短的时间内提取具有代表性的图像特征.算... 相似文献

14.

SVD based initialization: A head start for nonnegative matrix factorization

C. Boutsidis E. Gallopoulos 《Pattern recognition》2008,41(4):1350-1362

We describe Nonnegative Double Singular Value Decomposition (NNDSVD), a new method designed to enhance the initialization stage of nonnegative matrix factorization (NMF). NNDSVD can readily be combined with existing NMF algorithms. The basic algorithm contains no randomization and is based on two SVD processes, one approximating the data matrix, the other approximating positive sections of the resulting partial SVD factors utilizing an algebraic property of unit rank matrices. Simple practical variants for NMF with dense factors are described. NNDSVD is also well suited to initialize NMF algorithms with sparse factors. Many numerical examples suggest that NNDSVD leads to rapid reduction of the approximation error of many NMF algorithms. 相似文献

15.

Sparse representation for robust abnormality detection in crowded scenes

Xiaobin Zhu Jing Liu Jinqiao Wang Changsheng Li Hanqing Lu 《Pattern recognition》2014

In crowded scenes, the extracted low-level features, such as optical flow or spatio-temporal interest point, are inevitably noisy and uncertainty. In this paper, we propose a fully unsupervised non-negative sparse coding based approach for abnormality event detection in crowded scenes, which is specifically tailored to cope with feature noisy and uncertainty. The abnormality of query sample is decided by the sparse reconstruction cost from an atomically learned event dictionary, which forms a sparse coding bases. In our algorithm, we formulate the task of dictionary learning as a non-negative matrix factorization (NMF) problem with a sparsity constraint. We take the robust Earth Mover's Distance (EMD), instead of traditional Euclidean distance, as distance metric reconstruction cost function. To reduce the computation complexity of EMD, an approximate EMD, namely wavelet EMD, is introduced and well combined into our approach, without losing performance. In addition, the combination of wavelet EMD with our approach guarantees the convexity of optimization in dictionary learning. To handle both local abnormality detection (LAD) and global abnormality detection, we adopt two different types of spatio-temporal basis. Experiments conducted on four public available datasets demonstrate the promising performance of our work against the state-of-the-art methods. 相似文献

16.

Audio enhancement using local SNR-based sparse binary mask estimation and spectral imputation

《Digital Signal Processing》2017

This paper proposes a method for enhancing speech and/or audio quality under noisy conditions. The proposed method first estimates the local signal-to-noise ratio (SNR) of the noisy input signal via sparse non-negative matrix factorization (SNMF). Next, a sparse binary mask (SBM) is proposed that separates the audio signal from the noise by measuring the sparsity of the pool of local SNRs from the adjacent frequency bands of the current and several previous frames. However, some spectral gaps remain across frequency bands after applying the binary masks, which distorts the separated audio signal due to spectral discontinuity. Thus, a spectral imputation technique is used to fill the empty spectrum of the frequency band where it is removed by the SBM. Spectral imputation is conducted by online learning NMF with the spectra of the neighboring non-overlapped frequency bands and their local sparsity. The effectiveness of the proposed enhancement method is demonstrated on two different tasks use speech and musical content, respectively. Consequently, objective measurements and subjective listening tests show that the proposed method outperforms conventional speech and audio enhancement methods, such as SNMF-based alternatives and deep recurrent neural networks for speech enhancement, block thresholding, and a commercially available software tool for audio enhancement. 相似文献