共查询到17条相似文献,搜索用时 46 毫秒
1.
为了在语音转换过程中充分考虑语音的帧间相关性,提出了一种基于卷积非负矩阵分解的语音转换方法.卷积非负矩阵分解得到的时频基可较好地保存语音信号中的个人特征信息及帧间相关性.利用这一特性,在训练阶段,通过卷积非负矩阵分解从训练数据中提取源说话人和目标说话人相匹配的时频基.在转换阶段,通过时频基替换实现对源说话人语音的转换.相对于传统方法,本方法能够更好地保存和转换语音帧间相关性.实验仿真及主、客观评价结果表明,与基于高斯混合模型、状态空间模型的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度. 相似文献
2.
非平稳噪声和低信噪比条件下提高增强语音质量一直以来都是语音增强研究的难题。近年来,卷积非负矩阵分解在语音增强算法中成功应用,本文进一步考虑语音信号在时频域的稀疏性,提出了稀疏卷积非负矩阵分解(Sparse Convolutive Nonnegative Matrix Factorization, SCNMF)的语音增强算法。该算法包括训练和增强两个阶段。训练阶段通过SCNMF算法分别对纯净语音和噪声的频谱进行训练,得到纯净语音和噪声字典,并将其作为增强阶段的先验信息。增强阶段首先通过SCNMF算法对带噪语音的频谱进行分解,然后利用纯净语音和噪声联合字典对语音编码矩阵进行估计,重构增强语音。本文通过实验仿真分析了稀疏因子对增强语音质量的影响。实验结果表明,在非平稳噪声和低信噪比条件下,本文算法增强效果均优于多带谱减、非负矩阵分解、卷积非负矩阵分解等传统的算法。 相似文献
3.
低信噪比非稳态噪声环境中的语音增强仍是一个开放且具有挑战性的任务. 为了提高传统的基于非负矩阵分解(nonnegative matrix factorization, NMF)的语音增强算法性能, 同时考虑到语音信号的时频稀疏特性和非稳态噪声信号的低秩特性, 本文提出了一种基于多重约束的非负矩阵分解语音增强算法(multi-constraint nonnegative matrix factorization speech enhancement, MC–NMFSE). 在训练阶段, 采用干净语音训练数据集和噪声训练数据集分别构建语音字典和噪声字典. 在语音增强阶段, 在非负矩阵分解目标函数中增加语音分量的稀疏性约束和噪声信号的低秩性约束条件, MC–NMFSE能够更好地从带噪语音中获得语音分量的表示, 从而提高语音增强效果. 通过实验表明, 在大量不同非平稳噪声条件和不同信噪比条件下, 与传统的基于NMF的语音增强方法相比, MC–NMFSE能获得较低的语音失真和更好的非稳态噪声抑制能力. 相似文献
4.
针对非负矩阵分解稀疏性不够,通过引入平滑矩阵调节字典矩阵和系数矩阵的稀疏性,提出基于非平滑非负矩阵分解语音增强算法。算法通过语音和噪声的先验字典学习构造联合字典矩阵;然后通过非平滑非负矩阵分解更新带噪语音在联合字典矩阵下的投影系数实现语音增强;同时通过滑动窗口法实时更新先验噪声字典。仿真结果表明,该算法相对非负矩阵分解语音增强算法和MMSE算法具有更好的抑制噪声能力。 相似文献
5.
对于非负矩阵分解的语音增强算法在不同环境噪声的鲁棒性问题,提出一种稀疏正则非负矩阵分解(SRNMF)的语音增强算法。该算法不仅考虑到数据处理时的噪声影响,而且对系数矩阵进行了稀疏约束,使其分解出的数据具有较好的语音特征。该算法首先在对语音和噪声的幅度谱先验字典矩阵学习的基础上,构建联合字典矩阵,然后更新带噪语音幅度谱在联合字典矩阵下的系数矩阵,最后重构原始纯净语音,实现语音增强。实验结果表明,在非平稳噪声和低信噪比(小于0 dB)条件下,该算法较好地削弱了噪声的变化对算法性能的影响,不仅有较高的信源失真率(SDR),提高了1~1.5个数量级,而且运算速度也有一定程度的提高,使得基于非负矩阵分解的语音增强算法更实用。 相似文献
6.
作为一种基于深层神经网络提取的低维特征,瓶颈特征在连续语音识别中取得了很大的成功。然而训练瓶颈结构的深层神经网络时,瓶颈层的存在会降低网络输出层的帧准确率,进而反过来影响该特征的性能。针对这一问题,本文基于非负矩阵分解算法,提出一种利用不包含瓶颈层的深层神经网络提取低维特征的方法。该方法利用半非负矩阵分解和凸非负矩阵分解算法对隐含层权值矩阵分解得到基矩阵,将其作为新的特征层权值矩阵,然后在该层不设置偏移向量的情况下,通过数据前向传播提取新型特征。实验表明,该特征具有较为稳定的规律,且适用于不同的识别任务和网络结构。当使用训练数据充足的语料进行实验时,该特征表现出同瓶颈特征几乎相同的识别性能;而在低资源环境下,基于该特征识别系统的识别率明显优于深层神经网络混合识别系统和瓶颈特征识别系统。 相似文献
7.
提出一种基于交替方向乘子法的(Alternating Direction Method of Multipliers;ADMM)稀疏非负矩阵分解语音增强算法;该算法既能克服经典非负矩阵分解(Nonnegative Matrix Factorization;NMF)语音增强算法存在收敛速度慢、易陷入局部最优等问题;也能发挥ADMM分解矩阵具有的强稀疏性。算法分为训练和增强两个阶段:训练时;采用基于ADMM非负矩阵分解算法对噪声频谱进行训练;提取噪声字典;保存其作为增强阶段的先验信息;增强时;通过稀疏非负矩阵分解算法;从带噪语音频谱中对语音字典和语音编码进行估计;重构原始干净的语音;实现语音增强。实验表明;该算法速度更快;增强后语音的失真更小;尤其在瞬时噪声环境下效果显著。 相似文献
8.
针对基于非负矩阵分解(non-negative matrix factorization, NMF)的语音增强方法在低信噪比部分和无结构特征的清音部分会引入失真这一问题,利用语音信号在时频域呈现的稀疏特性和深度神经网络在语音增强应用中表现出的谱重构特性,提出了一种联合稀疏非负矩阵分解和深度神经网络的单通道语音增强方法.首先对带噪语音的幅度谱进行非负矩阵分解得到与语音字典和噪声字典相对应的稀疏编码矩阵,其中语音字典和噪声字典通过对纯净语音和噪声进行训练预先得到,以维纳滤波方法恢复出语音成分的主要结构;然后利用深度神经网络在语音增强中表现出的时频保持特性,通过深层网络学习经维纳滤波分离出的语音的对数幅度谱和理想纯净语音对数幅度谱之间的非线性映射函数,进而恢复出语音结构的缺失成分.实验结果表明:所提方法可以有效抑制噪声且较好地恢复出语音成分,在语音感知质量和对数谱失真性能评价指标上均优于基线方法. 相似文献
9.
利用欧几里得距离衡量非负矩阵非负满秩分解的近似度,将其转化为最小二乘法求最优问题。并用VC6.0与Lingo对算法进行程序实现,可以为非负矩阵分解应用研究提供一些参考。 相似文献
10.
针对非负矩阵分解(NMF)语音增强算法在低信噪比(SNR)非稳定环境下存在噪声残留的问题,提出一种基于感知掩蔽的重构NMF(PM-RNMF)单通道语音增强算法。首先,将心理声学掩蔽特性应用于NMF语音增强算法中;其次,对不同频率位采用不同的掩蔽阈值,建立自适应感知掩蔽增益函数,通过阈值约束残余噪声能量和语音失真能量;最后,结合语音存在概率(SPP)进行感知增益修正,重构NMF算法,以此建立新的目标函数。仿真结果表明,在不同SNR的3种非稳定噪声环境下,与NMF、重构NMF(RNMF)、感知掩蔽深度神经网络(PM-DNN)算法相比,PM-RNMF算法的感知语音质量评估(PESQ)平均值分别提高了0.767、0.474、0.162,信源失真比(SDR)平均值分别提高了2.785、1.197、0.948。实验结果表明,无论是在低频还是高频PM-RNMF有更好的降噪效果。 相似文献
11.
针对低资源训练数据条件下深层神经网络(Deep neural network,DNN)特征声学建模性能急剧下降的问题,提出两种适合于低资源语音识别的深层神经网络特征提取方法.首先基于隐含层共享训练的网络结构,借助资源较为丰富的语料实现对深层瓶颈神经网络的辅助训练,针对BN层位于共享层的特点,引入Dropout,Maxout,Rectified linear units等技术改善多流训练样本分布不规律导致的过拟合问题,同时缩小网络参数规模、降低训练耗时;其次为了改善深层神经网络特征提取方法,提出一种基于凸非负矩阵分解(Convex-non-negative matrix factorization,CNMF)算法的低维高层特征提取技术,通过对网络的权值矩阵分解得到基矩阵作为特征层的权值矩阵,然后从该层提取一种新的低维特征.基于Vystadial 2013的1小时低资源捷克语训练语料的实验表明,在26.7小时的英语语料辅助训练下,当使用Dropout和Rectified linear units时,识别率相对基线系统提升7.0%;当使用Dropout和Maxout时,识别率相对基线系统提升了12.6%,且网络参数数量相对其他系统降低了62.7%,训练时间降低了25%.而基于矩阵分解的低维特征在单语言训练和辅助训练的两种情况下都取得了优于瓶颈特征(Bottleneck features,BNF)的识别率,且在辅助训练的情况下优于深层神经网络隐马尔科夫识别系统,提升幅度从0.8%~3.4%不等. 相似文献
12.
卷积混叠环境下的盲源分离(Blind source separation, BSS)是一个极具挑战性和实际意义的问题. 本文在独立分量分析框架下, 建立非负矩阵分解(Nonnegative matrix factorization, NMF)模型, 设计新的优化目标函数, 通过严格的数学理论推导, 得到新的模型参数更新规则; 并对解混叠矩阵进行标准化处理, 避免幅度歧义性问题; 在源信号的重构阶段, 通过实时更新非负矩阵分解模型参数, 避免源信号的排序歧义性问题. 实验结果验证了所提算法在分离中英文语音混叠信号、音乐混叠信号时的有效性和优越性. 相似文献
13.
Nonnegative matrix factorization (NMF) algorithms have been utilized in a wide range of real applications; however, the performance of NMF is highly dependent on three factors including: (1) choosing a problem dependent cost function; (2) using an effective initialization method to start the updating procedure from a near‐optimal point; and (3) determining the rank of factorized matrices prior to decomposition. Due to the nonconvex nature of the NMF cost function, finding an analytical‐based optimal solution is impossible. This paper is aimed at proposing an efficient initialization method to modify the NMF performance. To widely explore the search space for initializing the factorized matrices in NMF, the island genetic algorithm (IGA) is employed as a diverse multiagent search scheme. To adapt IGA for NMF initialization, we present a specific mutation operator. To assess how the proposed IGA initialization method efficiently enhances NMF performance, we have implemented state‐of‐the‐art initialization methods and applied to the Japanese Female Facial Expression dataset to recognize the facial expression states. Experimental results demonstrate the superiority of the proposed approach to the compared methods in terms of relative error and fast convergence. 相似文献
14.
针对传统红外与可见光图像融合算法中存在的细节信息不够丰富, 边缘信息保留不够充分等问题, 文中提出了一种基于四阶偏微分方程(Fourth-order partial differential equation, FPDE)的改进的图像融合算法.算法首先采用FPDE将已配准的红外与可见光图像进行分解, 得到高频分量和低频分量; 然后, 对高频分量采用基于主成分分析(Principal component analysis, PCA)的融合规则来得到细节图像, 对低频分量采用基于期望值最大(Expectation maximization, EM)的融合规则来得到近似图像; 最后, 通过组合最终的高频分量和低频分量来重构得到最终的融合结果.实验是建立在标准的融合数据集上进行的, 并与传统的和最近的融合方法进行比较, 结果证明所提方法得到的融合图像比现有的融合方法能有效地综合红外与可见光图像中的重要信息, 有更好的视觉效果. 相似文献
15.
面向孤独症儿童脑功能状态评估问题, 提出一种多重多尺度熵脑电特征提取算法.算法针对传统多尺度熵信息丢失问题, 在移动均值粗粒化基础上, 采用延搁取值法构建多个尺度上的多重脑电信号序列, 再进一步计算各个尺度的样本熵.算法不仅克服了传统多尺度熵的信息丢失问题, 还能充分挖掘脑电信号的细节信息, 同时减小了尺度间的波动.基于该算法分析了16名孤独症儿童和16名正常儿童的19个通道的脑电信号.结果表明:正常儿童F7、F8、T4、P3通道的多重多尺度熵和复杂度均高于孤独症儿童, 且存在显著性差异(P < 0.05).表明前颞叶(F7、F8)可以作为孤独症儿童脑功能状态评估的敏感脑区, T4、P3可以作为辅助干预的敏感通道. 相似文献
16.
17.
对称非负矩阵分解SNMF作为一种基于图的聚类算法,能够更自然地捕获图表示中嵌入的聚类结构,并且在线性和非线性流形上获得更好的聚类结果,但对变量的初始化比较敏感。另外,标准的SNMF算法利用误差平方和来衡量分解的质量,对噪声和异常值敏感。为了解决这些问题,在集成学习视角下,提出一种鲁棒自适应对称非负矩阵分解聚类算法RS3NMF(robust self-adaptived symmetric nonnegative matrix factorization)。基于L2,1范数的RS3NMF模型缓解了噪声和异常值的影响,保持了特征旋转不变性,提高了模型的鲁棒性。同时,在不借助任何附加信息的前提下,利用SNMF对初始化特征的敏感性来逐步增强聚类性能。采用交替迭代方法优化,并保证目标函数值的收敛性。大量实验结果表明,所提RS3NMF算法优于其他先进的算法,具有较强的鲁棒性。 相似文献