首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于DNN的低资源语音识别特征提取技术   总被引:1,自引:0,他引:1  
秦楚雄  张连海 《自动化学报》2017,43(7):1208-1219
针对低资源训练数据条件下深层神经网络(Deep neural network,DNN)特征声学建模性能急剧下降的问题,提出两种适合于低资源语音识别的深层神经网络特征提取方法.首先基于隐含层共享训练的网络结构,借助资源较为丰富的语料实现对深层瓶颈神经网络的辅助训练,针对BN层位于共享层的特点,引入Dropout,Maxout,Rectified linear units等技术改善多流训练样本分布不规律导致的过拟合问题,同时缩小网络参数规模、降低训练耗时;其次为了改善深层神经网络特征提取方法,提出一种基于凸非负矩阵分解(Convex-non-negative matrix factorization,CNMF)算法的低维高层特征提取技术,通过对网络的权值矩阵分解得到基矩阵作为特征层的权值矩阵,然后从该层提取一种新的低维特征.基于Vystadial 2013的1小时低资源捷克语训练语料的实验表明,在26.7小时的英语语料辅助训练下,当使用Dropout和Rectified linear units时,识别率相对基线系统提升7.0%;当使用Dropout和Maxout时,识别率相对基线系统提升了12.6%,且网络参数数量相对其他系统降低了62.7%,训练时间降低了25%.而基于矩阵分解的低维特征在单语言训练和辅助训练的两种情况下都取得了优于瓶颈特征(Bottleneck features,BNF)的识别率,且在辅助训练的情况下优于深层神经网络隐马尔科夫识别系统,提升幅度从0.8%~3.4%不等.  相似文献   

2.
为了在语音转换过程中充分考虑语音的帧间相关性,提出了一种基于卷积非负矩阵分解的语音转换方法.卷积非负矩阵分解得到的时频基可较好地保存语音信号中的个人特征信息及帧间相关性.利用这一特性,在训练阶段,通过卷积非负矩阵分解从训练数据中提取源说话人和目标说话人相匹配的时频基.在转换阶段,通过时频基替换实现对源说话人语音的转换.相对于传统方法,本方法能够更好地保存和转换语音帧间相关性.实验仿真及主、客观评价结果表明,与基于高斯混合模型、状态空间模型的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度.  相似文献   

3.
针对非负矩阵分解稀疏性不够,通过引入平滑矩阵调节字典矩阵和系数矩阵的稀疏性,提出基于非平滑非负矩阵分解语音增强算法。算法通过语音和噪声的先验字典学习构造联合字典矩阵;然后通过非平滑非负矩阵分解更新带噪语音在联合字典矩阵下的投影系数实现语音增强;同时通过滑动窗口法实时更新先验噪声字典。仿真结果表明,该算法相对非负矩阵分解语音增强算法和MMSE算法具有更好的抑制噪声能力。  相似文献   

4.
低信噪比非稳态噪声环境中的语音增强仍是一个开放且具有挑战性的任务. 为了提高传统的基于非负矩阵分解(nonnegative matrix factorization, NMF)的语音增强算法性能, 同时考虑到语音信号的时频稀疏特性和非稳态噪声信号的低秩特性, 本文提出了一种基于多重约束的非负矩阵分解语音增强算法(multi-constraint nonnegative matrix factorization speech enhancement, MC–NMFSE). 在训练阶段, 采用干净语音训练数据集和噪声训练数据集分别构建语音字典和噪声字典. 在语音增强阶段, 在非负矩阵分解目标函数中增加语音分量的稀疏性约束和噪声信号的低秩性约束条件, MC–NMFSE能够更好地从带噪语音中获得语音分量的表示, 从而提高语音增强效果. 通过实验表明, 在大量不同非平稳噪声条件和不同信噪比条件下, 与传统的基于NMF的语音增强方法相比, MC–NMFSE能获得较低的语音失真和更好的非稳态噪声抑制能力.  相似文献   

5.
非负矩阵部分联合分解(Nonnegative matrix partial co-factorization, NMPCF)将指定源频谱作为边信息参与混合信号频谱的联合分解, 以帮助确定指定源的基向量进而提高信号分离性能.卷积非负矩阵分解(Convolutive nonnegative matrix factorization, CNMF)采用卷积基分解的方法进行矩阵分解, 在单声道语音分离方面取得较好的效果.为了实现强噪声条件下的语音分离, 本文结合以上两种算法的优势, 提出一种基于卷积非负矩阵部分联合分解(Convolutive nonnegative partial matrix co-factorization, CNMPCF)的单声道语音分离算法.本算法首先通过基音检测算法得到混合信号的语音起始点, 再据此确定混合信号中的纯噪声段, 最后将混合信号频谱和噪声频谱进行卷积非负矩阵部分联合分解, 得到语音基矩阵, 进而得到分离的语音频谱和时域信号.实验中, 混合语音信噪比(Signal noise ratio, SNR)选择以-3 dB为间隔从0 dB至-12 dB共5种SNR.实验结果表明, 在不同噪声类型和噪声强度条件下, 本文提出的CNMPCF方法相比于以上两种方法均有不同程度的提高.  相似文献   

6.
针对基于非负矩阵分解(non-negative matrix factorization, NMF)的语音增强方法在低信噪比部分和无结构特征的清音部分会引入失真这一问题,利用语音信号在时频域呈现的稀疏特性和深度神经网络在语音增强应用中表现出的谱重构特性,提出了一种联合稀疏非负矩阵分解和深度神经网络的单通道语音增强方法.首先对带噪语音的幅度谱进行非负矩阵分解得到与语音字典和噪声字典相对应的稀疏编码矩阵,其中语音字典和噪声字典通过对纯净语音和噪声进行训练预先得到,以维纳滤波方法恢复出语音成分的主要结构;然后利用深度神经网络在语音增强中表现出的时频保持特性,通过深层网络学习经维纳滤波分离出的语音的对数幅度谱和理想纯净语音对数幅度谱之间的非线性映射函数,进而恢复出语音结构的缺失成分.实验结果表明:所提方法可以有效抑制噪声且较好地恢复出语音成分,在语音感知质量和对数谱失真性能评价指标上均优于基线方法.  相似文献   

7.
利用欧几里得距离衡量非负矩阵非负满秩分解的近似度,将其转化为最小二乘法求最优问题。并用VC6.0与Lingo对算法进行程序实现,可以为非负矩阵分解应用研究提供一些参考。  相似文献   

8.
非负矩阵分解算法可以作为一种新型的特征抽取方法。将非负矩阵分解算法和现有的其它三种现有的特征抽取算法进行详细比较:奇异值分解方法和非负矩阵分解方法本质上是不同的两种特征抽取方法,非负特性使得由非负矩阵分解比奇异值分解方法更接近人们的认知习惯。基于聚类的特征提取方法是一种简化了的非负矩阵分解算法;基于概率的特征提取方法等价于非负矩阵分解在特定约束条件下的变体。通过比较充分体现了非负矩阵分解算法的非负性和局部性特点。  相似文献   

9.
提出一种基于交替方向乘子法的(Alternating Direction Method of Multipliers,ADMM)稀疏非负矩阵分解语音增强算法,该算法既能克服经典非负矩阵分解(Nonnegative Matrix Factorization,NMF)语音增强算法存在收敛速度慢、易陷入局部最优等问题,也能发挥ADMM分解矩阵具有的强稀疏性。算法分为训练和增强两个阶段:训练时,采用基于ADMM非负矩阵分解算法对噪声频谱进行训练,提取噪声字典,保存其作为增强阶段的先验信息;增强时,通过稀疏非负矩阵分解算法,从带噪语音频谱中对语音字典和语音编码进行估计,重构原始干净的语音,实现语音增强。实验表明,该算法速度更快,增强后语音的失真更小,尤其在瞬时噪声环境下效果显著。  相似文献   

10.
11.
为提高手背静脉识别过程中特征的有效性,提出了一种基于改进非负矩阵分解(NMF)的识别算法.首先,静脉图像经过分块后,将每一块子图像的像素均值与平均梯度幅值作为图像原始特征;其次,将所有训练样本原始特征形成的特征矩阵进行非负矩阵分解,其中对分解后的系数向量加以稀疏性与可区分性约束,从而形成改进的非负矩阵分解模型;再次,基于梯度投影法对提出的非负矩阵分解模型进行求解,获取新的特征基与特征向量;最后,利用最近邻匹配算法对特征向量进行分类,实现身份的识别.实验结果表明,提出的识别算法可获得较高的识别率,处理过程具有较好实时性.  相似文献   

12.
人脸识别是生物特征识别中一个活跃的研究领域。非负张量分解作为非负矩阵分解的多线性推广,已被成功应用到人脸识别等领域。提出了基于非负张量分解的人脸识别算法。该方法无需将人脸矩阵向量化,从而保持了人脸矩阵的内部结构,即人脸图像的整体结构,使人脸特征提取更精确。 实验结果表明, 与经典的人脸识别算法如PCA和NMF相比,该算法提供了一种更好的脸部表示模式,提高了人脸识别的正确率。  相似文献   

13.
高宏娟  潘晨 《微机发展》2007,17(11):63-66
非负矩阵分解方法是基于局部特征的特征提取方法,已经成功用于人脸识别。研究基于非负矩阵分解的人脸图像识别的改进算法是一个有重要意义的研究课题。采用二维非负矩阵分解方法(2DNMF)和对角非负矩阵分解方法(Di-aNMF),并且使用正交的基矩阵进行Matlab实验。实验结果表明,以上改进措施能够有效提高人脸图像识别的正确率。  相似文献   

14.
非负矩阵分解方法是基于局部特征的特征提取方法,已经成功用于人脸识别。研究基于非负矩阵分解的人脸图像识别的改进算法是一个有重要意义的研究课题。采用二维非负矩阵分解方法(2DNMF)和对角非负矩阵分解方法(DiaNMF),并且使用正交的基矩阵进行Matlab实验。实验结果表明,以上改进措施能够有效提高人脸图像识别的正确率。  相似文献   

15.
异构信息网络中包含多类实体和关系.随着数据规模增大时,不同类实体规模增长不平衡,异构关系数据也变得异常稀疏,导致聚类算法的时间复杂度高、准确率低.针对上述问题,提出了一种基于关联矩阵分解的2阶段联合聚类算法FNMTF-CM.第1阶段,抽取规模较小的一类实体中的关联关系构建关联矩阵,通过对称非负矩阵分解得到划分指示矩阵.与原始关系矩阵相比,关联矩阵的稠密度更高,规模更小.第2阶段,将划分指示矩阵作为关系矩阵三分解的输入,进而快速求解另一类实体的划分指示矩阵.在标准测试数据集和异构关系数据集上的实验表明,算法准确率和性能整体优于传统的基于非负矩阵分解的联合聚类算法.  相似文献   

16.
针对投影非负矩阵分解(PNMF)不能揭示数据流形几何结构和判别信息的问题,提出了一种图嵌入投影非负矩阵分解(GEPNMF)特征提取方法。首先分别构建了描述数据流形几何结构和类间分离度的近邻图,然后采用它们的拉普拉斯矩阵设计了一个图嵌入正则项,并将其与PNMF的目标函数融合,以构造GEPNMF的目标函数。在GEPNMF目标函数中引入了图嵌入正则项,使求得的子空间能够在保持数据流形几何结构的同时,类间间距也最大。另外,还在目标函数中引入了一个正交正则项,以确保GEPNMF子空间基向量具有数据局部表示能力。对求解GEPNMF目标函数的累乘更新规则(MUR)进行了详细的推导。在Yale和CMU PIE人脸数据库上的实验结果表明,提出的图嵌入投影非负矩阵分解特征提取方法比PNMF更适用于解决分类问题。  相似文献   

17.
为了解决语音识别中深层神经网络的说话人与环境自适应问题,本文从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案:首先基于高斯混合模型,建立说话人-环境联合补偿模型,对说话人与环境参数进行估计,将此参数作为长时特征;然后,将估计出来长时特征与短时特征一起送入深层神经网络,进行训练。Aurora4实验表明,这一方案可以有效地对说话人与环境因素进行分解,并提升自适应效果。  相似文献   

18.
提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经网络的输入,通过网络模型来学习语音信号的更深层次的声学特征,实现端到端的语音分离.客观评价实验说明,本文提出的分离算法不仅有效地提升了语音分离的性能,也减少了语音分离算法的时间延迟.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号