首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
基于感知掩蔽深度神经网络的单通道语音增强方法   总被引:1,自引:0,他引:1  
本文将心理声学掩蔽特性应用于基于深度神经网络(Deep neural network,DNN)的单通道语音增强任务中,提出了一种具有感知掩蔽特性的DNN结构.首先,提出的DNN对带噪语音幅度谱特征进行训练并分别得到纯净语音和噪声的幅度谱估计.其次,利用估计的纯净语音幅度谱计算噪声掩蔽阈值.然后,将噪声掩蔽阈值和估计的噪声幅度谱联合计算得到一个感知增益函数.最后,利用感知增益函数从带噪语音幅度谱中估计出增强语音幅度谱.在TIMIT数据库上,对不同信噪比下的20种噪声进行的仿真实验表明,无论噪声类型是否在语音的训练集中出现,所提出的感知掩蔽DNN都能够在有效去除噪声的同时保持较小的语音失真,增强效果明显优于常见的DNN增强方法以及NMF(Nonnegative matrix factorization)增强方法.  相似文献   

2.
深度神经网络(Deep neural networks,DNNs)依靠其良好的特征提取能力,在语音增强任务中得到了广泛应用。为进一步提高深度神经网络的语音增强效果,提出一种将深度神经网络和约束维纳滤波联合训练优化的新型网络结构。该网络首先对带噪语音幅度谱进行训练并分别得到纯净语音和噪声的幅度谱估计,然后利用语音和噪声的幅度谱估计计算得到一个约束维纳增益函数,最后利用约束维纳增益函数从带噪语音幅度谱中估计出增强语音幅度谱作为网络的训练输出。对不同信噪比下的20种噪声进行的仿真实验表明,无论噪声类型是否在网络的训练集中出现,本文方法都能够在有效去除噪声的同时保持较小的语音失真,增强效果明显优于DNN及NMF增强方法。  相似文献   

3.
基于深度神经网络的语音驱动发音器官的运动合成   总被引:1,自引:0,他引:1  
唐郅  侯进 《自动化学报》2016,42(6):923-930
实现一种基于深度神经网络的语音驱动发音器官运动合成的方法,并应用于语音驱动虚拟说话人动画合成. 通过深度神经网络(Deep neural networks, DNN)学习声学特征与发音器官位置信息之间的映射关系,系统根据输入的语音数据估计发音器官的运动轨迹,并将其体现在一个三维虚拟人上面. 首先,在一系列参数下对比人工神经网络(Artificial neural network, ANN)和DNN的实验结果,得到最优网络; 其次,设置不同上下文声学特征长度并调整隐层单元数,获取最佳长度; 最后,选取最优网络结构,由DNN 输出的发音器官运动轨迹信息控制发音器官运动合成,实现虚拟人动画. 实验证明,本文所实现的动画合成方法高效逼真.  相似文献   

4.
一种基于动态量化编码的深度神经网络压缩方法   总被引:1,自引:0,他引:1  
饶川  陈靓影  徐如意  刘乐元 《自动化学报》2019,45(10):1960-1968
近年来深度神经网络(Deep neural network,DNN)从众多机器学习方法中脱颖而出,引起了广泛的兴趣和关注.然而,在主流的深度神经网络模型中,其参数数以百万计,需要消耗大量的计算和存储资源,难以应用于手机等移动嵌入式设备.为了解决这一问题,本文提出了一种基于动态量化编码(Dynamic quantization coding,DQC)的深度神经网络压缩方法.不同于现有的采用静态量化编码(Static quantitative coding,SQC)的方法,本文提出的方法在模型训练过程中同时对量化码本进行更新,使码本尽可能减小较大权重参数量化引起的误差.通过大量的对比实验表明,本文提出的方法优于现有基于静态编码的模型压缩方法.  相似文献   

5.
基于时序图像深度学习的电熔镁炉异常工况诊断   总被引:2,自引:0,他引:2  
超高温电熔镁炉(Fused magnesium furnace,FMF)生产炉况监测困难,易发生欠烧异常工况,不仅造成产品质量下降,也直接危害生产安全与人员安全.现有的人工巡检方式实时性差,容易发生漏报和误报,甚至导致铁制炉壳烧透、烧漏.针对该问题,本文采用视频信号,利用电熔镁炉欠烧工况的时空特征,即在炉壳表面出现的局部不规则高亮区域的空间特征,以及该高亮区域随时间呈现出亮度增强、面积变大的时序特征,提出一种基于卷积循环神经网络(Convolutional recurrent neural network,CRNN)的电熔镁炉异常工况诊断新方法.该方法包括图像序列一致性变换和时序残差图像提取预处理、基于卷积神经网络(Convolutional neural network,CNN)的空间特征提取、基于循环神经网络(Recurrent neural network,RNN)的时序特征提取、基于加权中值滤波的工况自动标记.最后采用实际的电熔镁炉炉壳的视频信号,进行了所提方法与现有的两种深度学习网络模型的实验比较研究,结果说明了所提方法的优越性.  相似文献   

6.
研究将深度神经网络有效地应用到维吾尔语大词汇量连续语音识别声学建模中的两种方法:深度神经网络与隐马尔可夫模型组成混合架构模型(Deep neural network hidden Markov model, DNN-HMM),代替高斯混合模型进行状态输出概率的计算;深度神经网络作为前端的声学特征提取器提取瓶颈特征(Bottleneck features, BN),为传统的GMM-HMM(Gaussian mixture model-HMM)声学建模架构提供更有效的声学特征(BN-GMM-HMM)。实验结果表明,DNN-HMM模型和BN- GMM-HMM模型比GMM-HMM基线模型词错误率分别降低了8.84%和5.86%,两种方法都取得了较大的性能提升。  相似文献   

7.
为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训练阶段,用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility,STOI)与信源失真比(Source to distortion ratio,SDR)融入到训练的损失函数.在与具有代表性的传统方法和端到端的深度学习方法的对比实验中,本文提出的算法在客观评价指标上均取得了最好的增强效果,并且在未知噪声和低信噪比条件下表现出更好的抗噪性.  相似文献   

8.
为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训练阶段,用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility,STOI)与信源失真比(Source to distortion ratio,SDR)融入到训练的损失函数.在与具有代表性的传统方法和端到端的深度学习方法的对比实验中,本文提出的算法在客观评价指标上均取得了最好的增强效果,并且在未知噪声和低信噪比条件下表现出更好的抗噪性.  相似文献   

9.
网络入侵样本数据特征间存在未知的非欧氏空间图结构关系, 深入挖掘并利用该关系可有效提升网络入侵检测方法的检测效能. 对此, 设计一种元图神经网络(Meta graph neural network, MGNN), MGNN能够对样本数据特征内部隐藏的图结构关系进行挖掘与利用, 在应对入侵检测问题时优势明显. 首先, 设计元图网络层(Meta graph network layer, MGNL), 挖掘出样本数据特征内部隐藏的图结构关系, 并利用该关系对样本数据的原始特征进行更新; 然后, 针对MGNN存在的图信息传播过程中父代信息湮灭现象提出反信息湮灭策略, 并设计了注意力损失函数, 简化MGNN中实现注意力机制的运算过程. KDD-NSL、UNSW-NB15、CICDoS2019数据集上的实验表明, 与经典深度学习算法深度神经网络 (Deep neural network, DNN)、卷积神经网络(Convolutional neural network, CNN)、循环神经网络(Recurrent neural network, RNN)、长短期记忆(Long short-term memory, LSTM)和传统机器学习算法支持向量机(Support vector machine, SVM)、决策树(Decision tree, DT)、随机森林(Random forest, RF)、K-最近邻(K-nearest neighbor, KNN)、逻辑回归(Logistic regression, LR)相比, MGNN在准确率、F1值、精确率、召回率评价指标上均具有良好效果.  相似文献   

10.
为解决深层卷积神经网络(Deep convolutional neural network, DCNN)模型在算力弱、存储成本高的AI边缘计算设备上难以高效应用的现实问题,本文利用重量级网络辅助训练轻量级网络,设计了一种基于轻量级神经网络的花卉图像分类系统。首先利用重量级DCNN并结合迁移学习、爬虫技术与最大连通区域分割方法,构建了适用于轻量级网络训练的扩充花卉数据集。然后基于Tiny-darknet与Darknet-reference两种网络及扩充后的花卉数据集训练得到两种面向弱算力设备的轻量级DCNN模型。训练得到的两种花卉分类网络在Oxford102花卉数据集上的平均分类准确率可达98.07%与98.83%,模型大小分别为4 MB与28 MB,在AI边缘计算设备中具有较好的应用前景。  相似文献   

11.
图像分类的深度卷积神经网络模型综述   总被引:3,自引:0,他引:3       下载免费PDF全文
图像分类是计算机视觉中的一项重要任务,传统的图像分类方法具有一定的局限性。随着人工智能技术的发展,深度学习技术越来越成熟,利用深度卷积神经网络对图像进行分类成为研究热点,图像分类的深度卷积神经网络结构越来越多样,其性能远远好于传统的图像分类方法。本文立足于图像分类的深度卷积神经网络模型结构,根据模型发展和模型优化的历程,将深度卷积神经网络分为经典深度卷积神经网络模型、注意力机制深度卷积神经网络模型、轻量级深度卷积神经网络模型和神经网络架构搜索模型等4类,并对各类深度卷积神经网络模型结构的构造方法和特点进行了全面综述,对各类分类模型的性能进行了对比与分析。虽然深度卷积神经网络模型的结构设计越来越精妙,模型优化的方法越来越强大,图像分类准确率在不断刷新的同时,模型的参数量也在逐渐降低,训练和推理速度不断加快。然而深度卷积神经网络模型仍有一定的局限性,本文给出了存在的问题和未来可能的研究方向,即深度卷积神经网络模型主要以有监督学习方式进行图像分类,受到数据集质量和规模的限制,无监督式学习和半监督学习方式的深度卷积神经网络模型将是未来的重点研究方向之一;深度卷积神经网络模型的速度和资源消耗仍不尽人意,应用于移动式设备具有一定的挑战性;模型的优化方法以及衡量模型优劣的度量方法有待深入研究;人工设计深度卷积神经网络结构耗时耗力,神经架构搜索方法将是未来深度卷积神经网络模型设计的发展方向。  相似文献   

12.
深度卷积神经网络的汽车车型识别方法   总被引:1,自引:0,他引:1  
针对现有汽车车型识别方法计算量大、提取特征复杂等问题,提出一种基于深度卷积神经网络的汽车车型识别方法。该方法借助于深度学习,对经典的卷积神经网络做出改进并得到由多个卷积层和次抽样层构成的深度卷积神经网络。根据五种车型的分类结果,表明该方法在识别率方面较传统方法有明显的提高。实验还研究了网络层数、卷积核大小、特征维数对深度卷积神经网络的性能和识别率的影响。  相似文献   

13.
针对基于非负矩阵分解(non-negative matrix factorization, NMF)的语音增强方法在低信噪比部分和无结构特征的清音部分会引入失真这一问题,利用语音信号在时频域呈现的稀疏特性和深度神经网络在语音增强应用中表现出的谱重构特性,提出了一种联合稀疏非负矩阵分解和深度神经网络的单通道语音增强方法.首先对带噪语音的幅度谱进行非负矩阵分解得到与语音字典和噪声字典相对应的稀疏编码矩阵,其中语音字典和噪声字典通过对纯净语音和噪声进行训练预先得到,以维纳滤波方法恢复出语音成分的主要结构;然后利用深度神经网络在语音增强中表现出的时频保持特性,通过深层网络学习经维纳滤波分离出的语音的对数幅度谱和理想纯净语音对数幅度谱之间的非线性映射函数,进而恢复出语音结构的缺失成分.实验结果表明:所提方法可以有效抑制噪声且较好地恢复出语音成分,在语音感知质量和对数谱失真性能评价指标上均优于基线方法.  相似文献   

14.
传统的基于卷积神经网络的车型识别算法存在识别相似车型的准确率不高,以及在网络训练时只能使用图像的灰度图从而丢失了图像的颜色信息等缺陷。对此,提出一种基于深度卷积神经网络(Deep Convolution Neural Network,DCNN)的提取图像特征的方法,运用深度卷积神经网络对背景较复杂的车型进行网络训练,以达到识别车型的目的。文中采用先进的深度学习框架Caffe,基于AlexNet结构提出了深度卷积神经网络的模型,分别对车型的图像进行训练,并与传统CNN算法进行比较。实验结果显示,DCNN网络模型的准确率达到了96.9%,比其他算法的准确率更高。  相似文献   

15.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

16.
针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号