首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 437 毫秒
1.
黄伟  戴蓓蒨  李辉 《电子与信息学报》2004,26(10):1607-1612
该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。  相似文献   

2.
大部分的语音分离系统仅仅增强混合的幅值谱(短时傅里叶变换的系数),但是对于相位谱却不做任何处理。然而,最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息,本文提出了一种有效的端到端分离方法。这种方法是直接利用原始语音波行点作为特征,是一种基于编解码器的卷积神经网络结构。跟其他的说话人独立的语音分离系统不同,本文提出的方法其神经网络只输出一个说话人的信号,其他的语音可以由混合语音与网络输出信号的差值获得。我们在TIMIT数据集上验证本文提出的方法。实验结果表明,本文提出的方法明显优于句子级别的排列不变性训练(uPIT)基线方法,对于信号失真比(SDR)相对提高了16.06%。   相似文献   

3.
刘亚荣  黄昕哲  谢晓兰  刘鑫 《信号处理》2020,36(6):1020-1028
通过对复杂环境下声音识别技术进行研究,本文提出了美尔谱系数(MFSC)与卷积神经网络(CNN)相组合的环境声音识别方法。对声音事件提取其MFSC特征,将特征参数作为输入送入设计好的CNN模型中对声音事件进行分类。实验数据集采用ESC-10,将构建的卷积神经网络模型与随机森林、支持向量机(SVM)、深度神经网络(DNN)及DCASE比赛中常用的三种识别模型进行对比实验。实验结果表明,在相同数据集下,本文所设计的美尔谱系数与卷积神经网络相组合的环境声音识别方法相较传统的声音识别方法在识别率上分别有13.1%,18.3%,15.7%的提升,相较于DCASE比赛中的三种常用识别模型,本文所设计识别模型识别率及识别效率均有明显的优势。   相似文献   

4.
为高效地利用红外降雨图进行雨量强度分类,提出了一个融合编码与解码卷积特征的雨量强度识别模型。引入编码与解码卷积于深度卷积神经网络分类模型中,在减少局部信息丢失的同时提取深层次的雨纹信息特征。于编码、解码卷积模块中考虑多尺度感受野卷积,融合不同范围的局部特征,同时在解码时融合相同尺度的编码与解码卷积特征图,提高特征利用率,从而构建一种融合编码与解码卷积特征的雨量强度识别模型。所提模型的分类精度优于主流卷积神经网络框架,分类正确率最高达到了91.7%,且消融实验结果验证了编码与解码模块的有效性。  相似文献   

5.
张因国  陶于祥  罗小波  刘明皓 《红外技术》2020,42(12):1185-1191
为了减少高光谱图像中的冗余以及进一步挖掘潜在的分类信息,本文提出了一种基于特征重要性的卷积神经网络(convolutional neural networks,CNN)分类模型。首先,利用贝叶斯优化训练得到的随机森林模型(random forest,RF)对高光谱遥感图像进行特征重要性评估;其次,依据评估结果选择合适数目的高光谱图像波段,以作为新的训练样本;最后,利用三维卷积神经网络对所得样本进行特征提取并分类。基于两个实测的高光谱遥感图像数据,实验结果均表明:相比原始光谱信息直接采用支持向量机(support vector machine,SVM)和卷积神经网络的分类效果,本文所提基于特征重要性的高光谱分类模型能够在降维的同时有效提高高光谱图像的分类精度。  相似文献   

6.
低语(Whisper Speech)是指凑近别人耳朵小声说话,即私下里轻微的说话声。低语是一种常见的发音方式,由于发音方式比较特殊,其与正常语音在特征方面有较大差异。目前,区分低语和正常语音多数是借助于各类软件对某些声学特征进行直接观测,比如常见的频谱图等,而对于二者的分类模型研究较少,且没有一个公开的汉语低语语料库。为此,首先创建一个汉语低语语料库;其次,建立一种鲁棒的低语与正常语音的分类系统,提出一种基于卷积神经网络(CNN)的特征融合方法,该方法将光谱平坦度(Spectral Flatness)和语音均方根(Root Mean Square,RMS)相结合。实验结果表明,所提出的特征融合方法能够提高低语与正常语音分类系统的性能,与基线模型相比,准确率提高21.67%。  相似文献   

7.
为了提高单通道语音分离性能,该文提出基于深度学习特征融合和联合约束的单通道语音分离方法。传统基于深度学习的分离算法的损失函数只考虑了预测值和真实值的误差,这使得分离后的语音与纯净语音之间误差较大。该文提出一种新的联合约束损失函数,该损失函数不仅约束了理想比值掩蔽的预测值和真实值的误差,还惩罚了相应幅度谱的误差。另外,为了充分利用多种特征的互补性,提出一种含特征融合层的卷积神经网络(CNN)结构。利用该CNN提取多通道输入特征的深度特征,并在融合层中将深度特征与声学特征融合用来训练分离模型。由于融合构成的特征含有丰富的语音信息,具有强的语音信号表征能力,使得分离模型预测的掩蔽更加准确。实验结果表明,从信号失真比(SDR) 、主观语音质量评估( PESQ)和短时客观可懂度(STOI)3个方面评价,相比其他优秀的基于深度学习的语音分离方法,该方法能够更有效地分离目标语音。  相似文献   

8.
殷云华  李会方 《红外与激光工程》2018,47(2):203008-0203008(8)
有效学习丰富的表征信息在RGB-D目标识别任务中至关重要,是实现高泛化性能的关键。针对卷积神经网络训练时间长的问题,提出了一种混合卷积自编码极限学习机(HCAE-ELM)结构,包括卷积神经网络(CNN)和自编码极限学习机(AE-ELM),该结构合并了CNN的有效性和AE-ELM快速性的优点。它使用卷积层和池化层分别从RGB和深度图来有效提取低阶特征,然后在共享层合并两种模型特征,输入到自编码极限学习机中以得到高层次的特征,最终的特征使用极限学习机(ELM)进行分类,以获得更好的快速泛化能力。文中在标准的RGB-D数据集上进行了评估测试,其实验结果表明,相比较深度学习和其他的ELM方法,文中的混合卷积自编码极限学习机模型取得了良好的测试准确率,并且有效地缩减了训练时间。  相似文献   

9.
目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec预训练词向量进行文本特征构建.为了解决特征提取不完善的问题,通过改进经典卷积神经网络模型结构,研究不同的卷积和池化操作对分类结果的影响.为提高新闻文本分类的精确率,本文提出并实现了一种组合-卷积神经网络模型,设计了有效的模型正则化和优化方法.实验结果表明,组合-卷积神经网络模型对中文新闻文本分类的精确率达到93.69%,相比最优的传统机器学习方法和经典卷积神经网络模型精确率分别提升6.34%和1.19%,并在召回率和F值两项指标上均优于对比模型.  相似文献   

10.
为解决卷积神经网络(CNN)和循环神经网络(RNN)处理文本分类任务时,由于文本特征稀疏造成的关键特征信息丢失、模型性能不高和分类效果不佳等问题.提出一种基于多通道注意力机制的文本分类模型,首先利用字词融合的形式进行向量表示,然后利用CNN和BiLSTM提取文本的局部特征和上下文关联信息,接着以注意力机制对各通道的输出...  相似文献   

11.
为了解决简单卷积神经网络(convolutional neural network, CNN)不能有效提取与充分利用高光谱图像特征信息的问题,提出了一种 基于残差网络的多层特征匹配生成对抗网络模型。提出的模型引入残差网络以挖掘高光谱图 像的深层特征,生成可分性更高的高光谱图像,并通过一个特征融合层进行特征融合,充分 利用网络的各层特征。提出的算法在Indian Pines、Pavia University和Salinas数据集 上的分类精度分别达到了97.6%,99.3%,99.1%,与径向基函数支持向量机(radial basis function-support vector machine, RBF-SVM)、堆叠自动编码器(stacked autoencoder, SAE)、深度置信网络(deep belief network, DBN)、PPF-CNN (CNN based on pixel-pair feature)、CNN和三维卷积网络 (three-dimensional convolutional neural network, 3D-CNN)方法相比较,其分类精度具有明显的提高。实验结果表明,提出的方法是一种有效 的高光谱图像分类方法。  相似文献   

12.
针对传统卷积神经网络(CNN)同层神经元之间信息不能互传,无法充分利用同一层次上的特征信息,以及无法提取长距离上下文相关特征的问题.该文针对中文文本,提出字符级联合网络特征融合的模型进行情感分析,在字符级的基础上采用BiGRU和CNN-BiGRU并行的联合网络提取特征,利用CNN的强学习能力提取深层次特征,再利用双向门限循环神经网络(BiGRU)进行深度学习,加强模型对特征的学习能力.另一方面,利用BiGRU提取上下文相关的特征,丰富特征信息.最后在单方面上引入注意力机制进行特征权重分配,降低噪声干扰.在数据集上进行多组对比实验,该方法取得92.36%的F1值,结果表明本文提出的模型能有效的提高文本分类的准确率.  相似文献   

13.
针对实际工程应用中由于滚动轴承故障状态出现的时间很短而导致数据集不平衡难以采用深度学习算法进行故障诊断的问题,提出了一种基于Wasserstein距离的梯度惩罚生成对抗网络(WGAN GP)和基于支持向量机分类的卷积神经网络(CNN SVM)相结合的滚动轴承故障红外诊断方法。从红外热像图中构建不平衡数据集,通过采用WGAN GP对不平衡数据扩充以达到数据集均衡,之后将CNN SVM模型应用于数据集,提取样本深度特征完成故障分类。实验表明,WGAN GP与CNN SVM相结合的模型在不平衡数据集下表现良好,相较于其他模型有更好的故障诊断能力,并且在故障分类阶段的用时可减少1689以上。  相似文献   

14.
Face recognition has been a hot-topic in the field of pattern recognition where feature extraction and classification play an important role. However, convolutional neural network (CNN) and local binary pattern (LBP) can only extract single features of facial images, and fail to select the optimal classifier. To deal with the problem of classifier parameter optimization, two structures based on the support vector machine (SVM) optimized by artificial bee colony (ABC) algorithm are proposed to classify CNN and LBP features separately. In order to solve the single feature problem, a fusion system based on CNN and LBP features is proposed. The facial features can be better represented by extracting and fusing the global and local information of face images. We achieve the goal by fusing the outputs of feature classifiers. Explicit experimental results on Olivetti Research Laboratory (ORL) and face recognition technology (FERET) databases show the superiority of proposed approaches.  相似文献   

15.
黄杰  张顺生  陈爽 《信号处理》2023,39(1):42-50
基于深度学习网络的自动调制分类(Automatic Modulation Classification, AMC)方法虽然对大多数通信调制信号能够取得满意的分类效果,但对WBFM(Wide Band Frequency Modulation)信号和MQAM(Multiple Quadrature Amplitude Modulation)信号的分类并不理想。针对WBFM信号误判的问题,使用判决法来筛选WBFM信号;考虑到信号样本不平衡的情况,引入数据增强方法扩充筛选后的WBFM信号。针对MQAM信号混淆的问题,利用分数阶傅里叶变换(Fractional Fourier Transform, FRFT)获取时频维度更多的特征信息。在此基础上,提出一种基于特征金字塔网络和长短时记忆网络并联的多通道特征融合网络(Multi-channel Feature Fusion, MFF)来提取信号的深层特征和浅层特征进行分类。实验结果表明:本文所提方法在一定程度上能够解决WBFM信号的误判问题和MQAM信号的混淆问题;与CNN(ConvolutionalNeuralNetwork)、ResNet(R...  相似文献   

16.
徐凡  杨剑峰  颜为之  王明文 《信号处理》2021,37(10):1860-1871
方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN(Convolutional Neural Networks)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。   相似文献   

17.
深度学习技术的应用给SAR图像目标识别带来了大幅度的性能提升,但其对实际应用中车辆目标局部部件的变化适应能力仍有待加强。利用数据内在先验知识,在高维语义特征中学习其内在的低维子空间结构,可以提升分类模型在车辆目标变体条件下的泛化性能。本文基于目标特征的稀疏性,提出了一种稀疏先验引导卷积神经网络(Convolution Neural Network,CNN)学习的SAR目标识别方法(CNN-TDDL)。首先,该方法利用CNN提取SAR图像目标的高维语义特征。其次,通过稀疏先验引导模块,利用特征稀疏性,对目标特征内在的低维子空间结构进行学习。分类任务驱动的字典学习层(Task-Driven Dictionary Learning,TDDL)将目标特征的低维子空间以稀疏编码的形式表示,再利用非负弹性正则网增强了稀疏编码的稳定性,使稀疏编码不仅有效地表征目标的低维子空间结构,并且能够提取更具判别性的类别特征。基于运动和静止目标获取与识别(Moving and Stationary Target Acquisition and Recognition,MSTAR)数据集以及仿真和实测配对和标记实验 (Synthetic and Measured Paired and Labeled Experiment,SAMPLE) 数据集的实验表明,相比于传统字典学习方法和典型深度学习方法,CNN-TDDL在MSTAR标准操作条件(Standard Operating Conditions, SOC)下识别精度提升0.85%~5.28%,型号识别精度提升3.97%以上,表现出更好的泛化性能。特征可视化分析表明稀疏先验引导模块显著提升了异类目标特征表示的可分性。   相似文献   

18.
王小宇  李凡  曹琳  李军  张驰  彭圆  丛丰裕 《信号处理》2020,36(6):958-965
由于水声信号的高度复杂性,基于特征工程的传统水下目标识别方法表现欠佳。基于深度学习模型的水下目标识别方法可有效减少由于特征提取过程带来的水声信号信息损失,进而提高水下目标识别效果。本文提出一种适用于水下目标识别场景的卷积神经网络结构,即在卷积模块化设计中引入卷积核为1的卷积层,更大程度地保留水声信号局部特征,且降低模型的复杂程度;同时,以全局平均池化层替代全连接层的方式构造基于特征图对应的特征向量主导分类结果的网络结构,使结果更具可解释性,且减少训练参数降低过拟合风险。实验结果表明该方法得到的水下目标识别准确率(91.7%)要优于基于传统卷积神经网络(69.8%)和基于高阶统计量特征的传统方法识别表现(85%)。这说明本文提出的模型能更好保留水声信号的时域结构,进而提高分类识别效果。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号