首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。  相似文献   

2.
《软件》2016,(7):75-79
不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展,论述了对分类算法的评价指标,进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先,用随机森林算法对训练样本学习找到模糊边界,将误判的多数类样本去除,改变原训练样本数据集结构,形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高。  相似文献   

3.
为提高仅包含少量训练样本的图像识别准确率,利用卷积神经网络作为图像的特征提取器,提出一种基于卷积神经网络的小样本图像识别方法。在原始小数据集中引入数据增强变换,扩充数据样本的范围;在此基础上将大规模数据集上的源预训练模型在目标小数据集上进行迁移训练,提取除最后全连接层之外的模型权重和图像特征;结合源预训练模型提取的特征,采用层冻结方法,微调目标小规模数据集上的卷积模型,得到最终分类识别结果。实验结果表明,该方法在小规模图像数据集的识别问题中具有较高的准确率和鲁棒性。  相似文献   

4.
提出了一种基于卷积神经网络和随机森林相结合的方法,用于对海洋可食用鱼类进行识别分类。通过使用YOLOv3目标检测网络对原始鱼类图片进行目标定位并使用数据增强方法对数据集进行扩充,模型在自建数据集上进行训练和微调,达到了较高的分类准确率和稳定性。实验结果表明该模型在鱼类分类任务上的有效性,并为解决传统方法对鱼类分类的困难提供了一种新思路。  相似文献   

5.
植物抗性基因识别中的随机森林分类方法   总被引:2,自引:0,他引:2  
为了解决传统基于同源序列比对的抗性基因识别方法中假阳性高、无法发现新的抗性基因的问题,提出了一种利用随机森林分类器和K-Means聚类降采样方法的抗性基因识别算法。针对目前研究工作中挖掘盲目性大的问题,进行两点改进:引入了随机森林分类器和188维组合特征来进行抗性基因识别,这种基于样本统计学习的方法能够有效地捕捉抗性基因内在特性;对于训练过程中存在的严重类别不平衡现象,使用基于聚类的降采样方法得到了更具代表性的训练集,进一步降低了识别误差。实验结果表明,该算法可以有效地进行抗性基因的识别工作,能够对现有实验验证数据进行准确的分类,并在反例集上也获得了较高的精度。  相似文献   

6.
提出了一种基于Canopy与人工合成少数类别过采样技术(CSMOTE)和自适应增强学习(AdaBoostM1)的入侵检测分类方法,以有效减少入侵检测模型因训练数据集攻击类型不均衡而导致的分类误差,提高分类准确率。通过Canopy聚类消除训练集中的孤立点或噪音点,减少训练集噪声;并在预处理时通过SMOTE增加少数类别的样本数量,构造类间平衡的平衡数据集,然后在平衡数据集上用AdaBoosM1训练得到分类器。与在原始训练集上训练的分类器相比,该方法在保持整体准确率高的情况下,少数类别U2R攻击的准确率提升20%,R2L攻击的准确率提升5%,同时平均漏报率降低9%,实验结果表明该方法可以有效提升少数类别准确率,降低平均漏报率,能有效地解决网络入侵检测少数类误分类问题。  相似文献   

7.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

8.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

9.
针对情绪脑电信号提出一种网络图特征学习与情绪识别算法。首先,利用情绪脑电数据构建对应的情绪脑电网络;其次,在由情绪脑电网络尺度定义的高维空间构建脑电网络样本间的局部邻接关系图以挖掘样本集的分布特性,进而得到样本集的图拉普拉斯矩阵;在此基础上,进一步利用谱图理论对情绪脑电网络的最优低维空间映射进行求解,在保留原始样本局部邻接关系的前提下实现对情绪脑电网络的降维与重新表达,并将每个情绪脑电网络样本表示成1组脑电网络特征集;最后利用提取到的情绪脑电网络特征集,结合支持向量机分类学习算法,针对情绪识别任务进行识别模型的训练和学习,实现对情绪状态的准确解码与识别。在国际公开情绪脑电数据集的实验结果表明:相较于传统情绪识别算法,本文所提方法能有效提升情绪识别准确率,在基于公开数据集的多类情绪识别任务中分别达到91.85%(SEED数据集, 3类)、79.36%(MAHNOB-HCI数据集,3类)和79%(DEAP数据集,4类)的稳健识别效果。  相似文献   

10.
针对工业制品缺陷分类存在的样本图像少、分类准确性不足和模型训练耗时长等问题,提出了一种基于深度森林的人机协同分类模型.该模型首先通过深度森林对样本图像进行初步识别,经多粒度扫描模块和级联森林模块提取特征,得到初始预测结果并分离出识别困难的样本图像;然后采用人机协同的策略,采用人工方式随机标注部分识别困难的样本,再利用K近邻算法对剩余识别困难的样本进行再分类.通过在公开数据集以及生产线实际采集的真实数据上的实验结果表明,改进的分类模型在工业制品表面缺陷数据集上的性能优于基线算法.  相似文献   

11.
胡淼  王开军 《计算机应用》2019,39(4):956-962
针对现有基于随机森林的异常检测算法性能不高的问题,提出一种结合双特征和松弛边界的随机森林算法用于异常点检测。首先,在只使用正常类数据构建随机森林的分类决策树过程中,在二叉决策树的每个节点里记录两个特征的取值范围(每个特征对应一个值域),以此双特征值域作为异常点判断的依据。然后,在进行异常检测时,当某样本不满足决策树节点中的双特征值域时,该样本被标记为候选异常类;否则,该样本进入决策树的下层树节点继续作特征值域的比较,若无下层节点则被标记为候选正常类。最后,由随机森林算法中的判别机制决定该样本的类别。在5个UCI数据集上进行的异常点检测实验结果表明,所提方法比现有的异常检测随机森林算法性能更好,其综合性能与孤立森林(iForest)和一类支持向量机(OCSVM)方法相当或更好,且稳定于较高水平。  相似文献   

12.
诸多神经网络模型已被证明极易遭受对抗样本攻击。对抗样本则是攻击者为模型所恶意构建的输入,通过对原始样本输入添加轻微的扰动,导致其极易被机器学习模型错误分类。这些对抗样本会对日常生活中的高要求和关键应用的安全构成严重威胁,如自动驾驶、监控系统和生物识别验证等应用。研究表明在模型的训练期间,检测对抗样本方式相比通过增强模型来预防对抗样本攻击更为有效,且训练期间神经网络模型的中间隐层可以捕获并抽象样本信息,使对抗样本与干净样本更容易被模型所区分。因此,本文针对神经网络模型中的不同隐藏层,其对抗样本输入和原始自然输入的隐层表示进行统计特征差异进行研究。本文研究表明,统计差异可以在不同层之间进行区别。本文通过确定最有效层识别对抗样本和原始自然训练数据集统计特征之间的差异,并采用异常值检测方法,设计一种基于特征分布的对抗样本检测框架。该框架可以分为广义对抗样本检测方法和条件对抗样本检测方法,前者通过在每个隐层中提取学习到的训练数据表示,得到统计特征后,计算测试集的异常值分数,后者则通过深层神经网络模型对测试数据的预测结果比较,得到对应训练数据的统计特征。本文所计算的统计特征包括到原点的范数距离L2和样本协方差矩阵的顶奇异向量的相关性。实验结果显示了两种检测方法均可以利用隐层信息检测出对抗样本,且对由不同攻击产生的对抗样本均具有较好的检测效果,证明了本文所提的检测框架在检测对抗样本中的有效性。  相似文献   

13.
入侵检测作为一种积极主动的安全防护技术,对于确保工业互联网安全起着至关重要的作用。为了满足工业互联网高准确率和高实时性的入侵检测需求,提出基于轻量级梯度提升机优化的工业互联网入侵检测方法。针对工业互联网业务数据中难分类样本导致检测准确率低的问题,改进轻量级梯度提升机原有的损失函数为焦点损失函数,该损失函数可自适应动态调节不同类别数据样本的损失值和权重,支持模型在训练过程中降低易分类样本的权重,进而提高难分类样本的检测准确率;针对轻量级梯度提升机参数较多并且对模型的检测准确率、检测时间和拟合程度等影响较大的问题,利用果蝇优化算法选择模型的最优参数组合;在密西西比州立大学提供的天然气管道数据集上得到模型的最优参数组合并进行验证,并在储水罐数据集上进一步验证所提模型的有效性。实验结果表明,采用所提方法改进的模型在天然气管道数据集上的检测准确率较对比模型最少提高了3.14%,检测时间较对比模型中的随机森林和支持向量机分别降低了0.35 s和19.53 s,较决策树和极端梯度提升机分别增加了0.06 s和0.02 s,同时在储水罐数据集上取得了良好的检测结果。因此证明所提方法可以很好地识别工业互...  相似文献   

14.
计算机视觉领域倾向使用深度神经网络完成识别任务,但对抗样本会导致网络决策异常。为了防御对抗样本,主流的方法是对模型进行对抗训练。对抗训练存在算力高、训练耗时长的缺点,其应用场景受限。提出一种基于知识蒸馏的对抗样本防御方法,将大型数据集学习到的防御经验复用到新的分类任务中。在蒸馏过程中,教师模型和学生模型结构一致,利用模型特征图向量作为媒介进行经验传递,并只使用干净样本训练。使用多维度特征图强化语义信息的表达,并且提出一种基于特征图的注意力机制,将特征依据重要程度赋予权重,增强蒸馏效果。所提算法在Cifar100、Cifar10等开源数据集上进行实验,使用FGSM(fast gradient sign method)、PGD(project gradient descent)、C&W(Carlini-Wagner attack)等算法进行白盒攻击,测试实验效果。所提方法在Cifar10干净样本的准确率超过对抗训练,接近模型在干净样本正常训练的准确率。在L2距离的PGD攻击下,所提方法效果接近对抗训练,显著高于正常训练。而且其学习成本小,即使添加注意力机制和多维度特征图等优化方案,...  相似文献   

15.
针对脑电信号(electroencephalogram,EEG)情绪识别中数据稀缺及由此导致的情感分类精度不高的问题,提出了一个引入自注意力机制的条件Wasserstein生成对抗网络(SA-cWGAN),通过自注意力模块从训练数据学习长时上下文相关的全局特征,采用Wasserstein距离和梯度惩罚的Lipschitz约束对网络的损失函数进行优化,进而生成高质量的EEG数据对原有训练集进行增强。所提方法分别在DEAP和SEED数据集上进行了大量的二分类和三分类对比实验,生成了与EEG训练数据分布接近的微分熵(DE)和功率谱密度(PSD)特征,以此来增强EEG训练数据集,采用SVM分类器对增强后的EEG特征进行情绪分类。实验结果表明,在DEAP数据集上的唤醒度和效价维度下,增强后的DE、PSD特征较原有DE、PSD特征二分类准确率分别提高了16.63、17.55个百分点和6.48、8.34个百分点;在SEED数据集下,三分类准确率分别提高了4.64、5.18个百分点,证明所提方法生成的特征具有良好的鲁棒性,也表明通过对GAN网络引入自注意力机制生成的特征增强原有训练数据集能够有效提高E...  相似文献   

16.
针对水面环境复杂多变、远处小目标识别准确率低和目前目标检测算法实时性差的问题,分析以Darknet-53为主干网络的YOLOv3框架相较于其他算法的改进特点,提出一种基于YOLOv3的船舶实时监测识别方法,并在训练阶段对难识别样本进行精细训练。该方法增强了系统在不同情况下船舶分类检测与识别的准确率,提高了整个算法的鲁棒性。〖JP3〗实验数据表明,最终在整个数据集上单类平均准确率最高可达到91.82%。本文方法可应用于船舶智能驾驶的辅助支撑系统。  相似文献   

17.
数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题。为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法。该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样。首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法。此外,以G-mean和AUC为评价指标,在15个公开数据集上将所提算法与10种不同算法进行比较,结果显示其两项指标的平均排名和平均值均为第一。进一步,在其中9个数据集上将其与6种state-of-the-art算法进行比较,在32次结果对比中,所提算法有28次取得的成绩都优于其他算法。实验结果表明,所提算法有助于提高少数类的检出率,具有更好的分类性能。  相似文献   

18.
王博  蔡弘昊  苏旸 《计算机应用》2020,40(1):162-167
针对代码复用在同一恶意家族样本中普遍存在的现象,提出了一种利用代码复用特征的恶意样本分类方法。首先将文件的二进制序列分割成RGB三色通道的值,从而将恶意样本转换为彩色图;然后用这些图片基于VGG卷积神经网络生成恶意样本分类模型;最后在模型训练阶段利用随机失活算法解决过拟合和梯度消失问题以及降低神经网络计算开销。该方法使用Malimg数据集25个族的9342个样本进行评估,平均分类准确率达96.16%,能有效地分类恶意代码样本。实验结果表明,与灰度图相比,所提方法将二进制文件转换为彩色图能更明显地强调图像特征,尤其是对于二进制序列中含有重复短数据片段的文件,而且利用特征更明显的训练集,神经网络能生成分类效果更好的分类模型。所提方法预处理操作简单,分类结果响应较快,因此适用于大规模恶意样本的快速分类等即时性要求较高的场景。  相似文献   

19.
深度学习已成为图像识别领域的一个研究热点。与传统图像识别方法不同,深度学习从大量数据中自动学习特征,并且具有强大的自学习能力和高效的特征表达能力。但在小样本条件下,传统的深度学习方法如卷积神经网络难以学习到有效的特征,造成图像识别的准确率较低。因此,提出一种新的小样本条件下的图像识别算法用于解决SAR图像的分类识别。该算法以卷积神经网络为基础,结合自编码器,形成深度卷积自编码网络结构。首先对图像进行预处理,使用2D Gabor滤波增强图像,在此基础上对模型进行训练,最后构建图像分类模型。该算法设计的网络结构能自动学习并提取小样本图像中的有效特征,进而提高识别准确率。在MSTAR数据集的10类目标分类中,选择训练集数据中10%的样本作为新的训练数据,其余数据为验证数据,并且,测试数据在卷积神经网络中的识别准确率为76.38%,而在提出的卷积自编码结构中的识别准确率达到了88.09%。实验结果表明,提出的算法在小样本图像识别中比卷积神经网络模型更加有效。  相似文献   

20.
为了提高基于一范数的核主成分分析算法(KPCA-L1)处理异常检测问题的速度,提出了基于样本选取和加权KPCA-L1的异常检测方法。所提方法首先从训练集中选取具有代表性的特征子集,然后为所得特征子集中的样本赋予权重,用带有权重的特征子集训练模型,构造加权KPCA-L1。与KPCA-L1相比,所提方法能够有效地减小训练集的规模,同时改善了KPCA-L1算法的更新方法。在人工数据集和标准数据集上的实验结果表明,在保证异常检测准确率的前提下,所提方法比KPCA-L1具有更快的建模速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号