首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于样本权重更新的不平衡数据集成学习方法   总被引:1,自引:0,他引:1  
不平衡数据的问题普遍存在于大数据、机器学习的各个应用领域,如医疗诊断、异常检测等。研究者提出或采用了多种方法来进行不平衡数据的学习,比如数据采样(如SMOTE)或者集成学习(如EasyEnsemble)的方法。数据采样中的过采样方法可能存在过拟合或边界样本分类准确率较低等问题,而欠采样方法则可能导致欠拟合。文中将SMOTE,Bagging,Boosting等算法的基本思想进行融合,提出了Rotation SMOTE算法。该算法通过在Boosting过程中根据基分类器的预测结果对少数类样本进行SMOTE来间接地增大少数类样本的权重,并借鉴Focal Loss的基本思想提出了根据基分类器预测结果直接优化AdaBoost权重更新策略的FocalBoost算法。对不同应用领域共11个不平衡数据集的多个评价指标进行实验测试,结果表明,相比于其他不平衡数据算法(包括SMOTEBoost算法和EasyEnsemble算法),Rotation SMOTE算法在所有数据集上具有最高的召回率,并且在大多数数据集上具有最佳或者次佳的G-mean以及F1Score;而相比于原始的AdaBoost,FocalBoost则在其中9个不平衡数据集上都获得了更优的性能指标。  相似文献   

2.
针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和SMOTE结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确定决策边界无价值的实例和噪音实例,采用SMOTE对筛选后数据集进行过抽样.基于安全样本筛选的欠抽样既避免原始数据中有价值信息的丢失,又丢弃大类中的噪音实例,缓减过抽样数据集类重叠的问题.实验表明在处理不平衡数据集,特别是维数较高的不平衡数据集时Screening_SMOTE的有效性.  相似文献   

3.
刘昊  田志宏  仇晶  刘园  方滨兴 《软件学报》2024,35(8):3785-3808
恶意软件检测是网络空间安全研究中的热点问题, 例如Windows恶意软件检测和安卓恶意软件检测等. 随着机器学习和深度学习的发展, 一些在图像识别、自然语言处理领域的杰出算法被应用到恶意软件检测, 这些算法在大量数据下表现出了优异的学习性能. 但是, 恶意软件检测中有一些具有挑战性的问题仍然没有被有效解决, 例如, 基于少量新颖类型的恶意软件, 常规的学习方法无法实现有效检测. 因此, 小样本学习(few-shot learning, FSL)被用于解决面向小样本的恶意软件检测(few-shot for malware detection, FSMD)问题. 通过相关文献, 提取出FSMD的问题定义和一般流程. 根据方法原理, 将FSMD方法分为: 基于数据增强的方法、基于元学习的方法和多技术结合的混合方法, 并讨论每类FSMD方法的特点. 最后, 提出对FSMD的背景、技术和应用的展望.  相似文献   

4.
加密货币挖矿恶意软件的高盈利性和匿名性,对计算机用户造成了巨大威胁和损失。为了对抗挖矿恶意软件带来的威胁,基于软件静态特征的机器学习检测器通常选取单一类型的静态特征,或者通过集成学习来融合不同种类静态特征的检测结果,忽略了不同种类静态特征之间的内在联系,其检测率有待提升。文章从挖矿恶意软件的内在层级联系出发,自下而上提取样本的基本块、控制流程图和函数调用图作为静态特征,训练三层模型以将这些特征分别嵌入向量化,并逐渐汇集从底层到高层的特征,最终输入分类器实现对挖矿恶意软件的检测。为了模拟真实环境中的检测情形,先在一个小的实验数据集上训练模型,再在另一个更大的数据集上测试模型的性能。实验结果表明,三层嵌入模型在挖矿恶意软件检测上的性能领先于近年提出的机器学习模型,在召回率和准确率上相比其他模型分别提高了7%和3%以上。  相似文献   

5.
6.
随着设备的迭代,网络流量呈现指数级别的增长,针对各种应用的攻击行为越来越多,从流量层面识别并对这些攻击流量进行分类具有重要意义。同时,随着物联网设备的激增,针对这些设备的攻击行为也逐渐增多,造成的危害也越来越大。物联网入侵检测方法可以从这些海量的流量中识别出攻击流量,从流量层面保护物联网设备,阻断攻击行为。针对现阶段各类攻击流量检测准确率低以及样本不平衡问题,提出了基于重采样随机森林(RF,random forest)的入侵检测模型——Resample-RF,共包含3种具体算法:最优样本选择算法、基于信息熵的特征归并算法、多分类贪心转化算法。在物联网环境中,针对不平衡样本问题,提出最优样本选择算法,增加小样本所占权重,从而提高模型准确率;针对随机森林特征分裂效率不高的问题,提出基于信息熵的特征归并算法,提高模型运行效率;针对随机森林多分类精度不高的问题,提出多分类贪心转化算法,进一步提高准确率。在两个公开数据集上进行模型的检验,在 IoT-23 数据集上 F1 达到0.99,在Kaggle数据集上F1达到1.0,均具有显著效果。从实验结果中可知,提出的模型具有非常好的效果,能从海量流量中有效识别出攻击流量,较好地防范黑客对应用的攻击,保护物联网设备,从而保护用户。  相似文献   

7.
SMOTE和Biased-SVM相结合的不平衡数据分类方法   总被引:3,自引:0,他引:3  
针时不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased SuIpport Vector Machine,Biased-SVM)相结合的方法.该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类.实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度.  相似文献   

8.
针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS)。通过在六种不平衡数据集上的实验表明,该算法与传统算法相比,取得了更高的G-mean值、F-value值、AUC值,有效改善了不平衡数据集的综合分类性能。  相似文献   

9.
睡眠数据中各个阶段的样本数差异较大,睡眠数据的自动分期是一个典型的样本不平衡的机器学习问题。均衡样本方法通过抽样的手段来平衡样本,是解决样本不平衡问题的主要方法。采用均衡样本方法来平衡睡眠数据的不同阶段的样本,并且结合多域特征(时域、频域、时频域以及非线性)和随机森林分类算法进行分类预测。比较分析了样本均衡处理和非均衡处理的分类结果,发现均衡处理后的数据取得了更好的分类效果。  相似文献   

10.
针对生活垃圾分类中存在的样本不平衡问题,本文基于实例分割模型Mask R-CNN神经网络展开研究,通过调整神经网络的损失函数和扩充数据集中的难分正样本来提升神经网络的检测精度。实验结果表明,该方法降低了数据不平衡对网络性能的影响,使生活垃圾的回收率得到了提升。  相似文献   

11.
金然  魏强  王清贤 《计算机工程》2008,34(5):169-170
许多未知恶意代码是由已知恶意代码变形而来。该文针对恶意代码常用的变形技术,包括等价指令替换、插入垃圾代码和指令重排,提出完整的归一化方案,以典型的变形病毒Win32.Evol对原型系统进行测试,是采用归一化思想检测变形恶意代码方面的有益尝试。  相似文献   

12.
陈志锋  李清宝  张平  丁文博 《软件学报》2016,27(12):3172-3191
内核恶意软件对操作系统的安全造成了严重威胁.现有的内核恶意软件检测方法主要从代码角度出发,无法检测代码复用、代码混淆攻击,且少量检测数据篡改攻击的方法因不变量特征有限导致检测能力受限.针对这些问题,提出了一种基于数据特征的内核恶意软件检测方法,通过分析内核运行过程中内核数据对象的访问过程,构建了内核数据对象访问模型;然后,基于该模型讨论了构建数据特征的过程,采用动态监控和静态分析相结合的方法识别内核数据对象,利用EPT监控内存访问操作构建数据特征;最后讨论了基于数据特征的内核恶意软件检测算法.在此基础上,实现了内核恶意软件检测原型系统MDS-DCB,并通过实验评测MDS-DCB的有效性和性能.实验结果表明:MDS-DCB能够有效检测内核恶意软件,且性能开销在可接受的范围内.  相似文献   

13.
基于语义的恶意代码行为特征提取及检测方法   总被引:5,自引:0,他引:5  
王蕊  冯登国  杨轶  苏璞睿 《软件学报》2012,23(2):378-393
提出一种基于语义的恶意代码行为特征提取及检测方法,通过结合指令层的污点传播分析与行为层的语义分析,提取恶意代码的关键行为及行为间的依赖关系;然后,利用抗混淆引擎识别语义无关及语义等价行为,获取具有一定抗干扰能力的恶意代码行为特征.在此基础上,实现特征提取及检测原型系统.通过对多个恶意代码样本的分析和检测,完成了对该系统的实验验证.实验结果表明,基于上述方法提取的特征具有抗干扰能力强等特点,基于此特征的检测对恶意代码具有较好的识别能力.  相似文献   

14.
近几年,Android平台的恶意软件数量几乎以几何式的速度增长,故提出一种恶意软件检测方法是必要的.本文利用现如今疯涨的Android恶意样本量和机器学习算法建立分类预测模型实现对恶意软件的静态检测.首先,通过反编译APK文件获取AndroidManifest.xml文件中权限特征,baksmali工具反编译class.dex成smali文件得到危险API特征.然后运用机器学习中多种分类和预处理算法比较每一特征和联合特征检测的准确率.实验结果表明,联合特征检测准确率高于单独特征,准确率达到97.5%.  相似文献   

15.
本文构建的静态检测系统主要用于检测Android平台未知恶意应用程序.首先,对待检测应用程序进行预处理,从Android Manifest.xml文件中提取权限申请信息作为一类特征属性;如待检测应用程序存在动态共享库,则提取从第三方调用的函数名作为另一类特征属性.对选取的两类特征属性分别选择最优分类算法,最后根据上述的两个最优分类算法对待检测应用程序的分类结果判定待检测应用程序是否为恶意应用程序.实验结果表明:该静态检测系统能够有效地检测出Android未知恶意应用程序,准确率达到95.4%,具有良好的应用前景.  相似文献   

16.
针对已有恶意代码检测技术存在不足,研究恶意代码网络传播行为,提取相应行为特征,在此基础上提出基于行为的分布式恶意代码检测技术,并进行NS-2仿真实验。实验结果表明该方法具有较低的误报率和漏报率,可有效检测恶意代码。  相似文献   

17.
ABSTRACT

Malware is becoming more and more aggressive and new techniques are emerging to allow malicious code to evade detection by antiviruses. Metamorphic malware is a particularly insidious kind of virus that changes its form at each infection. In this article, a technique for detecting metamorphic viruses is proposed that is based on identifying specific features of the assembly code, such as the instructions that change the contents of the registers, the instructions that change the control flow, and the potential code fragmentation. Such features have been derived by the analysis of a large dataset of malware. The experimentation suggests that the proposed technique produces very high precision (over 97%) in recognizing metamorphic malware, and allows also for distinguishing among different families of malware.  相似文献   

18.
近年来,恶意软件给信息技术的发展带来了很多负面的影响.为了解决这一问题,如何有效检测恶意软件则一直备受关注.随着人工智能的迅速发展,机器学习与深度学习技术逐渐被引入到恶意软件的检测中,这类技术称之为恶意软件智能检测技术.相比于传统的检测方法,由于人工智能技术的应用,智能检测技术不需要人工制定检测规则.此外,具有更强的泛化能力,能够更好地检测先前未见过的恶意软件.恶意软件智能检测已经成为当前检测领域的研究热点.主要介绍了当前的恶意软件智能检测相关工作,包含了智能检测所需的主要环节.从智能检测中常用的特征、如何进行特征处理、智能检测中常用的分类器、当前恶意软件智能检测所面临的主要问题4个方面对智能检测相关工作进行了系统地阐述与分类.最后,总结了先前智能检测相关工作,阐明了未来潜在的研究方向,旨在能够助力恶意软件智能检测的发展.  相似文献   

19.
冯博  戴航  慕德俊 《微机发展》2014,(2):149-152
针对Android恶意软件泛滥的局面,提出了一种基于行为的恶意软件动态检测的方法。首先,综合收集软件运行时的动态信息,包括软件运行时系统的信息和软件的内核调用信息,并将内核调用序列截断成定长短序列的形式。其次,将各方面信息统一为属性、属性值的形式。以信息增益作为指标,选用CA.5算法筛选出信息增益高、作用不重叠的属性,并依据信息增益的大小为各属性正比分配权重因子。最后,用K最近邻算法完成机器学习,识别出与样本类似的恶意软件,并将未知类型的软件标记为疑似恶意。实验结果表明,该方法识别率高、误报率低。通过增大学习样本库,识别的效果可以进一步提高。  相似文献   

20.
提升多维特征检测迷惑恶意代码   总被引:1,自引:0,他引:1  
针对迷惑恶意代码识别率较低的问题,提出一种基于提升多维特征的迷惑恶意代码检测算法.该算法在对迷惑恶意代码反汇编后进行静态分析,从Opcode分布序列,调用流图特征、系统调用序列图这3个特征维度对恶意代码家族特征进行归纳和分析,结合统计和语义结构特征表现恶意代码"行为"特性,从而对分类结果加权投票后给出迷惑恶意代码家族判...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号