首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 56 毫秒
1.
异常检测是比特币交易数据分析的研究热点之一。针对现有的基于机器学习的异常交易检测方法难以对多种异常类型进行准确概括、泛化能力不足的问题,对比特币交易数据构建网络结构并提取异常行为模式相关特征,应用基于局部动态选择组合的并行集成算法(LSCP)构建检测模型,并在算法中融入7种经典的异常检测算法,利用基学习器对不同异常类型的敏感性,提升检测模型的可靠性和稳定性。实验结果表明,与传统的检测方法相比,结合异构基学习器的LSCP算法在整体检测性能上具有更好的效果。  相似文献   

2.
异常检测系统在网络空间安全中起着至关重要的作用,为网络安全提供有效的保障.对于复杂的网络流量信息,传统的单一的分类器往往无法同时具备较高检测精确度和较强的泛化能力.此外,基于全特征的异常检测模型往往会受到冗余特征的干扰,影响检测的效率和精度.针对这些问题,本文提出了一种基于平均特征重要性的特征选择和集成学习的模型,选取决策树(DT)、随机森林(RF)、额外树(ET)作为基分类器,建立投票集成模型,并基于基尼系数计算基分类器的平均特征重要性进行特征选择.在多个数据集上的实验评估结果表明,本文提出的集成模型优于经典集成学习模型及其他著名异常检测集成模型.且提出的基于平均特征重要性的特征选择方法可以使集成模型准确率平均进一步提升约0.13%,训练时间平均节省约30%.  相似文献   

3.
对于漏洞领域基准数据集较少导致的深度学习模型泛化能力较差,以及传统的基于规则引擎的漏洞检测工具性能较低的问题,提出了一种基于混合表征和协同训练的软件源代码漏洞检测方法。首先,基于预训练模型提取源代码文本特征,提取代码语义信息,然后使用工具生成抽象语法树,通过自定义遍历规则提取源代码的AST(抽象语法树)特征,将两种特征进行混合丰富代码表征。其次,搭建多个深度模型,基于协同训练算法通过大量的无标签数据提升各模型的泛化能力。鉴于单一模型可能造成较高的漏报率和误报率,并可能被某一模型主导预测结果的问题,采用了基于加权投票机制的多模型集成方法。实验结果表明,该方法在一定程度上解决了数据集较少导致的模型泛化性差的问题,与漏洞检测领域一些主流检测方法相比,该方法在各指标上具有一定的优势,且检测性能高于规则引擎Fortify。  相似文献   

4.
针对传统基于相似度的离群点检测算法在高维不均衡数据集上效果不够理想的问题,提出一种新颖的基于随机投影与集成学习的离群点检测(ensemble learning and random projection-based outlier detection,EROD)框架。算法首先集成多个随机投影方法对高维数据进行降维,提升数据多样性;然后集成多个不同的传统离群点检测器构建异质集成模型,增加算法鲁棒性;最后使用异质模型对降维后的数据进行训练,训练后的模型经过两次优化组合以降低泛化误差,输出最终的对象离群值,离群值高的对象被算法判定为离群点。分别在四个不同领域的高维不均衡真实数据集上进行对比实验,结果表明该算法与传统离群点检测算法和基于集成学习的离群点检测算法相比,在AUC和precision@n值上平均提高了3.6%和14.45%,证明EROD算法具有处理高维不均衡数据异常的优势。  相似文献   

5.
研究了基于模型共享的集成学习分布式异常检测模型,采用多数投票、边界扩展、平均叠加和距离加权4种不同的集成学习方法得到全部的局部模型;采用交换本地数据挖掘模型的方式来实现数据共享,从而构造出一个总体的集成学习模型。从全局的观点检测异常,减少了集中式检测所需数据的传输量,有效保护了数据提供者的隐私性。仿真实验结果表明,该方法的检测性能与集中式检测的性能相当,甚至更好。  相似文献   

6.
网络异常流量识别是目前网络安全的重要任务之一。然而传统流量分类模型是依据流量数据训练得到,由于大部分流量数据分布不均导致分类边界模糊,极大限制了模型的分类性能。为解决上述问题,文章提出一种基于深度度量学习的异常流量检测方法。首先,与传统深度度量学习每个类别单一代理的算法不同,文章设计双代理机制,通过目标代理指引更新代理的优化方向,提升模型的训练效率,增强同类别流量数据的聚集能力和不同类别流量数据的分离能力,实现最小化类内距离和最大化类间距离,使数据的分类边界更清晰;然后,搭建基于1D-CNN和Bi-LSTM的神经网络,分别从空间和时间的角度高效提取流量特征。实验结果表明,NSL-KDD流量数据经过模型处理,其类内距离显著减小并且类间距离显著增大,类内距离相比原始类内距离减小了73.5%,类间距离相比原始类间距离增加了52.7%,且将文章搭建的神经网络比广泛使用的深度残差网络训练时间更短、效果更好。将文章所提模型应用在流量分类任务中,在NSL-KDD和CICIDS2017数据集上,相比传统的流量分类算法,其分类效果更好。  相似文献   

7.
在时间序列数据的异常检测中, 单一模型往往只提取与自身模型结构相关的时序特征, 从而容易忽略其他特征. 同时, 面对大规模的时序数据, 模型难以对时序数据的局部趋势进行建模. 为了解决这两个问题, 本文提出一种基于粒子群优化算法(particle swarm optimization, PSO)和外部知识的异常检测模型PEAD. PEAD模型以深度学习模型作为基模型, 引入快速傅里叶变换生成的外部知识来提高基模型对局部趋势的建模能力, 随后PEAD模型以Stacking集成学习的方式训练基模型, 再使用PSO算法对基模型的输出加权求和, 对加权求和后的重构数据进行异常检测, PSO算法能够让模型的最终输出共同关注时序数据的全局特征和时间特征, 丰富模型提取的时序特征, 从而提高模型的异常检测能力. 通过对6个公开数据集进行测试, 研究结果表明PEAD模型在大部分数据集上表现良好.  相似文献   

8.
衡红军  刘静 《计算机工程》2020,46(3):99-104
针对传统异常点检测模型难以准确分析汽车驾驶异常行为的情况,建立一种基于自动编码器与孤立森林算法的多维时间序列汽车驾驶异常点检测模型。利用滑动窗口计算原始多维时间序列范数、范数变化率及相关统计信息值提取数据特征,通过自动编码器重构特征数据,并结合孤立森林算法实现异常点检测。实验结果表明,与基于LOF、OCSVM、iForest和LSTM-AE的异常点检测模型相比,该模型的召回率和F1度量值可分别提升至6%和2.4%以上,综合性能更优。  相似文献   

9.
针对物联网场景下,传统异常检测方法在海量不均衡数据中检测准确率低、数据异构导致模型泛化能力差等问题,提出了基于联邦学习的对抗双编码异常检测网络 (GB-AEnet-FL)的物联网设备异常检测算法。首先,提出了一种基于异常数据的主动特征分布学习算法,主动学习数据的潜在特征分布,通过数据重构扩充异常数据,均衡正负样本比例。其次,在潜在特征层引入了对抗训练机制并添加一致性增强约束和收缩约束,提高特征提取的精度。最后,设计了一种基于动态模型选择的联邦学习算法,比较局部模型与全局模型的置信度评分,动态选择部分联邦体参与,加速模型的聚合,在一定程度上也保护了用户隐私。在四个不同数据集上进行验证,结果显示,所提算法在检测准确度优于传统算法,且泛化能力得到相应提升。  相似文献   

10.
针对雷达频谱图空间信息较少,且通过单一机器学习算法进行毫米波雷达人体跌倒行为识别精度低、稳定性差的问题,使用人体空间雷达点云时序数据,提出了融合TsFresh特征提取和Stacking堆叠集成学习的跌倒识别方法。首先,采用TI-IWR6843毫米波雷达采集人体动作对应的人体运动跟踪时序数据,构建包含不同年龄、身高、体重信息、跌倒方式的数据集。其次,结合TsFresh时序特征提取工具和基于随机森林模型的特征重要性提取人体跌倒关键时序特征。最后,提出了融合随机森林、支持向量机、K-最邻近算法、XGBoost和CatBoost 5种单元机器学习模型的Stacking堆叠式集成学习方法。结果表明,与典型单一机器学习算法相比,Stacking集成学习算法具有明显的性能提升,能够有效提升人体跌倒行为识别准确性和泛化性。  相似文献   

11.
盛高斌  姚明海 《计算机仿真》2009,26(10):198-201,318
为了提高小数据量的有标记样本问题中学习器的性能,结合半监督学习和选择性集成学习,提出了基于半监督回归的选择性集成算法SSRES。算法基于半监督学习的基本思想,同时使用有标记样本和未标记样本训练学习器从而减少对有标记样本的需求,使用选择性集成算法GRES对不同学习器进行适当的选择,并将选择的结果结合提高学习器的泛化能力。实验结果表明,在小数据量的有标记样本问题中,该算法能够有效地提高学习器的性能。  相似文献   

12.
介绍集成神经网络的基本概念及其算法理论,提出基于遗传算法的集成神经网络入侵检测方法,并以KDDCUP99作为数据源给出应用该方法进行入侵检测的性能.通过与单个神经网络的比较,说明基于遗传算法的集成神经网络检测方法能克服单个分类算法的缺陷,提高入侵检测系统的检测率.  相似文献   

13.
基于Lorenz-96模型的顺序数据同化方法比较研究   总被引:1,自引:0,他引:1  
顺序数据同化方法在数据同化系统中得到了广泛的应用,其性能各有优缺。选择3种典型的顺序数据同化算法,即集合Kalman滤波,集合转换Kalman滤波和确定性Kalman滤波,使用经典的Lorenz-96模型进行敏感性实验,研究不同的关键参数变化,如集合数目变化、观测数变化、误差放大因子变化和定位半径变化时对同化效果的影响。实验表明:集合数目和观测数目的多少直接影响3种方法的同化效果;协方差放大因子和定位半径的选择会提高同化精度。综合比较,确定性集合Kalman滤波算法是一种具有较强鲁棒性的滤波算法,能够在集合数较小的情况下达到较好的同化效果。  相似文献   

14.
CBES是面向非平衡数据集分类的组合选择方法。相关的实验表明,CBES方法能大幅度提升基分类器的泛化能力。已有研究表明,抽样方法能有效提高分类器在非平衡数据集分类上的性能。因此,巧妙地将抽样技术应用到CBES方法中,进而提出基于抽样的CBES方法(SCBES),以期进一步提高CBES在稀有类上的性能。大量的实验表明,巧妙地使用抽样方法能进一步提高CBES方法在非平衡数据集分类上的性能。  相似文献   

15.
Cluster ensemble first generates a large library of different clustering solutions and then combines them into a more accurate consensus clustering. It is commonly accepted that for cluster ensemble to work well the member partitions should be different from each other, and meanwhile the quality of each partition should remain at an acceptable level. Many different strategies have been used to generate different base partitions for cluster ensemble. Similar to ensemble classification, many studies have been focusing on generating different partitions of the original dataset, i.e., clustering on different subsets (e.g., obtained using random sampling) or clustering in different feature spaces (e.g., obtained using random projection). However, little attention has been paid to the diversity and quality of the partitions generated using these two approaches. In this paper, we propose a novel cluster generation method based on random sampling, which uses the nearest neighbor method to fill the category information of the missing samples (abbreviated as RS-NN). We evaluate its performance in comparison with k-means ensemble, a typical random projection method (Random Feature Subset, abbreviated as FS), and another random sampling method (Random Sampling based on Nearest Centroid, abbreviated as RS-NC). Experimental results indicate that the FS method always generates more diverse partitions while RS-NC method generates high-quality partitions. Our proposed method, RS-NN, generates base partitions with a good balance between the quality and the diversity and achieves significant improvement over alternative methods. Furthermore, to introduce more diversity, we propose a dual random sampling method which combines RS-NN and FS methods. The proposed method can achieve higher diversity with good quality on most datasets.  相似文献   

16.
如何构造差异性大的基分类器是集成学习研究的重点,为此提出迭代循环选择法:以最大化正则互信息为准则提取最优特征子集,进而基于此训练得到基分类器;同时以错分样本个数作为差异性度量准则来评价所得基分类器的性能,若满足条件则停止,反之则循环迭代直至结束.最后用加权投票法融合所选基分类器的识别结果.通过仿真实验验证算法的有效性,以支持向量机为分类器,在公共数据集UCI上进行实验,并与单SVM及经典的Bagging集成算法和特征Bagging集成算法进行对比.实验结果显示,该方法可获得较高的分类精度.  相似文献   

17.
基于集成神经网络入侵检测系统的研究与实现   总被引:9,自引:8,他引:1  
为解决传统入侵检测模型所存在的检测效率低,对未知的入侵行为检测困难等问题,对集成学习进行了研究与探讨,提出一种采用遗传算法的集成神经网络入侵检测模型,阐述了模型的工作原理和各模块的主要功能.模型通过遗传算法寻找那些经过训练后差异较大的神经网络进行集成.实验表明,集成神经网络与检测率最好的单个神经网络相比检测率有所提高.同时,该模型采用机器学习方法,可使系统能动态地适应环境,不仅对已知的入侵具有较好的识别能力,而且能识别未知的入侵行为,从而实现入侵检测的智能化.  相似文献   

18.
Ensemble learning has attracted considerable attention owing to its good generalization performance. The main issues in constructing a powerful ensemble include training a set of diverse and accurate base classifiers, and effectively combining them. Ensemble margin, computed as the difference of the vote numbers received by the correct class and the another class received with the most votes, is widely used to explain the success of ensemble learning. This definition of the ensemble margin does not consider the classification confidence of base classifiers. In this work, we explore the influence of the classification confidence of the base classifiers in ensemble learning and obtain some interesting conclusions. First, we extend the definition of ensemble margin based on the classification confidence of the base classifiers. Then, an optimization objective is designed to compute the weights of the base classifiers by minimizing the margin induced classification loss. Several strategies are tried to utilize the classification confidences and the weights. It is observed that weighted voting based on classification confidence is better than simple voting if all the base classifiers are used. In addition, ensemble pruning can further improve the performance of a weighted voting ensemble. We also compare the proposed fusion technique with some classical algorithms. The experimental results also show the effectiveness of weighted voting with classification confidence.  相似文献   

19.
神经网络集成的设计与应用   总被引:1,自引:0,他引:1  
传统的神经网络一般采用个体网络,其应用效果很大程度上取决于使用者的经验,且网络的泛化能力不强.一种改进的神经网络集成方法,为传统神经网络存在的问题提供了一个简易的解决方案.由理论分析和实验结果可以得出结论,神经网络集成方法比传统的个体网络方法的效果更好.  相似文献   

20.
Detection of malware using data mining techniques has been explored extensively. Techniques used for detecting malware based on structural features rely on being able to identify anomalies in the structure of executable files. The structural attributes of an executable that can be extracted include byte ngrams, Portable Executable (PE) features, API call sequences and Strings. After a thorough analysis we have extracted various features from executable files and applied it on an ensemble of classifiers to efficiently detect malware. Ensemble methods combine several individual pattern classifiers in order to achieve better classification. The challenge is to choose the minimal number of classifiers that achieve the best performance. An ensemble that contains too many members might incur large storage requirements and even reduce the classification performance. Hence the goal of ensemble pruning is to identify a subset of ensemble members that performs at least as good as the original ensemble and discard any other members.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号