首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
研究了基于模型共享的集成学习分布式异常检测模型,采用多数投票、边界扩展、平均叠加和距离加权4种不同的集成学习方法得到全部的局部模型;采用交换本地数据挖掘模型的方式来实现数据共享,从而构造出一个总体的集成学习模型。从全局的观点检测异常,减少了集中式检测所需数据的传输量,有效保护了数据提供者的隐私性。仿真实验结果表明,该方法的检测性能与集中式检测的性能相当,甚至更好。  相似文献   

2.
陈小玉  李晓静  周绪川 《计算机工程》2012,38(11):262-263,267
传统集中式异常检测方法需要耗费大量的网络资源和计算时间。为此,提出一种基于模型共享的分布式异常检测方法。利用多数投票、边界扩展、平均叠加以及距离加权这4种集成学习方法得到全部局部模型,通过交换本地数据挖掘模型的方式实现数据共享,构造总体的集成式学习模型。实验结果表明,该模型能从全局的观点检测异常,减少集中式检测所需的数据传输量,有效地保护数据的隐私性。  相似文献   

3.
内网恶意内部活动的证据通常隐藏在大型数据流中,例如数月或数年累积的系统日志,然而数据流往往是无界的、不断变化的和未标记的.因此,为实现高度准确的异常检测,提出集成流挖掘和图挖掘的内网异常检测方法,在发挥图挖掘的无监督优势的同时,融入了流挖掘的良好自适应能力.采用集成的方法,通过集成分类和更新,当出现概念漂移时,保证集成...  相似文献   

4.
    
Abstract: The success in developing an application employing the Multilayer perceptron (MLP) as knowledge representation form is very dependent on the degree of complexity that the structure of the application's domain has. Different mathematical and/or statistical techniques have been developed to subtract the maximum amount of information of this type from an available sample of the operating space associated to the task of interest. In the context of MLP it has been used to decide on the form the different intervening parameters of the network and/or related learning algorithm (LA) should have. This paper provides an overview of the processes that have been defined to generate network applications using the MLP model, giving particular attention to those based on the dynamic creation of a network's architecture through the application of different techniques for subtracting information about the operating domain in which the training set is subsumed.  相似文献   

5.
二次集成学习在医疗数据挖掘中的应用   总被引:1,自引:0,他引:1  
CCDM 2014数据挖掘竞赛基于医学诊断数据,提出了实际生活中广泛出现的多类标问题和多类分类问题。针对两个问题出现的类别不平衡现象以及训练样本较少等特点,为了更好地完成数据挖掘任务,借助二次学习和集成学习的思想,提出了一个新的学习框架--二次集成学习。该学习框架通过首次集成学习得到若干置信度较高的样本,将其加入到原始训练集,并在新的训练集上进行二次学习,进而得到泛化性能更高的分类器。竞赛结果表明,与常用的集成学习相比,二次集成学习在两个问题上均取得了非常理想的结果。  相似文献   

6.
    
Discovering previously unknown anomalies that are rare and dramatically differ from the majority of the data is a critical need for the automotive industry. Rare itemset mining (RIM), one of the pattern-based methods, has been used for anomaly detection due to providing successful analysis results. However, several aspects still need to be explored, such as improving the mining process by identifying more targeted, valuable and reliable rare itemsets. Motivated by this fact, this study proposes a novel approach, named ensemble of rare itemset mining (ERIM), which investigates weak rare itemsets (WRIs) using different algorithms and aggregates these rules to obtain strong rare itemsets (SRIs). This study also combines four different RIM algorithms (Apriori Rare, Apriori Inverse, CORI and RP-Growth) as base learners for the first time. The proposed ERIM approach is a general methodology that can be applied to any field, but, in this study, it was used in the automotive industry as a case study. In the experiments, ERIM was applied to a real-world gear manufacturing dataset to discover anomalies in machine downtimes. The experimental results were evaluated in terms of the number of itemsets and the length of itemsets by giving some samples, as well. The results showed that the proposed ERIM approach gives more reliable common knowledge by jointly considering the relation between WRIs discovered by the base learners. The findings indicated that the proposed ERIM technique was successful in detecting anomalies whose support values are below 7.12. Furthermore, it is clear from the experimental results that the ERIM discovered the highest number of SRIs, 1403, each of which is a 3-itemset. Finally, the results showed that our method performed 43.37% better on average than state-of-the-art methods on the same dataset.  相似文献   

7.
    
In machine learning research and application, multiclass classification algorithms reign supreme. Their fundamental property is the reliance on the availability of data from all known categories to induce effective classifiers. Unfortunately, data from so‐called real‐world domains sometimes do not satisfy this property, and researchers use methods such as sampling to make the data more conducive for classification. However, there are scenarios in which even such explicit methods to rectify distributions fail. In such cases, 1‐class classification algorithms become the practical alternative. Unfortunately, domain complexity severely impacts their ability to produce effective classifiers. The work in this article addresses this issue and develops a strategy that allows for 1‐class classification over complex domains. In particular, we introduce the notion of learning along the lines of underlying domain concepts; an important source of complexity in domains is the presence of subconcepts, and by learning over them explicitly rather than on the entire domain as a whole, we can produce powerful 1‐class classification systems. The level of knowledge regarding these subconcepts will naturally vary by domain, and thus, we develop 3 distinct methodologies that take the amount of domain knowledge available into account. We demonstrate these over 3 real‐world domains.  相似文献   

8.
目前,网络对抗对入侵检测智能化和自主性的需求不断提高,基于深度学习的方法通过训练和学习来区分复杂攻击模式和行为,但有监督的学习方法需要专家知识和大量人工开销。针对上述问题,文章提出一种基于集成学习的无监督网络入侵检测方法,并使用基于3种不同异常检测理念的深度学习检测器,在3种不同集成逻辑下对各单检测器的检测结果进行检测判定。该方法可以综合分析时间序列数据中不同类型的异常数据,降低无监督异常检测模型由于过度拟合所造成的影响,并以一种高效的在线方式检测可能存在的网络攻击数据流。在KDD CUP 1999和CSE-CIC-IDS 2018数据集上进行验证,实验结果表明,与其他单一的无监督异常检测模型相比,文章提出的集成方法结合了不同无监督检测模型的优势,适用于对多种网络入侵引起的异常进行检测。  相似文献   

9.
异常检测系统在网络空间安全中起着至关重要的作用,为网络安全提供有效的保障.对于复杂的网络流量信息,传统的单一的分类器往往无法同时具备较高检测精确度和较强的泛化能力.此外,基于全特征的异常检测模型往往会受到冗余特征的干扰,影响检测的效率和精度.针对这些问题,本文提出了一种基于平均特征重要性的特征选择和集成学习的模型,选取决策树(DT)、随机森林(RF)、额外树(ET)作为基分类器,建立投票集成模型,并基于基尼系数计算基分类器的平均特征重要性进行特征选择.在多个数据集上的实验评估结果表明,本文提出的集成模型优于经典集成学习模型及其他著名异常检测集成模型.且提出的基于平均特征重要性的特征选择方法可以使集成模型准确率平均进一步提升约0.13%,训练时间平均节省约30%.  相似文献   

10.
多层感知器神经网络(MLPs)的学习过程经常发生一些奇异性行为,容易陷入平坦区,这都和MLPs的参数空间中存在的奇异性区域有直接关系.当MLPs的两个隐节点的权值接近互反时,置换对称性会导致学习困难.对MLPs的互反奇异性区域附近的学习动态进行分析.本文首先得到了平均学习方程的解析表达式,然后给出了互反奇异性区域附近的理论学习轨迹,并通过数值方法得到了其附近的实际学习轨迹.通过仿真实验,分别观察了MLPs的平均学习动态,批处理学习动态和在线学习动态,并进行了比较分析.  相似文献   

11.
数据流中的概念漂移和类别不平衡问题会严重影响数据流分类算法的性能和稳定性.针对二分类数据流中概念漂移和类别不平衡的问题,在基于数据块的集成分类方法上引入成员分类器权重的在线更新机制,结合重采样和自适应滑动窗口技术,提出了一种基于G-mean加权的不平衡数据流在线分类方法(online G-mean update ensemble for imbalance learning, OGUEIL).该方法基于集成学习框架,利用时间衰减因子增量计算成员分类器最近若干实例上的G-mean性能,并确定成员分类器权重,每到达一个新实例,在线更新所有成员分类器及其权重,并对少类实例进行随机过采样.同时,OGUEIL会周期性地根据当前数据构造类别平衡数据集训练新的候选分类器,并选择性地添加至集成框架中.在真实和人工数据集上的结果表明,所提方法的综合性能优于其他同类方法.  相似文献   

12.
信用卡欺诈检测是一个重要的问题,为了提升对于真实世界的信用卡欺诈数据的识别率,提出了一种混合的信用卡欺诈检测模型AWFD(Anomaly weight of credit card fraud detection),首先通过异常检测的方法将数据划分为可信和异常数据,然后利用半监督的方法训练一个集成模型,最终再利用异常检测进一步剔除检测结果中的异常结果。AWFD在保障对于可信数据的学习效果上,通过半监督集成学习的方法,利用异常数据进一步扩充集成模型的多样性,并将异常检测和集成模型融合。实验结果表明,比起一些传统的机器学习方法,AWFD可以提高整体的信用卡欺诈检测的识别率。  相似文献   

13.
在开放环境下,数据流具有数据高速生成、数据量无限和概念漂移等特性.在数据流分类任务中,利用人工标注产生大量训练数据的方式昂贵且不切实际.包含少量有标记样本和大量无标记样本且还带概念漂移的数据流给机器学习带来了极大挑战.然而,现有研究主要关注有监督的数据流分类,针对带概念漂移的数据流的半监督分类的研究尚未引起足够的重视....  相似文献   

14.
目前医用胶囊生产过程中的缺陷检测主要由人工完成,费时费力,容易受主观因素的影响。提出一种基于堆叠降噪自动编码器的胶囊表面缺陷检测方法,该方法首先建立深度自动编码器网络,并根据缺陷样本进行降噪训练,获取网络的初始权值;然后通过BP算法进行微调,得到训练样本到无缺陷模板之间的映射关系;最后利用重构图像与缺陷图像之间的对比关系,实现测试样本的缺陷检测。实验表明,堆叠降噪自动编码器较好地建立了上述映射关系,能快速、准确地进行缺陷检测,对噪声具有很强的鲁棒性和稳定性。  相似文献   

15.
针对传统基于相似度的离群点检测算法在高维不均衡数据集上效果不够理想的问题,提出一种新颖的基于随机投影与集成学习的离群点检测(ensemble learning and random projection-based outlier detection,EROD)框架。算法首先集成多个随机投影方法对高维数据进行降维,提升数据多样性;然后集成多个不同的传统离群点检测器构建异质集成模型,增加算法鲁棒性;最后使用异质模型对降维后的数据进行训练,训练后的模型经过两次优化组合以降低泛化误差,输出最终的对象离群值,离群值高的对象被算法判定为离群点。分别在四个不同领域的高维不均衡真实数据集上进行对比实验,结果表明该算法与传统离群点检测算法和基于集成学习的离群点检测算法相比,在AUC和precision@n值上平均提高了3.6%和14.45%,证明EROD算法具有处理高维不均衡数据异常的优势。  相似文献   

16.
陈宏彩  程煜  张常有 《软件学报》2017,28(S1):107-114
我国机动车保有量急速增长,产生一系列严重的安全与交通问题.与此同时,视频图像文件呈爆炸式增长,为公安的监控、刑侦以及案件的侦破带来了很大的困扰.车辆目标检测与识别越来越受到人们的关注,研究一种高效而准确的车辆目标检测方法意义重大.在YOLO目标检测框架的基础上,设计了一种卷积神经网络的车辆检测及其车型粗粒度识别方法.网络结构采用多层感知机卷积层,增加特征映射的非线性处理能力;移除原来模型中的全连接层,利用锚点框预测目标的边界框,在降低模型复杂度的同时提高了目标检测的召回率.实验结果表明,与主流的目标检测方法相比,该车辆目标检测方法在处理速度和准确度上都有提高,在迭代20 000次的情况下,平均准确率为94.7%.  相似文献   

17.
    
Security and threats are growing immensely due to the higher usage of internet of things applications in all aspects. Due to imbalanced nature of IoT security data, the designing of model‐based anomaly detection in IoT network poses a challenge for machine learning model as most of the machine learning model assumes the equal number of samples for each class. Approximately, 2.79% of IoT network profiles are of anomaly types which impose severe imbalance where there are three samples in the anomaly types for hundreds of samples in the majority normal class. This results in poor predictive performance for identification of anomaly type, which is essentially a problem because the anomaly type is more sensitive than the normal activity type. This work proposes a multiclass adaptive boosting ensemble learning‐based model with the synthetic minority oversampling technique for prediction of an anomaly in IoT network. The proposed approaches are simulated with DS2OS data and the performance is compared with other machine learning approaches. The evaluation metrics such as sensitivity, F1‐score, and receiver operating characteristic‐AUC imply the efficiency of the proposed approach in handling the imbalanced nature of the data and found efficient to identify both anomaly types and normal activity.  相似文献   

18.
随着校园卡的应用场景越来越广泛,校园卡的资金安全问题日益突出,校园卡欺诈不但给师生和校内商家带来经济损失,还会危害校园的正常秩序。针对传统异常检测方法无法有效提取学生消费数据时序特征的问题,提出一种基于半监督学习的学生消费数据异常检测方法。首先,利用门控循环单元改进自编码器,使得模型可以更准确地进行消费数据的重构;然后,采用马氏距离计算重构误差,计算Fβ-分数确定误差阈值,进行异常数据的检测;最后,利用所提方法对某高校的学生消费数据进行异常检测实验。实验结果表明,所提方法具有更优越的检测性能。  相似文献   

19.
在监督或半监督学习的条件下对数据流集成分类进行研究是一个很有意义的方向.从基分类器、关键技术、集成策略等三个方面进行介绍,其中,基分类器主要介绍了决策树、神经网络、支持向量机等;关键技术从增量、在线等方面介绍;集成策略主要介绍了boosting、stacking等.对不同集成方法的优缺点、对比算法和实验数据集进行了总结与分析.最后给出了进一步研究方向,包括监督和半监督学习下对于概念漂移的处理、对于同质集成和异质集成的研究,无监督学习下的数据流集成分类等.  相似文献   

20.
目前,针对数据库系统内部攻击与威胁的检测方法较少,且已有的数据库异常检测方案存在代价开销高、检测准确率低等问题.为此,将密度聚类和集成学习融合,提出一种基于密度聚类和集成学习的数据库异常检测方法.利用OPTICS(Ordering Points To Identify the Clustering Structure)密度聚类算法对用户产生的数据库SQL操作日志进行聚类,通过对SQL语句中的各属性进行分析,提取用户的异常行为,形成先验知识;将Bagging、Boosting和Stacking进行组合,形成集成学习模型,以OPTICS聚类形成的先验知识为基础,并利用该集成学习模型对用户行为作进一步分析,并创建用户行为特征库.基于用户形成特征库,对用户行为进行检测.给出了方案的详细构建过程,包括数据预处理、训练、学习模型建立以及异常检测;利用相关实验数据进行测试,结果表明本方案能以较高的效率检测出数据库异常行为,并且在准确率方面优于同类方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号