首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 153 毫秒
1.
《计算机科学与探索》2017,(12):1984-1992
为了解决数据库属性异常点检测方法时间复杂度大并且查准率和查全率不高的问题,提出了新的基于人工蜂群优化技术(artificial bee colony,ABC)和O-measure度量(一种评估属性异常点的度量)相结合的属性异常点检测方法,模拟人工蜂群随机搜索较优的食物源能力发现属性异常点。针对群体智能算法检测属性异常点会陷入局部收敛的缺陷,提出使用模拟退火技术让人工蜂群跳出局部最优解而找到全局最优解的算法。该算法通过蜂群在二维数据平面上搜索食物源,计算所经过路径上的数据项O-measure适应度,从中寻找最优解(即属性异常点)。实验结果表明,所提算法较之前的算法耗时短,且提高了检测的准确率和查全率。  相似文献   

2.
异常检测一直是数据挖掘领域的重要工作之一。基于欧式距离的异常检测算法在应用于高维数据时存在检测精度无法保证和运行时间过长的问题。在基于角度方差的异常检测算法基础上提出了一种多层次的高维数据异常检测算法(Hybrid outlier detection algorithm based on angle variance for High-dimensional data, HODA)。算法结合了粗糙集理论,分析属性之间的相互作用以排除影响较小的属性;通过分析各维度上的数据分布,对数据进行网格划分,寻找可能存在异常点的网格;最后对可能存在异常点的网格计算角度方差异常因子,筛选异常数据。实验结果表明,与ABOD, FastVOA和经典LOF算法相比,HODA算法在保证精测精度的前提下,运行时间显著缩短且可扩展性强。  相似文献   

3.
提出一种新的基于粒子群优化算法的属性异常检测算法。该算法利用粒子群优化算法简单、寻优速度快的优点检测属性异常,在粒子群寻找最优值的过程中发现可能是属性异常的数据,并采用Omeasure适应度评估属性异常,算法的时间复杂度是多项式级的。与全搜索检测算法相比,大幅减少了搜索范围;同时,与完全随机算法相比,采用启发式搜索规则,提高了查全率及查准率。实验结果表明,粒子群检测算法不仅执行效率高,而且保持了较高的查全率与查准率。  相似文献   

4.
基于密度偏倚抽样的局部距离异常检测方法   总被引:1,自引:0,他引:1  
付培国  胡晓惠 《软件学报》2017,28(10):2625-2639
异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此本文提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法.对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.之后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,和已有的算法相比,本算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强.  相似文献   

5.
分类异常点检测算法及在IDS模型中的应用   总被引:1,自引:0,他引:1  
在分析了各种异常点检测算法的基础上,提出了一种分类异常点检测算法,该方法能够对数据在各个方面表现出的异常情况进行全面检测,精确度高、时间消耗少。提出了一个入侵检测系统模型,包括异常检测层和误用检测层,在异常检测中应用了分类异常点检测方法,该模型可以明显减少系统的漏报率。  相似文献   

6.
为了提高局部异常检测算法的检测效率以及检测的准确度,提出基于Hadoop的分布式局部异常检测算法MRDINFLO。该算法在INFLuenced Outlierness(INFLO)算法的基础上,引入了MapReduce计算框架,将数据点的k近邻、k距离、反向k近邻、局部离群因子的计算并行化处理,从而提高了检测效率。算法在计算各个数据对象之间的距离时采用加权距离,通过引入信息熵来判断离群属性,给离群属性以较大的权重,从而提高了异常检测的准确度。实验在3节点Hadoop集群上进行,输入数据为KDD-CUP 99。当输入数据集大小为500万条时,所提出的MR-DINFLO算法检测准确度为0. 94,检测时间为2 589 s。实验结果表明该算法具有高效可行性。  相似文献   

7.
异常检测是一种流行的数据挖掘任务,但是轨迹数据的异常检测的研究比较少,而且存在的算法也较有局限性,因此J.-G Lee等人提出了TRAOD算法。该算法能够有效地检测出异常的轨迹,但是也存在着缺陷。它的复杂度和准确度比较难平衡,在参数的选取上也比较难,算法的运行时间较长。基于TRAOD的问题,提出一种基于R-tree的高效的异常轨迹检测算法R-TRAOD。该算法通过R-tree对轨迹点进行索引搜索其领域内的轨迹点,然后根据TRAOD算法对R-tree索引出来的轨迹点进行异常轨迹的检测,这样可以提高算法的运行速度。真实数据实验测试表明,该算法比最新的TRAOD异常轨迹挖掘算法效率要高。  相似文献   

8.
一种面向高维混合属性数据的异常挖掘算法   总被引:2,自引:0,他引:2  
李庆华  李新  蒋盛益 《计算机应用》2005,25(6):1353-1356
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、气象预报、客户分类和入侵检测等方面有广泛的应用。针对网络入侵检测的需求提出了一种新的基于混合属性聚类的异常挖掘算法,并且依据异常点(outliers)是数据集中的稀有点这一本质,给出了一种新的数据相似性和异常度的定义。本文所提出算法具有线性时间复杂度,在KDDCUP99和WisconsinPrognosisBreastCancer数据集上的实验表明,算本法在提供了近似线性时间复杂度和很好的可扩展性的同时,能够较好的发现数据集中的异常点。  相似文献   

9.
异常点是数据集中看起来与其他数据有着明显差别的点或者区域。异常点往往并不是错误,并且经常包含比较重要的信息。本文提出一种基于频繁模式的增量式异常检测方法,定义增量式异常检测异常点的性质,使用异常点因子来检测候选集,然后通过改进候选集的来进行迭代确定异常点,最后使用数据对该算法效率进行验证。  相似文献   

10.
针对孤立森林通过随机选择属性进行数据空间分割,在面对高维数据时具有不可靠性这一问题,提出了一种基于高对比度子空间的改进孤立森林算法 (high contrast subspace isolation forest,HiForest)。首先,该方法基于子空间各属性边缘概率与联合概率间的偏差值,选取具有高对比度值的子空间;其次,在相关子空间中构建离群点检测能力更优的隔离树,多棵隔离树集成为隔离林,通过遍历数据点在隔离森林中的平均路径长度从而得到异常分数。基于ODDS数据集的实验表明,与传统的异常检测算法相比,HiForest在曲线下面积、查准率、召回率和F1-score评价指标上均有较明显的提升。因此,HiForest算法是一种适用于中高维数据集,检测精度更高的异常检测算法。  相似文献   

11.
Outlier detection is an imperative field of data mining that has several applications in the field of medical research. Mining outliers based on the notion of rare patterns can be a promising solution for medical diagnosis as it attempts to identify the unconventional and abnormal risk patterns present in medical data. A crucial issue in medical data analysis is the continuous growth of medical databases due to the addition of new records. Existing outlier detection techniques are capable of handling only static data and thus re-execute from scratch to identify the outliers from incremental medical data. This paper introduces an efficient rare pattern based outlier detection (RPOD) method that identifies outliers by mining rare patterns from incremental data. To avoid multiple database scans and expensive candidate generation steps performed by existent rare pattern mining techniques and facilitate incremental mining, a single pass prefix tree-based rare pattern mining technique is proposed. The proposed rare pattern mining technique is a modification of the well-known FP-Growth frequent pattern mining algorithm. Furthermore, to identify the outliers based on the set of generated rare patterns, an outlier detection technique is also presented. The significance of proposed RPOD approach is demonstrated using several well-known medical datasets. Comparative performance evaluation substantiates the predominance of RPOD approach over existing outlier mining methods.  相似文献   

12.
传统的入侵检测技术主要是从已知攻击数据中提取出每种具体攻击的特征规则模式,然后使用这些规则模式来进行匹配。然而基于规则的入侵检测的主要问题是现有的规则模式并不能有效应对持续变化的新型入侵攻击。针对这一问题,基于数据挖掘的入侵检测方法成为了入侵检测技术新的研究热点。本文提出了一种基于孤立点挖掘的自适应入侵检测框架,首先,基于相似系数寻找孤立点,然后对孤立点集合进行聚类,并使用改进的关联规则算法来从孤立点聚类结果中提取出各类入侵活动的潜在特征模式,然后生成可使用的匹配规则模式来添加到现有的规则模式中去,进而达到自适应的目的。本文使用KDD99的UCI数据集进行孤立点挖掘,然后使用IDS Snort的作为实验平台,使用IDS Informer模拟攻击工具进行测试,这两个实验结果表明了本文所提出算法的有效性。  相似文献   

13.
张旻  张铃 《计算机科学》2005,32(4):27-30
本文提出一种通过构造覆盖领域进行离群点(outlier)挖掘的新方法。由于覆盖领域构造的特殊性,使得覆盖算法非常适合离群点的挖掘。在分析覆盖模型的基础上,给出了覆盖模型的离群点的定义和算法步骤。这样将复杂的离群点挖掘问题变成十分简单的覆盖领域样本分析问题,而且算法十分直观,并能很好地解释离群点的含义,同时适合对高维及海量数据的处理。本文给出实验例子,结果表明该方法是有效可行的。  相似文献   

14.
基于信息论的高维海量数据离群点挖掘   总被引:1,自引:1,他引:0  
针对高维海量数据集离群点挖掘存在“维数灾难”的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息嫡作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。  相似文献   

15.
基于距离的异常数据挖掘算法及其应用   总被引:6,自引:0,他引:6  
给出了基于距离的异常数据的数量化定义,提出了基于距离的多指标的异常数据挖掘算法,这种算法适合于一般的海量数据库中的数据分析,以学生考试成绩作为实例进行了分析,可以从中动态地挖掘异常数据。作为特例,把单指标的异常数据挖掘算法应用于校园网Web服务器日志文件,给出了上网用户的频率分析图。  相似文献   

16.
基于异类挖掘的网络入侵检测方法   总被引:6,自引:0,他引:6  
朱明  明鸣  王军 《计算机工程》2003,29(13):125-127
针对目前基于异常入侵检测方法所存在的问题,提出了一种基于异类挖掘的聚类方法,该方法通过对采用多种不同类型描述的连接记录对象进行异类数据挖掘,从而实现从大流量网络活动记录数据中快速检测出与正常系统与网络活动相异的已知或未知入侵行为。最后利用KDD ’99入侵检测大赛的数据对所提方法进行了检验,实验结果表明了此方法是有效的。  相似文献   

17.
基于距离和基于密度的离群点检测算法受到维度和数据量伸缩性的挑战, 而空间数据的自相关性和异质性决定了以属性相互独立和分类属性的基于信息理论的离群点检测算法也难以适应空间离群点检测, 因此提出了基于全息熵的混合属性空间离群点检测算法。算法利用区域标志属性进行区域划分, 在区域内利用空间关系确定空间邻域, 并用R*-树进行检索。在此基础上提出了基于全息熵的空间离群度的度量方法和空间离群点挖掘算法, 有效解决了混合属性的离群度的度量和离群点的挖掘问题。由于实现区域划分有利于并行计算, 从而可适应大数据量的计算。理论和实验证明, 所提算法在计算效率和实验结果的可解释性方面均具有优势。  相似文献   

18.
在对入侵检测技术研究的基础上,分析了数据挖掘技术在入侵检测中应用的可行性.并且建立了一种基于数据挖掘的IDS模型.经过分析入侵检测中应用的几种异常点检测算法,归纳和总结了它们的特点,为其他研究者提出新的算法提供了依据.  相似文献   

19.
基于离群指数的时序数据离群挖掘   总被引:12,自引:0,他引:12  
离群数据挖掘(0utlier mining,简称离群挖掘)是数据挖掘的重要内容.该文针对时序 数据进行离群数据挖掘方法的研究,提出了离群指数的概念,在此基础上设计了时序数据离群数 据挖掘算法,并对某钢铁企业电力负荷时序数据进行离群数据挖掘,结果表明了算法的有效性.  相似文献   

20.
一种基于主成分分析的异常点挖掘方法   总被引:2,自引:0,他引:2  
王洪春  彭宏 《计算机科学》2007,34(10):192-194
在对现有异常点挖掘算法分析的基础上,给出了一种异常点挖掘的新方法一基于主成分分析方法,该方法先用基于密度的聚类算法进行聚类,然后把不包含在任何聚类中的周围稀疏的样本对象用主成分分析(PCA)方法进行检验,确定是否为异常点,并通过实验数据验证了算法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号