首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
异常点检测是数据挖掘的一个重要研究方向,基于Cell的异常点检测算法生成的Cell(单元)数与维数成指数增长.当生成的单元数增多及数据量增大时,基于Cell的算法不能有效工作.分析发现这些单元中存在很多无用的空单元.本文采用CD-Tree结构对非空单元进行索引,并采用聚簇技术,将每个单元中的数据点存放在同一个磁盘页链中.实验表明,采用CD-Tree以及聚簇技术设计的异常点检测磁盘算法的效率,以及所能处理的数据集维数较原基于Cell的磁盘算法都有显著的提高.  相似文献   

2.
一种基于主成分分析的异常点挖掘方法   总被引:2,自引:0,他引:2  
王洪春  彭宏 《计算机科学》2007,34(10):192-194
在对现有异常点挖掘算法分析的基础上,给出了一种异常点挖掘的新方法一基于主成分分析方法,该方法先用基于密度的聚类算法进行聚类,然后把不包含在任何聚类中的周围稀疏的样本对象用主成分分析(PCA)方法进行检验,确定是否为异常点,并通过实验数据验证了算法的可行性和有效性。  相似文献   

3.
IncLOF:动态环境下局部异常的增量挖掘算法   总被引:12,自引:1,他引:12  
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、贷款审批、气象预报、客户分类等方面有广泛的应用,以前的异常检测算法只适应于静态环境,在数据更新时需要进行重新计算,在基于密度的局部异常检测算法LOF的基础上,提出一种在动态环境下局部异常挖掘的增量算法IncLOF,当数据库中的数据更新时,只对受到影响的点进行重新计算,这样可以大大提高异常的挖掘速度,实验表明,在动态环境下IncLOF的运行时间远远小于LOF的运行时间,并且用户定义的邻域中的最小对象个数与记录数之比越小,效果越明显.  相似文献   

4.
一种基于约束的多维数据异常点挖掘方法   总被引:11,自引:0,他引:11       下载免费PDF全文
李翠平  李盛恩  王珊  杜小勇 《软件学报》2003,14(9):1571-1577
数据中的异常点常常反映了企业经营中潜伏的问题或暗藏的商机,数据分析人员经常需要从大量的数据中找出这些异常点.最近提出的一种从数据中自动发现异常点的方法,将人们从繁重的体力劳动中解放出来.然而,该方法在计算效率和伸缩性方面还存在很多不足.针对这些不足,对该方法进行了优化和改进,提出了一种基于约束的多维数据异常点挖掘方法.通过在数据挖掘过程中引入约束条件,首先将数据立方体限制到一个小的多维空间,然后再从中找出异常点.实验结果表明该方法非常有效.  相似文献   

5.
异常数据检测是数据挖掘研究的热点之一。本文在对现有异常点检测算法分析的基础上,提出了一种基于属性的异常点检测算法。简要地介绍了异常检测的现状,对基于属性的异常检测算法进行了详细分析,包括算法设计基础、算法描述、复杂度分析等。并通过与基于距离的异常点检测算法进行实验比较,表明了算法的优越性。  相似文献   

6.
LDC-mine——基于局部偏差系数的孤立点挖掘算法   总被引:1,自引:0,他引:1  
孤立点检测一直是知识发现(KDD)中一个活跃的领域,如信用卡欺诈,入侵检测等。在这些应用领域中研究孤立点的异常行为能够发现隐藏在数据集中更有价值的知识。提出了一个新的度量LDC(局部偏差系数)因子和基于LDC的孤立点挖掘的算法LDC-mine。实验证明:该算法能够有效地检测出孤立点。  相似文献   

7.
《计算机科学与探索》2016,(12):1763-1772
异常点检测在机器学习和数据挖掘领域中有着十分重要的作用。当前异常点检测算法的一大缺陷是正常数据在边缘处异常度较高,导致在某些情况下误判异常点。为了解决该问题,提出了一种新的基于邻域离散度的异常点检测算法。该算法将数据点所在邻域的离散度作为该数据点的异常度,既能有效避免边缘数据点的异常度过高,又能较好地区分正常点与异常点。实验结果表明,该算法能够有效地检测数据中的异常点,并且算法对参数选择不敏感,性能较为稳定。  相似文献   

8.
一种面向高维混合属性数据的异常挖掘算法   总被引:2,自引:0,他引:2  
李庆华  李新  蒋盛益 《计算机应用》2005,25(6):1353-1356
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、气象预报、客户分类和入侵检测等方面有广泛的应用。针对网络入侵检测的需求提出了一种新的基于混合属性聚类的异常挖掘算法,并且依据异常点(outliers)是数据集中的稀有点这一本质,给出了一种新的数据相似性和异常度的定义。本文所提出算法具有线性时间复杂度,在KDDCUP99和WisconsinPrognosisBreastCancer数据集上的实验表明,算本法在提供了近似线性时间复杂度和很好的可扩展性的同时,能够较好的发现数据集中的异常点。  相似文献   

9.
基于数学形态学的模糊异常点检测   总被引:1,自引:0,他引:1  
异常点检测作为数据挖掘的一项重要任务,可能会导致意想不到的知识发现.但传统的异常点检测技术都忽略了数据的自然结构,即异常点与簇的联系.然而,把异常点得分和聚类方法结合起来有利于对异常点与簇的联系的研究.提出基于数学形态学的模糊异常点检测与分析,把数学形态学技术和基于连接的异常点检测方法集成到一个模糊模型中,从异常隶属度和模糊隶属度这两个方面来分析对象与簇集的模糊关系.通过充分的实验证明,该算法能够对复杂面状和变密度的数据集,正确、高效地找出异常点,同时发现与异常点相关联的簇信息,探索异常点与簇核的关联深度,对异常点本身的意义具有启发作用.  相似文献   

10.
钱敏 《福建电脑》2007,(9):30-31
随着人们对数据质量、欺诈检测、网络入侵、隐私保护等问题的关注,孤立点挖掘在数据挖掘领域日益受到重视。本文在调研国内外孤立点挖掘研究算法文献的基础上,对已有各种孤立点挖掘算法进行了总结和比较,并结合当前研究热点,展望了孤立点挖掘未来的研究方向及其面临的挑战。  相似文献   

11.
描述了离群数据挖掘的基本理论以及经典算法,提出附加约束的基于规则的离群数据挖掘算法,并根据过去几十年数据的特点,提出了一种运用离群数据挖掘进行病虫害预测的模型。实验证明,通过对实际病虫害气象数据进行挖掘,预测的结果合理,预测效率提高。  相似文献   

12.
离群点挖掘研究   总被引:9,自引:1,他引:8  
随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,离群点挖掘研究日益受到重视。在充分调研国内外离群点挖掘研究成果的基础上,介绍了数据库领域离群点挖掘的研究进展,并概要地总结和比较了已有的各种离群点挖掘方法,展望了离群点挖掘研究的未来发展方向和面临的挑战。  相似文献   

13.
描述了离群数据挖掘的基本理论以及经典算法,提出附加约束的基于规则的离群数据挖掘算法,并根据过去几十年数据的特点,提出了一种运用离群数据挖掘进行病虫害预测的模型。实验证明,通过对实际病虫害气象数据进行挖掘,预测的结果合理,预测效率提高。  相似文献   

14.
一种时序数据的离群数据挖掘新算法   总被引:11,自引:0,他引:11  
离群数据挖掘是数据挖掘的重要内容,针对时序数据进行离群数据挖掘方法的研究。首先通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间,将时序数据映射为多维空间的点,在此基础上,提出一种新的基于距离的离群数据挖掘算法。对某钢铁企业电力负荷时序数据进行仿真实验,结果表明了算法的有效性。  相似文献   

15.
基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

16.
基于距离的孤立点检测及其应用   总被引:13,自引:2,他引:13  
孤立点检测是一个有趣的知识发现任务,文章介绍了基于距离的孤立点检测及其相关概念,分析了几种有代表性的算法。最后,文章给出了一个判定孤立点的新的定义,并按此定义进行了检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的需求,同时给出了数据对象在数据集中的孤立程度。  相似文献   

17.
张璐璐  贾瑞玉  李杰 《微机发展》2006,16(12):73-75
离群数据挖掘是指从大量数据中挖掘明显偏离、不满足一般行为模式的数据。现有的离群数据挖掘算法大多对密集的交易数据库缺乏有效的处理,文中提出了一种高效的基于规则的离群挖掘算法。该算法使用了多层最大离群支持度及最小离群兴趣度,计算1-离群条件集的幂集,并在数据结构中存储了交易标识符链表,使得扫描数据库的次数仅为一次,从而提高了挖掘的速度、效率且使得结果更具有决策意义。文中使用此算法对某一商场的部分销售数据库进行了实验,结果表明该算法能有效、迅速地发现密集数据库中的离群数据。  相似文献   

18.
基于规则的分类数据离群挖掘方法研究   总被引:15,自引:0,他引:15  
离散数据的挖掘(outlier minign,简称离群挖掘)是数据挖掘的重要内容,现有的离群数据挖掘算法大多对分类数据(categorical data)缺乏有效的处理,提出了基于规则的分类数据离群挖掘方法,采用多层最大离群支持度maxsup,搜索离群规则,有效地解决了这一问题,用这一方法对医学流行病数据进行了各种,分析了该方法的适用范围、性能,验证了方法正确性;另外,实验表明,经过离散化后,基于  相似文献   

19.
提出了基于聚类的孤立点检测算法,减小了孤立点检测的时间复杂度,理论和实验证明了基于聚类的孤立点检测算法的有效性.  相似文献   

20.
基于距离的孤立点检测研究   总被引:15,自引:0,他引:15  
孤立点检测是一个重要的知识发现任务,在分析基于距离的孤立点及其检测算法的基础上,文章提出了一个判定孤立点的新定义,并设计了基于抽样的近似检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的要求,同时给出了数据对象在数据集中的孤立程度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号