首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
曹洪其  孙志挥 《计算机应用》2007,27(10):2369-2371
提出了一种基于网格技术的高维大数据集离群点挖掘算法(OMAGT)。该算法针对高维大数据集的分布特性,首先采用基于网格技术的方法寻找出聚类区域,并删除聚类区域内不可能成为离群点的聚类点集,然后运用局部离群因子(LOF)算法对剩下的点集进行离群点挖掘。OMAGT算法较好地实现了聚类信息的动态释放,将保留的离群点挖掘信息控制在一定的内存容量范围内,提高了算法的时间效率和空间效率。理论分析与实验结果表明OMAGT算法是可行和有效的。  相似文献   

2.
目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据。针对这些问题,提出一种基于密度划分的离群点检测算法DD-DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用"分而治之"的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。  相似文献   

3.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的.  相似文献   

4.
为有效从网络中挖掘出民众关注的热点事件和话题,提高数据分类能力、热点追踪和检测正确率,在分析目前采用非结构化传统挖掘算法所存在问题的基础上,提出一种基于结构化分割的挖掘算法。首先通过分析热点事件挖掘处理流程,设计一种对热点事件数据挖掘的半结构化特征提取算法,对半结构化数据进行特征分割,生成大量请求,进而得到热点事件数据的分配因子,从而提高挖掘性能。仿真结果表明,该算法运行效率较高,精度较好,具有较高的稳健性。  相似文献   

5.
离群点检测是数据挖掘一个重要内容,它为分析各种海量的、复杂的、含有噪声的数据提供了新的方法。对离群数据挖掘几类主要的方法进行了分析和评价,并在此基础上了提出了一种基于遗传聚类的离群点检测算法。该算法结合了遗传算法全局搜索的优点和K-均值方法局部收敛速度快的特点,取得较好效果。实验验证该算法很好地检测到数据集中的离群点,同时还完成了数据集的聚类。具有较好的实用性。  相似文献   

6.
基于蚁群聚类算法的离群挖掘方法   总被引:9,自引:4,他引:9  
离群挖掘是数据挖掘研究的重要内容,在实际生活中获得广泛应用。该文首先给出了离群数据的量化定义,并用基于蚁群的聚类学习方法,产生了状态空间的整体特征。然后结合具体的设备对象,提出了离群数据的挖掘方法。最后进行了实验验证,结果表明该文提出的方法是有效的。  相似文献   

7.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

8.
离群点挖掘研究   总被引:9,自引:1,他引:8  
随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,离群点挖掘研究日益受到重视。在充分调研国内外离群点挖掘研究成果的基础上,介绍了数据库领域离群点挖掘的研究进展,并概要地总结和比较了已有的各种离群点挖掘方法,展望了离群点挖掘研究的未来发展方向和面临的挑战。  相似文献   

9.
NLOF:一种新的基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想。首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集。然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度。在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,対属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离。 在真实数据集上 对NLOF算法进行了充分的验证。结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

10.
基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

11.
基于网格聚类技术的离群点挖掘算法   总被引:6,自引:0,他引:6  
曹洪其  余岚  孙志挥 《计算机工程》2006,32(11):119-121,124
针对离群点的挖掘,在现有的LOF算法的基础上,提出了一种基于网格聚类技术的离群点挖掘算法AOMGC。该算法将离群点挖掘分成两步挖掘过程。此外,该算法对其网格的划分加以改进,并能根据数据信息自动生成划分间隔,从而提高了数据挖掘的效率。实验结果表明AOMGC算法是可行的和有效的。  相似文献   

12.
异常挖掘方法研究   总被引:7,自引:0,他引:7  
该文首先简单介绍了与异常挖掘有关的几个问题,然后详细介绍了异常挖掘的各种方法,最后对各种方法的优缺点进行了比较。  相似文献   

13.
基于改进遗传算法的网络差异数据挖掘算法   总被引:3,自引:0,他引:3  
网络差异数据的准确挖掘方法在数据处理领域占据十分重要的地位.利用传统算法进行网络差异数据挖掘,遇到特征相似性干扰时,以模糊规则建立挖掘关联规则,但是,在建立模糊规则时,一旦特征过于接近,需要加入很多约束条件建立规则,导致规则复杂,具有较强的局限性,计算过程较为繁琐.提出了基于混合式遗传算法的网络差异数据挖掘方法,改进原有遗传算法应用的局限性,把模糊理论融合到大变异操作中,形成模糊大变异操作,并利用自适应遗传算法和最佳选择策略机制与过滤操作的思想,将其应用于网络差异数据挖掘中.实验结果证明,基于混合式遗传算法的网络差异数据挖掘方法效率高,精准度高.  相似文献   

14.
论文提出了基于密度的异常挖掘新方法,并将其应用于入侵检测系统引擎设计中,构建了相应的网络入侵检测系统。该系统通过挖掘异常数据的高效性,可及时发现新的未知入侵行为,用以更新入侵规则库。基于该规则库,系统采用BM模式匹配算法进行实时入侵检测。论文运用形式化语言对入侵检测系统各子模块进行结构化分析与描述。  相似文献   

15.
The paper puts forward a new method of densitybased anomaly data mining, the method is used to design the engine of network intrusion detection system (NIDS), thus a new NIDS is constructed based on the engine. The NIDS can find new unknown intrusion behaviors, which are used to updated the intrusion rule-base, based on which intrusion detections can be carried out online by the BM pattern match algorithm. Finally all modules of the NIDS are described by formalized language.  相似文献   

16.
Finding the rare instances or the outliers is important in many KDD (knowledge discovery and data-mining) applications, such as detecting credit card fraud or finding irregularities in gene expressions. Signal-processing techniques have been introduced to transform images for enhancement, filtering, restoration, analysis, and reconstruction. In this paper, we present a new method in which we apply signal-processing techniques to solve important problems in data mining. In particular, we introduce a novel deviation (or outlier) detection approach, termed FindOut, based on wavelet transform. The main idea in FindOut is to remove the clusters from the original data and then identify the outliers. Although previous research showed that such techniques may not be effective because of the nature of the clustering, FindOut can successfully identify outliers from large datasets. Experimental results on very large datasets are presented which show the efficiency and effectiveness of the proposed approach. Received 7 September 2000 / Revised 2 February 2001 / Accepted in revised form 31 May 2001 Correspondence and offprint requests to: A. Zhang, Department of Computer Science and Engineering, State University of New York at Buffalo, Buffalo, NY 14260, USA. Email: azhang@cse.buffalo.eduau  相似文献   

17.
张璐璐  贾瑞玉  李杰 《微机发展》2006,16(12):73-75
离群数据挖掘是指从大量数据中挖掘明显偏离、不满足一般行为模式的数据。现有的离群数据挖掘算法大多对密集的交易数据库缺乏有效的处理,文中提出了一种高效的基于规则的离群挖掘算法。该算法使用了多层最大离群支持度及最小离群兴趣度,计算1-离群条件集的幂集,并在数据结构中存储了交易标识符链表,使得扫描数据库的次数仅为一次,从而提高了挖掘的速度、效率且使得结果更具有决策意义。文中使用此算法对某一商场的部分销售数据库进行了实验,结果表明该算法能有效、迅速地发现密集数据库中的离群数据。  相似文献   

18.
基于方形邻域的离群点查找新方法   总被引:4,自引:0,他引:4  
提出一种基于密度的快速查找离群点的算法--基于方形邻域的离群点查找算法(ODBSN),该算法把DBSCAN算法的邻域改造成方形邻域,并吸收基于网格算法的思想,用密集的方形邻域快速排除非离群点;用邻域扩张的思想代替网格划分克服了基于网格算法中"维灾"缺点;同时用局部偏离指数指示离群点的偏离程度,又具有识别精度高和偏离程度可度量的优点.理论分析表明该算法性能优于著名的基于密度的算法,实验表明,ODBSN算法能在各种形状分布与各种密度的数据中有效地查找离群点, 速度明显优于LOF与DBSCAN算法.  相似文献   

19.
基于k最近邻网络的数据聚类算法   总被引:1,自引:0,他引:1  
聚类研究在数据挖掘研究领域中占有十分重要的地位。虽然目前已有很多数据聚类算法,但精度仍不够理想。文中提出一个基于结构化相似度的网络聚类算法(SSNCA),试图从网络聚类角度进一步提高数据聚类精度。具体解决方案是,将待聚类的向量数据集转化为k最近邻网络,并用SSNCA对该网络进行聚类。将SSNCA与c-Means、仿射传播进行比较,实验表明文中算法得到的目标函数稍差,但聚类精度要明显高于这两个算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号