首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
盛开元  钱雪忠  吴秦 《计算机应用》2013,33(9):2419-2422
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高。  相似文献   

2.
基于距离的孤立点检测研究   总被引:15,自引:0,他引:15  
孤立点检测是一个重要的知识发现任务,在分析基于距离的孤立点及其检测算法的基础上,文章提出了一个判定孤立点的新定义,并设计了基于抽样的近似检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的要求,同时给出了数据对象在数据集中的孤立程度。  相似文献   

3.
一种改进的密度偏差抽样算法   总被引:1,自引:0,他引:1  
张建锦  吴渝  刘小霞 《计算机应用》2007,27(7):1695-1698
随机抽样技术已经广泛应用于数据挖掘的各类算法中,它在处理分布均匀的数据集时非常有效,但在处理分布比较倾斜的数据集时容易丢失小的聚类。为此提出基于网格的密度偏差抽样算法,仅需要扫描一遍数据集就可以得到近似的密度偏差抽样。经实验测试分析表明,该算法不仅提高了聚类的正确性,而且抗噪声能力强、效率高,是解决海量数据挖掘的一种有效途径。  相似文献   

4.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

5.
LDC-mine——基于局部偏差系数的孤立点挖掘算法   总被引:1,自引:0,他引:1  
孤立点检测一直是知识发现(KDD)中一个活跃的领域,如信用卡欺诈,入侵检测等。在这些应用领域中研究孤立点的异常行为能够发现隐藏在数据集中更有价值的知识。提出了一个新的度量LDC(局部偏差系数)因子和基于LDC的孤立点挖掘的算法LDC-mine。实验证明:该算法能够有效地检测出孤立点。  相似文献   

6.
提出一种基于引力的孤立点检测算法.通过综合考虑数据对象周围的密度及数据对象之间的距离等因素对孤立点定义的影响来挖掘出数据集中隐含的孤立点.给出了与该算法相关的概念与技术,详细介绍了该算法,并用实际数据进行了实验.实验表明:该算法对数据集的维度具有很好的扩展性,能有效地识别孤立点,同时能反映出数据对象在数据集中的孤立程度.  相似文献   

7.
基于距离的孤立点检测及其应用   总被引:15,自引:2,他引:13  
孤立点检测是一个有趣的知识发现任务,文章介绍了基于距离的孤立点检测及其相关概念,分析了几种有代表性的算法。最后,文章给出了一个判定孤立点的新的定义,并按此定义进行了检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的需求,同时给出了数据对象在数据集中的孤立程度。  相似文献   

8.
一种基于孤立点检测的入侵检测方法   总被引:3,自引:0,他引:3  
卢辉斌  徐刚李段 《微机发展》2005,15(6):93-94,98
孤立点检测在入侵检测中有着重要的意义,故将基于RNN的孤立点检测方法应用于网络入侵检测当中。先将数据集用于神经网络的训练,然后使用训练后的RNN对网络数据进行孤立度测量,根据度量结果判定是否为入侵行为。实验表明,该算法取得了很好的效果。  相似文献   

9.
孤立点检测在入侵检测中有着重要的意义,故将基于RNN的孤立点检测方法应用于网络入侵检测当中.先将数据集用于神经网络的训练,然后使用训练后的RNN对网络数据进行孤立度测量,根据度量结果判定是否为入侵行为.实验表明,该算法取得了很好的效果.  相似文献   

10.
空间孤立点是指与邻居具有不连续性的空间点,或者是偏离观测值以至使人们认为是由不同的体系产生的。空间孤立点检测在交通、生态、公共安全、卫生健康、地震、海啸等领域有广泛应用。传统的根据一个非空间属性值进行孤立点判断的方法客易引起孤立点判断失误。作者在针对多个属性进行考虑的基础上,提出以空间维确定邻居关系,非空间维定义距离函数,使用Mahalanobis距离检测孤立点,研究一种新的检测空间孤立点的算法。并时时间复杂度进行分析。仿真实验说明算法可以有效地发现大规模空间数据中的孤立点。  相似文献   

11.
聚类算法是数据挖掘里的一个重要研究问题.简单介绍CLARANS算法的基本思想,详尽描述了改进的CLARANS算法的基本思想和基本步骤,通过实验数据对其进行进一步分析.并对其应用领域做出简单概要.  相似文献   

12.
Web挖掘是数据挖掘的重要研究分支之一。Web日志文件为Web挖掘提供了数据源,日志信息的孤立点检测是数据预处理的重要环节。介绍Web日志文件的构成,提出一种基于Web日志文件的孤立点检测算法,通过实验对算法进行进一步分析,并对其应用领域做简单概括。  相似文献   

13.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

14.
不确定数据普遍存在于如移动计算、RFID技术和传感器网络等大量应用之中.由于不确定数据的离群点检测算法可以提高服务质量,提出一种基于密度的不确定数据离群检测算法RLOF.该算法引入一种R2-tree结构,有效降低了计算局部离群因子时的时间复杂度,同时降低了不确定数据集中的数据更新成本以及海量数据维护成本.理论分析和实验结果充分证明了该算法是有效可行的.  相似文献   

15.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

16.
军事训练领域的特殊性造成其相关数据存在大量的噪声点,同时也为噪声检测算法提出了相应的要求。分析现有数据噪声点检测算法,提出将数据属性分为空间属性、环境属性、特征属性,利用空间属性确定数据对象的分类,利用环境属性确定具有不同特征的数据对象邻域,利用特征属性计算离群度。改进了基于相对密度的离群度计算方法,提出LRDF算法,实验结果表明,该方法有效地提高了噪声点检测的精度和效率,增强算法可用性。  相似文献   

17.
针对在大规模数据集上进行聚类困难的问题,分析了抽样技术的优点,研究了数据挖掘领域中的随机抽样的特点,并在此基础上提出了一种基于密度的偏差抽样方法.利用密度偏差抽样所获得的样本数据集能够较准确地反映总体数据集的特征,并且能够灵活地控制对数据集不同区域的抽样率.实验证明,在大规模数据集上进行聚类时,密度偏差抽样在时间复杂度上要优于随机抽样.  相似文献   

18.
Outlier Detection Algorithms in Data Mining Systems   总被引:6,自引:0,他引:6  
The paper discusses outlier detection algorithms used in data mining systems. Basic approaches currently used for solving this problem are considered, and their advantages and disadvantages are discussed. A new outlier detection algorithm is suggested. It is based on methods of fuzzy set theory and the use of kernel functions and possesses a number of advantages compared to the existing methods. The performance of the algorithm suggested is studied by the example of the applied problem of anomaly detection arising in computer protection systems, the so-called intrusion detection systems.  相似文献   

19.
支持向量机是一种基于统计学习理论的新颖的机器学习方法,该方法已广泛用于解决分类和回归问题。该文利用支持向量回归算法中结构风险函数的性质以及KT条件,提出一种回归中的异常值检测方法。仿真实验结果表明了所给方法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号