首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
孤立点检测是数据挖掘研究中的一项重要内容,其目标是发现数据集中行为异常的数据对象.文章介绍了孤立点检测及其相关概念,分析了几种有代表性的算法,并用实际数据进行了试验。  相似文献   

2.
景波  刘莹  黄兵 《计算机工程》2008,34(22):268-270
信息系统中的工作流程设计将影响企业营运绩效及企业策略的正常发挥。该文以工作流的发生频率,结合以距离为基础的孤立点检测概念,使用经验规则和穷举法方式,挖掘出3种类型的异常工作流,包括各流程中较少发生的异常工作流、整体流程里较少发生的异常工作流以及整体流程中从未执行过的异常工作流。  相似文献   

3.
随着网络技术的迅速发展,新类型的入侵行为层出不穷,人们迫切需要能检测出新类型入侵行为的技术.将数据挖掘与入侵检测相结合,能够增强入侵检测系统对海量数据的处理能力,使得入侵检测系统具有可扩展性和自学习能力,增强人侵检测系统的检测功能.从数据的观点来看,入侵检测本身是一个数据分析过程,在数量上远少于正常行为的入侵行为可看作孤立点.于是将数据挖掘中的孤立点挖掘技术作为一种网络安全检测手段,用来识别变种或未知入侵行为,对于改善入侵检测系统的性能有着重大的研究意义.文中着重通过对LPCL孤立点算法进行介绍,并提出改进算法,从而有效减少计算量,快速挖掘数据更新后的新孤立点,具有较高的实用价值.  相似文献   

4.
本文介绍了孤立点的基本概念,对孤立点检测算法进行了较为全面的阐述.在此基础上提出了应用孤立点挖掘进行入侵检测的基本模型,最后给出了孤立点挖掘在入侵检测中的应用现状.并指出了未来的研究方向  相似文献   

5.
针对数据源中出现的错误数据,分析了孤立点检测方法在数据清理中的重要性,提出了一种基于孤立点检测的错误数据清理方法。在对常用孤立点检测方法进行比较、分析的基础上,采用一种有效的孤立点检测方法来检测数据源中的孤立点。最后,以一个实例验证了该方法的效果。研究表明:基于孤立点检测的错误数据清理方法能有效地检测数据源中的错误数据。  相似文献   

6.
孤立点是不具备数据一般特性的数据对象,One-Class支持向量机将数据点映射到高维空间,通过划分距离坐标原点最远间隔的超平面来发现孤立点.该学习算法在应用中误检率比较高,另外模型参数不易选择.由此,本文将无监督的One-Class支持向量机同监督学习方法相结合,提出了一种新的检测算法,利用ROC(受试者工作特征)分析作为评价依据,在限定范围内自动搜索最优参数,进而通过调节阈值获得孤立点检测决策函数.仿真实验结果表明,该算法简单有效,易于推广到实际应用中.  相似文献   

7.
现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此提出一种快速有效的基于层次聚类的全局孤立点检测方法。该方法基于层次聚类的结果,根据聚类树和距离矩阵可视化判断数据孤立程度,并确定孤立点数目。从聚类树自顶向下,无监督地去除孤立点。仿真实验验证了方法能快速有效识别全局孤立点,具有用户友好性,适用于不同形状的数据集,可用于大型高维数据集的孤立点检测。  相似文献   

8.
基于层次聚类的孤立点检测方法   总被引:2,自引:1,他引:2       下载免费PDF全文
孤立点检测是数据挖掘过程的重要环节,提出了基于层次聚类的孤立点检测(ODHC)方法。ODHC方法基于层次聚类结果进行分析,对距离矩阵按簇间距离从大到小检测孤立点,可检测出指定离群程度的孤立点,直到达到用户对数据的集中性要求。该方法适用于多维数据集,且算法原理直观,用户友好,对孤立点的检测准确率较高。在iris、balloon等数据集上的仿真实验结果表明,ODHC方法能有效地识别孤立点,是一种简单实用的孤立点检测方法。  相似文献   

9.
孤立点挖掘算法研究   总被引:2,自引:0,他引:2  
孤立点检测是数据挖掘中的重要一项内容.通过对当前的几种孤立点检测算法进行全面深入分析与比较,归纳和总结了它们的特点.对高维和空间数据中孤立点检测进行分析和研究,从而便于研究者以这些算法为基础,做进一步分析,提出新的改进算法.  相似文献   

10.
提出一种基于引力的孤立点检测算法.通过综合考虑数据对象周围的密度及数据对象之间的距离等因素对孤立点定义的影响来挖掘出数据集中隐含的孤立点.给出了与该算法相关的概念与技术,详细介绍了该算法,并用实际数据进行了实验.实验表明:该算法对数据集的维度具有很好的扩展性,能有效地识别孤立点,同时能反映出数据对象在数据集中的孤立程度.  相似文献   

11.
提出了一种基于局部孤立系数(LOC)的孤立点挖掘算法。该算法是对基于局部稀疏系数(LSC)孤立点挖掘论文中局部稀疏率和局部稀疏系数计算的一种改进。实验表明,LOC算法在发现孤立点方面比LSC算法更高效。  相似文献   

12.
空间离群点的模型与跳跃取样查找算法   总被引:3,自引:0,他引:3       下载免费PDF全文
目前无论是查找一般的离群点,还是空间离群点,都强调非空间属性的偏离,但在图像处理、基于位置的服务等许多应用领域,空间与非空间属性要综合考虑。为此,首先提出了一个综合考虑两者的空间离群点定义,然后提出了一种新的基于密度的空间离群点查找方法——基于密度的跳跃取样空间离群点查找算法DBSODLS。由于已有的基于密度的离群点查找方法对每一点都要求进行邻域查询计算,故查找效率低,而该算法由于可充分利用已知的邻居信息,即不必计算所有点的邻域,从而能快速找到空间离群点。分析与试验结果表明,该算法时间性能明显优于目前已有的基于密度的算法。  相似文献   

13.
一种增强的局部异常挖掘方法   总被引:6,自引:0,他引:6  
异常检测在许多领域有重要应用.在提出度量具有混合属性的对象间差异性方法的基础上,将加权幂平均引入数据挖掘,提出一种基于最近邻的异常检测方法,这种方法采用广义局部异常因子GLOF度量对象的异常程度,不需要阈值或数据集中异常数据个数的先验知识.理论分析表明,GLOF具有好的性质.实验表明:①对象间差异性定义适合于混合属性的数据集;②GLOF比LOF,CBLOF,RNN更准确地刻画了局部异常;③“Bσ”准则简单但切实可行.  相似文献   

14.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

15.
基于密度的局部异常检测算法(LOF算法)的时间复杂度较高,限制了其在高维数据集以及大规模数据集中的使用。该文通过分析LOF算法,引入记忆效应概念,提出具有记忆效应的局部异常检测算法——MELOF算法。实验测试表明,该算法的计算结果与LOF算法完全相同,而且能够大大缩短运行时间。  相似文献   

16.
基于离群指数的时序数据离群挖掘   总被引:12,自引:0,他引:12  
离群数据挖掘(0utlier mining,简称离群挖掘)是数据挖掘的重要内容.该文针对时序数据进行离群数据挖掘方法的研究,提出了离群指数的概念,在此基础上设计了时序数据离群数据挖掘算法,并对某钢铁企业电力负荷时序数据进行离群数据挖掘,结果表明了算法的有效性.  相似文献   

17.
基于局部信息熵的加权子空间离群点检测算法   总被引:7,自引:0,他引:7  
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象.“维度灾殃”现象的存在使得很多已有的离群点检测算法对高维数据不再有效.针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD.通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念.采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点.算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的.  相似文献   

18.
基于小波隐马尔科夫模型的控制过程异常数据检测方法   总被引:1,自引:0,他引:1  
刘芳  毛志忠 《控制与决策》2011,26(8):1187-1191
针对小波异常信号检测原理的局限性,提出了适用于过程数据的基于小波隐马尔可夫模型(W-HMM)的异常数据检测方法.首先在一定尺度下对检测信号进行分解,将频率组分不同于其他大部分信号的信号作为异常信号;然后通过计算待检测信号的小波系数与正常信号小波系数的相似概率,并利用求取隐马尔可夫模型(HMM)最优状态链的Viterbi算法对数据进行最终判断;最后通过数值验证和应用表明了所提出的检测算法的有效性和实用性.  相似文献   

19.
数据挖掘在电子商务推荐系统中的应用设计   总被引:4,自引:0,他引:4  
提出了基于数据挖掘的电子商务推荐系统的设计。  相似文献   

20.
针对高维数据集中存在不相关的属性与冗余数据导致无法检测出异常值的问题,提出了一种新的基于稀疏子空间的局部异常值检测算法(SSLOD)。根据数据对象在每个维度上的局部密度定义了对象的异常因子;依据异常因子阈值约简数据集中与局部异常值不相关的属性以及冗余的数据对象;用改进的粒子群优化算法在约简后的数据集中搜索稀疏子空间,该子空间中的数据对象即为异常值。通过在仿真数据集和真实数据集上的综合实验验证了该算法的有效性和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号