首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
杨茂林  卢炎生 《计算机科学》2012,39(10):152-156
基于距离的离群点挖掘通常需要O(N2)的时间进行大量的距离计算与比较,这限制了其在海量数据上的应用。针对此问题,提出了一个带剪枝功能的离群点挖掘算法。算法分为两步:在对数据集进行一遍扫描后,剪枝掉大量的非离群点;然后对余下的可疑数据实施一种改进的嵌套循环算法,以每个数据点与其k个最近邻点的平均距离作为离群度,确定前n个离群点。在真实数据和合成数据集上的实验结果均表明,该算法在获得高命中率的同时仍保持低误警率。与相关算法相比,其具有较低的时间复杂性。  相似文献   

2.
处理海量和高维数据已经成为设计离群点算法面临的重要任务和挑战,针对海量数据的特点提出一种基于网格和密度的增量式离群点挖掘算法IGDLOF,算法的基本思想为:采用网格的七元组信息减少数据维数和数量,利用增量更新减少内存需求.通过代表点过滤相应的主体数据,先判断再进行近似密度计算的方法减少计算量,降低算法的复杂度.通过在真实和仿真数据集的测试表明,IGDLOF增量算法可与LOF算法保持相同的精确度,而执行效率得到显著的提高.  相似文献   

3.
对高维数据离群点降维方法进行研究,从而提高挖掘算法的准确度以及挖掘的速度。针对传统的离群点挖掘算法对于高维数据的不适用性,提出了基于属性的局部离群点挖掘算法,该算法以局部线性嵌入降维算法为基础,利用研究对象的特征属性和环境属性来实现降维的目的。实验证明,该方法可以通过约简对象属性的方式达到降维的目的,相比于传统算法更为有效。  相似文献   

4.
基于离群指数的时序数据离群挖掘   总被引:12,自引:0,他引:12  
离群数据挖掘(0utlier mining,简称离群挖掘)是数据挖掘的重要内容.该文针对时序数据进行离群数据挖掘方法的研究,提出了离群指数的概念,在此基础上设计了时序数据离群数据挖掘算法,并对某钢铁企业电力负荷时序数据进行离群数据挖掘,结果表明了算法的有效性.  相似文献   

5.
由于数据集规模、维数,以及复杂程度的不断提高,导致对其离群点的挖掘难度越来越大,提出了基于邻域密度的局部离群点挖掘算法.首先依据节点计算性能对高维数据进行区域分割,通过各个维度的数据分布来评价区域分割的效果.然后采取核密度来描述局部密度,根据高斯分布得到数据出现次数,进一步计算出数据邻域密度.再由邻域及密度关系计算得到各数据离群度,从而判断异构数据中的离群点.最后针对可能存在的离群误判情况,采取离群分数计算,为增强此过程的检测性能,利用权重进行剪枝处理.人工与UCI数据集上的仿真结果表明,当数据量和数据维数改变时,算法对离群点挖掘的准确度几乎不受影响,挖掘时间和覆盖率指标也显著优于其它方法;同时对于不同类型和复杂度的异构数据,算法仍然保持良好的挖掘准确度和效率.  相似文献   

6.
离群点挖掘方法综述   总被引:10,自引:2,他引:10  
离群点挖掘可揭示稀有事件和现象、发现有趣的模式,有着广阔的应用前景,因此引起广泛关注。首先介绍离群点的定义、引起离群的原因和离群点挖掘算法的分类,对基于距离和基于密度的离群点挖掘算法进行了比较详细的讨论,指出了其优缺点和发展方向,重点对当前研究的热点——高维大数据量的挖掘、空间数据挖掘、时序离群点挖掘和离群点挖掘技术的应用进行了讨论,指出了进一步研究方向。  相似文献   

7.
基于空间约束的离群点挖掘   总被引:1,自引:0,他引:1  
由于现有的空间离群点检测算法没有很好地解决空间数据的自相关性和异质性约束问题,提出用计算邻域距离的方法解决空间自相关性约束问题,用计算空间局部离群系数的方法解决空间异质性约束问题。用离群系数表示对象的离群程度,并将离群系数按降序排列,取离群系数最大的前m个对象为离群点,据此提出基于空间约束的离群点挖掘算法。实验结果表明,所提算法比已有算法具有更高的检测精度、更低的用户依赖性和更高的效率。  相似文献   

8.
离群点挖掘研究   总被引:9,自引:1,他引:8  
随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,离群点挖掘研究日益受到重视。在充分调研国内外离群点挖掘研究成果的基础上,介绍了数据库领域离群点挖掘的研究进展,并概要地总结和比较了已有的各种离群点挖掘方法,展望了离群点挖掘研究的未来发展方向和面临的挑战。  相似文献   

9.
用RFID技术解决了冷链物流管理中的温度实时监控难题;面对随之而来的数据爆炸问题,结合RFID数据挖掘算法和冷链温控实际需求,提出了RFID离群点快速挖掘算法QOD,并采用剪枝策略使算法进一步优化,随后通过实验证明了算法的准确性;最后展望了RFID冷链温控研究的未来发展方向。  相似文献   

10.
在大量的网络数据中,可能隐藏着少许攻击序列,离群点是由异常机制产生,不服从数据的普遍分布规律,设计一个基于神经网络的多尺度时序数据离群点挖掘方法.采用对象与其类别聚类中心的相似度来测量对象属于聚类的程度,确定检测对象的邻域,采用神经网络技术对多尺度时序数据离群点挖掘,初始化BP神经网络,基于网络的实际输出和预期输出,判...  相似文献   

11.
基于预测的序列异常数据挖掘   总被引:1,自引:0,他引:1  
本文中,我们分析了给定的股票时间序列。首先,基于稳定化时间序列,我们通过模型识别和估计.给出了一个初始模型,用以预测股票价格。然后,我们可通过股票检测来发现股票时间序列的异常点。最后.通过修正这些异常点,便可完善模型,逐步提高股票的预测精度。  相似文献   

12.
基于异类挖掘的网络入侵检测方法   总被引:6,自引:0,他引:6  
朱明  明鸣  王军 《计算机工程》2003,29(13):125-127
针对目前基于异常入侵检测方法所存在的问题,提出了一种基于异类挖掘的聚类方法,该方法通过对采用多种不同类型描述的连接记录对象进行异类数据挖掘,从而实现从大流量网络活动记录数据中快速检测出与正常系统与网络活动相异的已知或未知入侵行为。最后利用KDD ’99入侵检测大赛的数据对所提方法进行了检验,实验结果表明了此方法是有效的。  相似文献   

13.
提出一种运用通信系统理论研究数字水印系统的方法.通过分析水印信道的特性来研究水印系统的性能,通过计算有关信号的交互信息、条件熵等数据对水印系统的嵌入强度、嵌入位置等问题进行了分析,推导出有效提取水印的信息论下限的方法,所得结果对于设计水印算法具有较强的指导作用.  相似文献   

14.
张旻  张铃 《计算机科学》2005,32(4):27-30
本文提出一种通过构造覆盖领域进行离群点(outlier)挖掘的新方法。由于覆盖领域构造的特殊性,使得覆盖算法非常适合离群点的挖掘。在分析覆盖模型的基础上,给出了覆盖模型的离群点的定义和算法步骤。这样将复杂的离群点挖掘问题变成十分简单的覆盖领域样本分析问题,而且算法十分直观,并能很好地解释离群点的含义,同时适合对高维及海量数据的处理。本文给出实验例子,结果表明该方法是有效可行的。  相似文献   

15.
基于信息论的决策树算法探讨   总被引:5,自引:0,他引:5  
信息论是数据挖掘技术的重要指导理论之一,是决策树算法实现的理论依据.决策树算法是一种逼近离散值日标函数的方法,其实质是在实例学习的基础上,得到分类规则.本文简要介绍信息论的基本原理,重点阐述基于信息论的决策树算法,分析了它们目前主要的代表理论以及存在的问题.  相似文献   

16.
尹娜  张琳 《计算机科学》2017,44(5):116-119, 140
为了提高异常检测系统的检测率,降低误警率,解决现有异常检测所存在的问题,将离群点挖掘技术应用到异常检测中,提出了一种基于混合式聚类算法的异常检测方法(NADHC)。该方法将基于距离的聚类算法与基于密度的聚类算法相结合从而形成新的混合聚类算法,通过k-中心点算法找出簇中心,进而去除隐蔽性较高的少量攻击行为样本,再将重复增加样本的方法结合基于密度的聚类算法计算出异常度,从而判断出异常行为。最后在KDD CUP 99数据集上进行实验仿真,验证了所提算法的可行性和有效性。  相似文献   

17.
在传统的信息检索方法中,对检索返回结果的处理较少,导致检索的精确率不高.针对该问题,讨论了基于熵原理对大量的召回结果进行加工处理,设计了无指导文本选择算法,去除表面相关而本体不相关或相关度不高的数据,从而大大提高检索的精确率.  相似文献   

18.
一种基于主成分分析的异常点挖掘方法   总被引:2,自引:0,他引:2  
王洪春  彭宏 《计算机科学》2007,34(10):192-194
在对现有异常点挖掘算法分析的基础上,给出了一种异常点挖掘的新方法一基于主成分分析方法,该方法先用基于密度的聚类算法进行聚类,然后把不包含在任何聚类中的周围稀疏的样本对象用主成分分析(PCA)方法进行检验,确定是否为异常点,并通过实验数据验证了算法的可行性和有效性。  相似文献   

19.
一种基于粗糙集启发式的特征选择算法   总被引:1,自引:0,他引:1  
梁琰  何中市 《计算机科学》2007,34(6):162-165
本文基于粗糙集中关于非精确集和精确集理论思想,提出了一个新的特征度量指标,即相对互信息比RMI,由此,设计了一种基于粗糙集的启发式特征选择算法MRMI-UC。首先利用可辨识矩阵,计算出条件属性相对于决策属性的核,以核形成当前候选特征子集作为基准点,以最大化相对互信息和不确定性系数为原则,筛选剩余特征。通过对比实验,结果表明,本文提出的算法在多数情况下能够得到较优的特征子集,算法是有效的,切实可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号