共查询到19条相似文献,搜索用时 78 毫秒
1.
基于距离的离群点挖掘通常需要O(N2)的时间进行大量的距离计算与比较,这限制了其在海量数据上的应用。针对此问题,提出了一个带剪枝功能的离群点挖掘算法。算法分为两步:在对数据集进行一遍扫描后,剪枝掉大量的非离群点;然后对余下的可疑数据实施一种改进的嵌套循环算法,以每个数据点与其k个最近邻点的平均距离作为离群度,确定前n个离群点。在真实数据和合成数据集上的实验结果均表明,该算法在获得高命中率的同时仍保持低误警率。与相关算法相比,其具有较低的时间复杂性。 相似文献
2.
处理海量和高维数据已经成为设计离群点算法面临的重要任务和挑战,针对海量数据的特点提出一种基于网格和密度的增量式离群点挖掘算法IGDLOF,算法的基本思想为:采用网格的七元组信息减少数据维数和数量,利用增量更新减少内存需求.通过代表点过滤相应的主体数据,先判断再进行近似密度计算的方法减少计算量,降低算法的复杂度.通过在真实和仿真数据集的测试表明,IGDLOF增量算法可与LOF算法保持相同的精确度,而执行效率得到显著的提高. 相似文献
3.
董飞 《计算机光盘软件与应用》2013,(4)
对高维数据离群点降维方法进行研究,从而提高挖掘算法的准确度以及挖掘的速度。针对传统的离群点挖掘算法对于高维数据的不适用性,提出了基于属性的局部离群点挖掘算法,该算法以局部线性嵌入降维算法为基础,利用研究对象的特征属性和环境属性来实现降维的目的。实验证明,该方法可以通过约简对象属性的方式达到降维的目的,相比于传统算法更为有效。 相似文献
4.
5.
由于数据集规模、维数,以及复杂程度的不断提高,导致对其离群点的挖掘难度越来越大,提出了基于邻域密度的局部离群点挖掘算法.首先依据节点计算性能对高维数据进行区域分割,通过各个维度的数据分布来评价区域分割的效果.然后采取核密度来描述局部密度,根据高斯分布得到数据出现次数,进一步计算出数据邻域密度.再由邻域及密度关系计算得到各数据离群度,从而判断异构数据中的离群点.最后针对可能存在的离群误判情况,采取离群分数计算,为增强此过程的检测性能,利用权重进行剪枝处理.人工与UCI数据集上的仿真结果表明,当数据量和数据维数改变时,算法对离群点挖掘的准确度几乎不受影响,挖掘时间和覆盖率指标也显著优于其它方法;同时对于不同类型和复杂度的异构数据,算法仍然保持良好的挖掘准确度和效率. 相似文献
6.
7.
基于空间约束的离群点挖掘 总被引:1,自引:0,他引:1
由于现有的空间离群点检测算法没有很好地解决空间数据的自相关性和异质性约束问题,提出用计算邻域距离的方法解决空间自相关性约束问题,用计算空间局部离群系数的方法解决空间异质性约束问题。用离群系数表示对象的离群程度,并将离群系数按降序排列,取离群系数最大的前m个对象为离群点,据此提出基于空间约束的离群点挖掘算法。实验结果表明,所提算法比已有算法具有更高的检测精度、更低的用户依赖性和更高的效率。 相似文献
8.
9.
10.
11.
基于预测的序列异常数据挖掘 总被引:1,自引:0,他引:1
本文中,我们分析了给定的股票时间序列。首先,基于稳定化时间序列,我们通过模型识别和估计.给出了一个初始模型,用以预测股票价格。然后,我们可通过股票检测来发现股票时间序列的异常点。最后.通过修正这些异常点,便可完善模型,逐步提高股票的预测精度。 相似文献
12.
13.
提出一种运用通信系统理论研究数字水印系统的方法.通过分析水印信道的特性来研究水印系统的性能,通过计算有关信号的交互信息、条件熵等数据对水印系统的嵌入强度、嵌入位置等问题进行了分析,推导出有效提取水印的信息论下限的方法,所得结果对于设计水印算法具有较强的指导作用. 相似文献
14.
本文提出一种通过构造覆盖领域进行离群点(outlier)挖掘的新方法。由于覆盖领域构造的特殊性,使得覆盖算法非常适合离群点的挖掘。在分析覆盖模型的基础上,给出了覆盖模型的离群点的定义和算法步骤。这样将复杂的离群点挖掘问题变成十分简单的覆盖领域样本分析问题,而且算法十分直观,并能很好地解释离群点的含义,同时适合对高维及海量数据的处理。本文给出实验例子,结果表明该方法是有效可行的。 相似文献
15.
基于信息论的决策树算法探讨 总被引:5,自引:0,他引:5
信息论是数据挖掘技术的重要指导理论之一,是决策树算法实现的理论依据.决策树算法是一种逼近离散值日标函数的方法,其实质是在实例学习的基础上,得到分类规则.本文简要介绍信息论的基本原理,重点阐述基于信息论的决策树算法,分析了它们目前主要的代表理论以及存在的问题. 相似文献
16.
基于混合式聚类算法的离群点挖掘在异常检测中的应用研究 总被引:1,自引:0,他引:1
为了提高异常检测系统的检测率,降低误警率,解决现有异常检测所存在的问题,将离群点挖掘技术应用到异常检测中,提出了一种基于混合式聚类算法的异常检测方法(NADHC)。该方法将基于距离的聚类算法与基于密度的聚类算法相结合从而形成新的混合聚类算法,通过k-中心点算法找出簇中心,进而去除隐蔽性较高的少量攻击行为样本,再将重复增加样本的方法结合基于密度的聚类算法计算出异常度,从而判断出异常行为。最后在KDD CUP 99数据集上进行实验仿真,验证了所提算法的可行性和有效性。 相似文献
17.
18.
一种基于主成分分析的异常点挖掘方法 总被引:2,自引:0,他引:2
在对现有异常点挖掘算法分析的基础上,给出了一种异常点挖掘的新方法一基于主成分分析方法,该方法先用基于密度的聚类算法进行聚类,然后把不包含在任何聚类中的周围稀疏的样本对象用主成分分析(PCA)方法进行检验,确定是否为异常点,并通过实验数据验证了算法的可行性和有效性。 相似文献
19.
一种基于粗糙集启发式的特征选择算法 总被引:1,自引:0,他引:1
本文基于粗糙集中关于非精确集和精确集理论思想,提出了一个新的特征度量指标,即相对互信息比RMI,由此,设计了一种基于粗糙集的启发式特征选择算法MRMI-UC。首先利用可辨识矩阵,计算出条件属性相对于决策属性的核,以核形成当前候选特征子集作为基准点,以最大化相对互信息和不确定性系数为原则,筛选剩余特征。通过对比实验,结果表明,本文提出的算法在多数情况下能够得到较优的特征子集,算法是有效的,切实可行的。 相似文献