首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
曹洪其  孙志挥 《计算机应用》2007,27(10):2369-2371
提出了一种基于网格技术的高维大数据集离群点挖掘算法(OMAGT)。该算法针对高维大数据集的分布特性,首先采用基于网格技术的方法寻找出聚类区域,并删除聚类区域内不可能成为离群点的聚类点集,然后运用局部离群因子(LOF)算法对剩下的点集进行离群点挖掘。OMAGT算法较好地实现了聚类信息的动态释放,将保留的离群点挖掘信息控制在一定的内存容量范围内,提高了算法的时间效率和空间效率。理论分析与实验结果表明OMAGT算法是可行和有效的。  相似文献   

2.
GridOF:面向大规模数据集的高效离群点检测算法   总被引:12,自引:3,他引:12  
作为数据库知识发现研究的重要技术手段,现有离群点检测算法在运用于大型数据集时其时间与空间效率均无法令人满意.通过对数据集中离群点分布特征的分析,在数据空间网格划分的基础上,研究数据超方格层次上的密度近似计算与稠密数据主体滤除策略.给出通过简单的修正近似计算取代繁复的点对点密度函数值计算的方法.基于上述思想构造的离群点检测算法GlidOF在保持足够检测精度的同时显著降低了时空复杂度,运用于大规模数据集离群点检测具有良好的适用性和有效性.  相似文献   

3.
基于网格上近似的大规模数据集离群点检测算法GROUT   总被引:4,自引:0,他引:4  
通过对数据集中离群点分布特性的分析,给出离群点的解析定义,并在度量意义下采用数据空间网格化方法实现对密集数据主体的过滤,从而构造了在时间和空间上均具有极高效率的离群点检测算法。  相似文献   

4.
目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据。针对这些问题,提出一种基于密度划分的离群点检测算法DD-DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用"分而治之"的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。  相似文献   

5.
在LDOF算法的基础上,提出一种基于多重聚类的离群点检测算法PMLDOF。该算法针对局部离群度量计算量大的缺点,采用聚类剪枝技术作为减少计算量的方法;同时,为了避免将位于簇边缘的离群点错剪,算法利用多重聚类的差异性对簇的边缘点进行筛选。在对数据集进行剪枝后,计算剩余数据的局部离群度LDOF,并找出符合条件的离群数据点。实验结果表明,算法在时间复杂度和检测精度上具有更好的优越性。  相似文献   

6.
融合Shadowed Sets聚类的离群点检测算法   总被引:1,自引:0,他引:1  
从数据整体和宏观特点给出了离群点的新的定义,并基于数据宏观模式定义了一种新的离群因子,该因子考虑了数据点偏离数据模式的程度和数据点本身归类的不确定性;提出了一种新的Shadowed Sets优化目标,使得在模糊集阴影化过程中更加关注核的准确性;同时基于Shadowed Sets聚类,提出了一种结合聚类的离群点检测算法,该算法可以同时进行聚类和离群点检测;通过模拟数据和Iris数据测试,显示算法具有较好的检测效果。  相似文献   

7.
《软件》2017,(4):18-25
教学评价是大学教学活动中不可缺少的环节,可能出现故意抬高或压低评分及虚假评分的现象,应该找出这些离群数据并加以清除,以提高学生评教数据的正确性。离群点检测问题是数据挖掘技术的重要研究领域之一,本文实验所用教学评价数据属于分类型数据,目前针对分类型数据的离群点检测算法常用的有基于信息熵的贪婪算法和基于频率的AVF算法。针对贪婪算法时间复杂度较高,AVF算法不够准确的问题,本文提出一种改进的基于频率的离群点检测算法。本文算法首先采用改进的k-modes算法对教学评价数据进行聚类,并提出应用调整的余弦相似度公式作为相似性度量,筛选出远离簇中心的候选离群点,最后通过基于频率的离群点检测算法对候选集进行检测。在真实数据集上的实验表明算法在精确度和效率方面均具有优势。  相似文献   

8.
离群点检测问题中的数据可被看作是正常点与异常点在空间中的高度混合,在减少正常点损失的前提下,离群点通常包含在离聚类中心最远的样本集中。受这种思想启发,提出一种针对高维稀疏数据的基于插值的离群点检测方法,该方法在K-means基础上应用遗传算法对原始数据进行插值处理,解决了K-means聚类中稀疏数据容易被合并的问题。实验结果表明,对比基于传统K-means聚类的离群点检测方法以及几种典型的基于改进K-means的检测方法,本文 方法损失的正常点更少,提高了检测的准确率和精确率。  相似文献   

9.
基于图像重建出的三维点云模型通常会包含许多离群点,这些离群点可能孤立存在或密集聚集在一起形成点簇,也可能分布在模型周围甚至附着在模型表面。通过一种检测方法很难有效滤除多种分布状态的离群点,因此,提出了综合的离群点监测算法。首先通过空间距离剔除与模型主体较远的离群点,并通过构建空间拓扑关系加快离群点搜索速度;然后利用边界匹配法,将较小点簇分别与最大点簇进行对比,滤除模型周围离群点簇;最后采用改进的K-means算法,根据RGB颜色值特征对点云数据进行聚簇分类,结合已识别的离群点,检测和滤除附着在模型表面的离群点。仿真实验结果表明,此方法能够有效滤除点云模型中多种分布状态的离群点。  相似文献   

10.
鉴于离群点引发的数据质量问题给电力应用造成的不良影响,对电力感知数据的特征进行了分析,并基于电力感知数据的时间特征和异常检测技术的易用性需求,提出一种电力感知数据的离群点检测方案。该方案由异常检测服务框架和离群点检测方法构成。异常检测服务框架借鉴Web服务的思想,基于大数据技术,能够支持电力感知数据的存储和计算,并且以服务的形式提供电力感知数据的异常检测能力。离群点检测方法是基于聚类算法和考虑时间属性的数据分段方法来检测电力感知数据中的离群点异常。通过实验验证了该方法的可行性和有效性,结果表明该方法能够有效识别具有时间相关性和连续性的电力感知数据中存在的离群点,且在数据规模增大时,具有良好的并行性和可扩展性。  相似文献   

11.
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。  相似文献   

12.
现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此提出一种快速有效的基于层次聚类的全局孤立点检测方法。该方法基于层次聚类的结果,根据聚类树和距离矩阵可视化判断数据孤立程度,并确定孤立点数目。从聚类树自顶向下,无监督地去除孤立点。仿真实验验证了方法能快速有效识别全局孤立点,具有用户友好性,适用于不同形状的数据集,可用于大型高维数据集的孤立点检测。  相似文献   

13.
针对大数据环境下聚类分析的隐私保护问题,基于MapReduce计算框架,提出了一种并行化的支持差分隐私保护和离群点消除的K-means算法。算法并行地计算数据集中各点间的欧氏距离矩阵与最近邻超球半径以导出离群点的判定阈值,并在此基础上完成差分隐私保护下的初始聚类中心选取和并行聚类过程。理论分析证明整个算法满足ε-差分隐私保护,实验结果说明该算法在隐私保护的有效性,聚类结果的可用性以及执行效率等方面取得了很好的平衡,相比于同类算法有较优的表现。  相似文献   

14.
最近几年,谱聚类思想开始用于数据挖掘领域,并取得了较好的效果;离群数据挖掘是对离群点进行检测,发掘出有用知识。将谱聚类中的NJW算法成功应用到离群数据挖掘领域,并结合离群指数的概念,提出了一种适合离群数据挖掘的谱聚类算法。与原有的基于聚类的离群检测算法相比,具有更好的效率和适应性。实验验证了所提算法的有效性和可行性。  相似文献   

15.
提出一种新的基于粒子群优化算法的属性异常检测算法。该算法利用粒子群优化算法简单、寻优速度快的优点检测属性异常,在粒子群寻找最优值的过程中发现可能是属性异常的数据,并采用Omeasure适应度评估属性异常,算法的时间复杂度是多项式级的。与全搜索检测算法相比,大幅减少了搜索范围;同时,与完全随机算法相比,采用启发式搜索规则,提高了查全率及查准率。实验结果表明,粒子群检测算法不仅执行效率高,而且保持了较高的查全率与查准率。  相似文献   

16.
为了改进传统的仅仅是把手工审计流程计算机化的计算机辅助审计方法和发现被审计数据中的隐藏信息和更多的审计证据,提出了一种先对海量数据进行数据划分,然后采用改进的孤立点检测技术的审计证据获取方法。该方法首先利用改进粒子群算法对被审计数据进行划分优化,找到高内聚、低耦合的数据划分;然后使用基于距离的改进孤立点检测技术,查找出孤立点数据;最后通过分析发现审计线索。通过相关对比实验表明,该方法易发现海量被审计数据中的隐藏信息,孤立点检测效率也有很大提高,从而提高了审计效率。  相似文献   

17.
一种面向高维混合属性数据的异常挖掘算法   总被引:2,自引:0,他引:2  
李庆华  李新  蒋盛益 《计算机应用》2005,25(6):1353-1356
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、气象预报、客户分类和入侵检测等方面有广泛的应用。针对网络入侵检测的需求提出了一种新的基于混合属性聚类的异常挖掘算法,并且依据异常点(outliers)是数据集中的稀有点这一本质,给出了一种新的数据相似性和异常度的定义。本文所提出算法具有线性时间复杂度,在KDDCUP99和WisconsinPrognosisBreastCancer数据集上的实验表明,算本法在提供了近似线性时间复杂度和很好的可扩展性的同时,能够较好的发现数据集中的异常点。  相似文献   

18.
针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高点对应的参数。最后从离群点角度出发,将三支决策思想与离群点检测LOF算法进行结合。该算法与多种聚类算法进行效果对比分析,结果表明该算法能够全自动化选择全局最优参数,并提高聚类算法的准确性。  相似文献   

19.
为了在海量轨迹数据库中高效准确地挖掘出异常轨迹,提出了基于划分的异常轨迹检测算法。该算法通过计算局部轨迹点之间的匹配程度来探测异常轨迹,将异常轨迹检测由形状匹配问题转化为传统的异常点检测问题,并设计了一种基于空间划分的网格索引结构,提高算法的运行效率。实验证明,该算法不仅具有较高的挖掘效率,而且能够检测出更具实际意义的异常轨迹。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号