首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
异常挖掘是数据挖掘的重要研究内容之一,对于不完全数据会面对双重的困难.首先将用于缺失数据填充的EM算法和MI算法推广到混合缺失情形,并根据Weisberg的不完全数据填充理论,提出了RE算法,然后通过将聚类分析与向前搜索算法结合起来,获得了比单纯的向前搜索法更优越的算法.最后,在上述填充算法的基础上探讨了不完全数据的异常挖掘.理论和实例分析均表明,基于不完全数据的异常挖掘算法是有效可行的.  相似文献   

2.
面向滑动窗口的连续离群点检测问题是数据流管理领域中的重要问题.该问题在信用卡欺诈检测、网络入侵防御,地质灾害预警等诸多领域发挥着重要作用.现有算法大多需要利用范围查询判断对象之间的位置关系,而范围查询的查询代价大,无法满足实时性要求.本文提出基于滑动窗口模型下的查询处理框架GBEH(grid-based excepted heap).首先,它以网格为基础构建索引GQBI(grid queue based index)管理数据流.该索引一方面维护数据流之间的位置关系,另一方面利用队列维护数据流的时序关系.其次, GBEH提出离群点检测算法PBH(priority based heap).该算法利用查询范围与网格单元格的相交面积计算该单元格中包含于查询范围对象数目的数学期望,并以此为基础构建基于小顶堆执行范围查询,从而有效降低范围查询代价,实现高效检测.理论分析和实验验证GBEH的高效性和稳定性.  相似文献   

3.
近几年,随着数据流和不确定数据的产生,不确定数据流上的异常点检测成为新的研究热点。然而,现有的不确定数据的异常点定义中涉及3个参数,这对于用户是非常难设定的,以致不能查询到适合的异常点。在大多时候,用户更想知道最可能是异常点的对象,因此提出了不确定数据流上的top-k异常点查询算法。该算法通过估计数据对象异常点的概率范围而进行剪枝,从而减少了一些不必要的计算,同时增量地计算数据对象异常点的概率范围。在真实数据集和合成数据集上进行了一系列的模拟实验,证明了算法的性能。  相似文献   

4.
异常点检测是数据挖掘的一个重要研究方向,基于Cell的异常点检测算法生成的Cell(单元)数与维数成指数增长.当生成的单元数增多及数据量增大时,基于Cell的算法不能有效工作.分析发现这些单元中存在很多无用的空单元.本文采用CD-Tree结构对非空单元进行索引,并采用聚簇技术,将每个单元中的数据点存放在同一个磁盘页链中.实验表明,采用CD-Tree以及聚簇技术设计的异常点检测磁盘算法的效率,以及所能处理的数据集维数较原基于Cell的磁盘算法都有显著的提高.  相似文献   

5.
项响琴  汪彩梅 《微机发展》2010,(1):124-127,131
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。  相似文献   

6.
对医疗数据库中存在的离散数据进行检测时,由于缺少数据过滤等过程而导致检测执行时间较长、检测效率低、离散点检测率低等问题,为此提出基于层次化深度学习的医疗数据库离散数据检测算法.首先,采用动态网格划分法划分空间中的稀疏区域和稠密区域,降低数据检测的规模,缩短检测执行时间;然后,通过层次化深度学习过程融合专家知识和数据的属性取值分布信息,实现医疗数据库中离散数据的检测.实验结果表明,该算法可以在较短的时间内准确完成医疗数据库中离散数据的检测,且相较于传统算法来说更具有应用优势.  相似文献   

7.
基于距离的不确定离群点检测   总被引:4,自引:0,他引:4  
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能.  相似文献   

8.
Outlier detection is a fundamental issue in data mining, specifically in fraud detection, network intrusion detection, network monitoring, etc. SmartSifter is an outlier detection engine addressing this problem from the viewpoint of statistical learning theory. This paper provides a theoretical basis for SmartSifter and empirically demonstrates its effectiveness. SmartSifter detects outliers in an on-line process through the on-line unsupervised learning of a probabilistic model (using a finite mixture model) of the information source. Each time a datum is input SmartSifter employs an on-line discounting learning algorithm to learn the probabilistic model. A score is given to the datum based on the learned model with a high score indicating a high possibility of being a statistical outlier. The novel features of SmartSifter are: (1) it is adaptive to non-stationary sources of data; (2) a score has a clear statistical/information-theoretic meaning; (3) it is computationally inexpensive; and (4) it can handle both categorical and continuous variables. An experimental application to network intrusion detection shows that SmartSifter was able to identify data with high scores that corresponded to attacks, with low computational costs. Further experimental application has identified a number of meaningful rare cases in actual health insurance pathology data from Australia's Health Insurance Commission.  相似文献   

9.
基于记忆效应的局部异常检测算法   总被引:1,自引:1,他引:0       下载免费PDF全文
基于密度的局部异常检测算法(LOF算法)的时间复杂度较高,限制了其在高维数据集以及大规模数据集中的使用。该文通过分析LOF算法,引入记忆效应概念,提出具有记忆效应的局部异常检测算法——MELOF算法。实验测试表明,该算法的计算结果与LOF算法完全相同,而且能够大大缩短运行时间。  相似文献   

10.
洪沙  林佳丽  张月良 《计算机科学》2015,42(5):230-233, 264
针对不确定数据集进行离群点检测,设计了基于密度的不确定数据的局部离群因子(Uncertain Local Outlier Factor,ULOF)算法.通过建立不确定数据的可能世界模型来确定不确定对象在可能世界中的概率.结合传统的LOF算法推导出ULOF算法,根据ULOF值判断不确定对象的局部离群程度;然后对ULOF算法的效率性和准确性进行了详细分析,提出了基于网格的剪枝策略、k最近邻查询优化来减少数据的候选集;最后通过实验证明了ULOF算法对不确定数据检测的可行性和效率性,优化后的方法有效地提高了异常检测准确率,降低了时间复杂度,改善了不确定数据的异常检测性能.  相似文献   

11.
为了提高离群数据检测精度和效率,提出了一种基于相关子空间的离群数据检测算法。该算法首先根据数据局部密度分布特征得出稀疏度矩阵,通过高斯相似核函数放大稀疏度特征;然后计算各属性维中数据稀疏度相似因子,确定子空间向量及相关子空间,结合数据稀疏度和维度权值得出数据对象的离群因子,选取最大的若干个对象为离群数据;最后采用人工数...  相似文献   

12.
基于动态网格的数据流离群点快速检测算法   总被引:8,自引:0,他引:8  
离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.算法利用动态网格对空间中的稠密和稀疏区域进行划分,过滤处于稠密区域的大量主体数据,有效地减少了算法所需考察的数据对象的规模.而对于稀疏区域中的候选离群点,采用近似方法计算其离群度,具有高离群度的数据作为离群点输出.在保证一定精确度的条件下,算法的运行效率可以得到大幅度提高.对模拟数据集和真实数据集的实验检测均验证了该算法具有良好的适用性和有效性.  相似文献   

13.
一个基于小波的时序数据异常探测新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文针对时序数据提出了一种基于小波的异常探测算法。首先应用小波变换将时域空间的时序数据分解成不同的频率成份,通过低频信号的特性缩短待处理的数据处理。对于变换后的数据,再采用基于密度的LOF异常探测方法挖掘异常数据。最后,对某烟草公司的烟叶收购数据序列进行了实验,结果表明了该算法的有效性。  相似文献   

14.
高维类别属性数据流离群点快速检测算法   总被引:1,自引:1,他引:1  
提出类别属性数据流数据离群度量--加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categorical data streams based on frequent pattern).该算法通过动态发现和维护频繁模式来计算离群度,能够有效地处理高维类别属性数据流,并可进一步扩  相似文献   

15.
RFID(射频识别)标签阅读器对操作环境的敏感性很高,导致其产生的RFID数据流不可靠,并含有大量的漏读,因此必须要对原始数据进行清洗。设计基于滑动窗口的自适应数据清洗算法,算法使用滑动窗口技术和二项分布模型计算合适的窗口大小,通过窗口子区间的监测结果和标签的状态来动态调整窗口大小。结果显示,在移动环境下本算法比SMURF算法产生的平均错误数少,性能更加优越,准确率和稳定性都有明显提高。   相似文献   

16.
王飞 《计算机系统应用》2015,24(12):233-238
异常检测是数据挖掘领域研究的基本问题之一,已被广泛应用于气象预报、网络入侵检测、电信和信用卡欺诈侦察等领域.基于密度的异常检测算法LOF具有较好的检测效果和适用性,但其计算量较大,运行效率不够高,且在进行对象之间的距离计算时忽略了不同属性对异常值的不同影响.针对以上不足,本文提出了一种高效的LOF改进算法iLOF*.该算法利用网格进行数据约简,从而提高了算法的运行效率;同时,在进行对象之间的距离计算时,引入信息熵,给不同属性赋予不同的权值,从而提高了算法的准确率.另外,用MapReduce计算框架将iLOF*算法并行化,进一步提高了算法在大规模数据集上的运行效率.最后的实验结果验证了iLOF*算法的有效性和高效性.  相似文献   

17.
针对基于聚类分析及基于孤立点检测的入侵检测方法的局限,根据数据流的特点,提出了一种数据流中孤立点动态识别方法。该方法使用动态微粒群算法对特征空间中当前主要聚类的特征点进行追踪,通过计算数据流中数据对象与特征点的距离来判断数据对象的性质。将该方法应用于入侵检测而进行的实验证明了方法的有效性。  相似文献   

18.
GridOF:面向大规模数据集的高效离群点检测算法   总被引:12,自引:3,他引:12  
作为数据库知识发现研究的重要技术手段,现有离群点检测算法在运用于大型数据集时其时间与空间效率均无法令人满意.通过对数据集中离群点分布特征的分析,在数据空间网格划分的基础上,研究数据超方格层次上的密度近似计算与稠密数据主体滤除策略.给出通过简单的修正近似计算取代繁复的点对点密度函数值计算的方法.基于上述思想构造的离群点检测算法GlidOF在保持足够检测精度的同时显著降低了时空复杂度,运用于大规模数据集离群点检测具有良好的适用性和有效性.  相似文献   

19.
鉴于传统鲁棒离群点去除算法不能准确估计过程采样数据的均值和协方差,导致基于PCA的统计建模监控影响故障诊断效果的局限性,本文提出一种综合CDCm与MVT的异常检测算法,可以克服上述缺陷.通过改进尺度方法对过程原始采样数据实现准确估计并进行中心化和标准化处理,运用采样数据中的最大变量值来计算距离,采用CDCm算法求出样本...  相似文献   

20.
离群点检测是数据管理领域中的热点问题之一,在医疗诊断、金融诈骗、环境监测等领域中具有广泛的应用。目前,随着传感器等设备在数据采集方面的应用,人们发现数据的不确定性普遍存在。与确定性数据相比,挖掘出不确定数据集中潜在的富有价值的信息变得十分困难。针对上述问题,提出了一种快速的不确定离群点检测算法FODU(Fast Outlier Detection approach on Uncertain data sets)。采用分层次划分思想给出了索引的构建策略,这种索引结构不仅克服了传统索引对多维数据管理的局限性,而且能够被快速地进行空间剪枝;为了快速地挖掘出不确定离群点,提出了高效的过滤方法。该方法通过批量过滤与单点过滤两个过程减少了大量的冗余计算,从而提高了检测效率,为了避免可能世界的空间膨胀,给出了数据对象离群概率值的计算方法。通过实验验证了所提算法的有效性,结果表明,相对于现有研究,该算法可以显著提高不确定离群点的检测效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号