共查询到18条相似文献,搜索用时 62 毫秒
1.
本研究结合信息熵与粗糙集理论中的属性约简技术,提出了一种新颖的离群点检测算法。这种方法通过在更小的属性子空间去获得相同或相近的离群数据集,使对离群数据的分析更加集中于较小的目标域。该算法对原属性空间进行划分,通过分析计算将具有最大相对熵与负相对势的对象集合判定为离群点集合。为了验证算法的有效性,还在通用数据集上进行了测试,理论分析和实验结果表明该离群点检测算法是有效可行的。 相似文献
2.
离群点检测算法研究 总被引:1,自引:0,他引:1
张宁 《桂林电子科技大学学报》2009,29(1)
离群点检测是数据挖掘中一项重要内容,通过对当前有代表性的离群点检测算法的分析和比较,对各算法的优缺点进行了总结.针对高维数据中离群点检测算法进行了分析和研究,提出了高维数据中离群点检测需要注意的一些问题,从而便于研究者以这些算法为基础,在此基础上提出新的改进算法. 相似文献
3.
提出了一种基于空间相邻关系的点对象离群检测算法SAOD(Space Adjacent Relations Based GML Point Outlier Detection Algorithm).利用空间相邻关系作为空间点对象的相似度度量准则,得到相似度矩阵,从而挖掘GML中的离群点对象.实验结果表明,SAOD算法能有效地检测GML中的离群点对象并且具有较高的效率. 相似文献
4.
目前研究时间序列离群点检测方法大都没有考虑到数据本身的周期性,有的只能处理名词性属性. 针对实值性属性的时序数据,提出了多粒度周期模式的发现算法,该算法基于不同的时间间隔粒度来探测不同的周期模式, 并利用得到的周期模式来发现那些偏离周期模式的离群点. 该方法可有效避免将正常数据误报为异常值. 通过实验验证了该算法既可正确找出数据在不同粒度下的周期模式,又可有效探测时序数据中的异常值,并与不用周期模式发现的离群点检测算法比较,减少了对特殊事件的离群点误报. 相似文献
5.
分布式计算被广泛应用于离群点检测问题,但分布式环境中节点计算性能的差异带来了数据计算性能的下降问题。针对面向大尺度高维数据离群点分布式计算的负载均衡问题,该文提出了一种加权分布式离群点检测方法。首先根据数据节点的计算性能确定数据节点的权值,然后将数据空间划分为若干个网格,最后设计了一种基于网格划分的加权分配算法WGBA,将这些网格分配到数据节点中,实现并行计算。实验验证了该方法的有效性。 相似文献
6.
离群点检测的目的是与应用场合密切相关的,检测结果与离群数据的描述方法密切相关。从离群点检测的基本原理出发,在l∞度量意义下给出关于离群点的定义,用于解决一类高维大规模数据集中的离群点检测问题,并提出高效的离群点检测方法。实验结果证明了其显著的优越性。 相似文献
7.
一种基于包含关系的空间面对象条件离群检测算法 总被引:1,自引:0,他引:1
提出了一种基于包含关系的空间面对象条件离群检测算法DCOP-IR(detecting conditional outlier polygons based on inclusion relations),该算法针对空间面对象的包含关系和非空间属性,定义了一种相似度度量方法,利用基于密度的离群查找算法,先检测出整体的空间离群对象,然后在一定的条件属性下检测空间条件离群对象。实验结果表明,算法DCOP-IR能准确地检测出满足一定条件属性的空间离群对象,并具有较高的效率。 相似文献
8.
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点. 相似文献
9.
针对常规中值滤波在图像去噪过程中会将原图像的有用信息同时滤除的问题,提出了一种基于加权均值滤波噪声点检测的中值滤波算法.该算法通过含噪图像与其经加权均值滤波的图像作差对图像中的噪声点进行判别,从而针对噪声点进行滤波,能在保持图像原始信息的前提下有效地将图像中的噪声滤除.实验结果表明,与常规中值滤波算法相比,该方法既具有较好的去噪特性,也具有较强的细节保护能力. 相似文献
10.
一种基于混沌预测的离群时间序列检测方法 总被引:1,自引:0,他引:1
提出一种基于混沌行为预测的金融交易离群检测方法.通过对短期金融交易时间序列的混沌分析,建立其未来行为趋势预期机制.利用RBF神经网络构建金融交易序列的拟合函数,以此进行一步行为预测,比较实际结果与预测结果的偏差,从而得到离群判别.合成与真实数据的实验表明了该方法的有效性. 相似文献
11.
基于时间序列相似度的离群模式检测模型 总被引:2,自引:0,他引:2
针对常规基于单点数据比较的离群模式检测忽视现实生活各种波动周期规律的问题,提出采用时间序列相似度的检测方法.通过基于重要点的时序线段拟合方法描述整体波动规律,以线段斜率比较描述时序走势的相似度.模型克服了一般时序分析算法复杂度高、缺乏整体波动规律把握的缺陷,可以有效解决目前可疑金融交易监管系统高误报率、报送数据调查价值低的问题.对金融外汇交易真实数据的实验结果证实了模型在交易波动周期规律发现上的有效性. 相似文献
12.
对聚类结果的理解有助于评价聚类效果,可以据此调整聚类过程,更高效地使用聚类结果.但是,聚类结果的理解仍然是一个尚未解决的问题.提出了基于离群点识别技术分析任意聚类算法的聚类结果,发现了聚类结果属性特征簇的方法;提出一种基于不相似性比值的离群点识别算法.通过对全部数据簇的属性描述进行离群点分析,发现各数据簇的特征属性,实现对聚类结果的理解.所提方法适用于任意聚类算法结果的分析.对UCI的iris、ZOO和Housing数据集的采用X-means、Frozen和DBScan算法的聚类结果进行聚类结果分析,实验表明所提方法较成功地发现了不同聚类算法的属性特征簇,有助于对聚类结果的深入理解. 相似文献
13.
为了解决大规模数据中的异常检测问题,提出了基于支持向量数据描述(SVDD)的高效离群数据检测算法。该算法的核心思想为:首先利用SVDD获得包含单类数据的最小球形边界,然后通过该边界对未知样本数据进行分类,并利用最小闭包球算法对SVDD分类器进行优化求解。在UCI机器学习数据集和入侵检测数据集上将该算法与其他离群数据检测算法进行了实验比较,结果表明,该算法不仅获得了更高的检测准确率,而且具有较低的运行时间。 相似文献
14.
多值RS理论中的属性约简算法 总被引:6,自引:0,他引:6
从信息论角度对信息系统中的属性重要性进行了度量,在此基础上提出了一种多值RS理论中的属性约简算法,它以一种新的形式的信息熵为启发式信息,减小了知识约简过程中的搜索空间. 实验分析表明,该算法能得到信息系统的最小约简. 相似文献
15.
针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中心点选取的随机性,同时利用信息熵确定数值数据的属性权重,并对分类属性度量公式进行改进,给出了一种混合属性数据度量公式.结果表明,改进后的算法具有较高的准确率,能够有效处理混合属性数据. 相似文献
16.
针对实际数据存在不确定性的问题,提出了新的异常点检测方法。首先,定义了基于距离的不确定数据异常点检测概念;其次,设计了相应的不确定数据的异常点检测算法;再次,为降低算法时间复杂度,设计了剪枝策略;最后,实验分析说明了算法对不确定异常点检测的可行性与效率。 相似文献
17.