共查询到18条相似文献,搜索用时 78 毫秒
1.
在基于信息熵的离群点检测算法的基础上,提出一种适用于动态数据环境的检测算法。该算法在有数据对象插入或删除的时候,不必计算所有数据对象的相对离群点因子(ROF)值,而只需重新计算受影响的点的ROF值。实验结果表明,该算法在动态数据环境下的运行时间小于原来的算法。 相似文献
2.
介绍了离群数据挖掘的基本概念,全面回顾分析并总结了离群数据挖掘研究的历史与现状,以及离群数据挖掘的几类方法,介绍了一种传统的基于距离的离群数据挖掘算法SL算法,并对该方法进行了分析和评价,指出传统方法的优点和不足,展望了今后的研究工作。 相似文献
3.
4.
一种改进的基于密度的离群数据挖掘算法 总被引:2,自引:1,他引:1
利用基于密度的离群数据挖掘算法离群数据不在非离群数据指定的邻域内的特点,改进了原有的离群数据挖掘算法:首先判断数据是否在某个非离群数据指定的邻域内,如果不在,再判断其邻域内数据的个数。通过对二维空间数据测试表明,改进的算法能够快速有效地挖掘出数据集中的离群数据,速度上数倍于原来的算法。 相似文献
5.
6.
7.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。 相似文献
8.
9.
10.
11.
12.
13.
14.
特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。 相似文献
15.
16.
基于距离和基于密度的离群点检测算法受到维度和数据量伸缩性的挑战, 而空间数据的自相关性和异质性决定了以属性相互独立和分类属性的基于信息理论的离群点检测算法也难以适应空间离群点检测, 因此提出了基于全息熵的混合属性空间离群点检测算法。算法利用区域标志属性进行区域划分, 在区域内利用空间关系确定空间邻域, 并用R*-树进行检索。在此基础上提出了基于全息熵的空间离群度的度量方法和空间离群点挖掘算法, 有效解决了混合属性的离群度的度量和离群点的挖掘问题。由于实现区域划分有利于并行计算, 从而可适应大数据量的计算。理论和实验证明, 所提算法在计算效率和实验结果的可解释性方面均具有优势。 相似文献
17.
针对传统K-prototypes在计算分类属性的差异度时未考虑各个分类属性对聚类结果的影响程度,且算法容易受到噪声的干扰,无法处理数据中不够精确、不完整等不确定性问题,提出基于信息熵的粗糙K-prototypes聚类算法。在计算数据样本之间分类属性的差异度时,使用信息熵的理论,确定每个分类属性对于聚类分析结果的影响权重;引入粗糙理论,计算得到各样本与粗糙模之间的粗糙相异度,通过多次迭代计算,获得最终聚类结果。该算法结合信息熵和粗糙理论,可区别对待各分类属性,解决数据不精确引起的不确定性问题,4个UCI数据集上的实验分析结果验证了该算法的有效性。 相似文献
18.
针对NDOD(outlier detection algorithm based on neighborhood and density)算法在判断具有不同密度分布的聚类间过渡区域对象时存在的不足,以及为了降低算法时间复杂度,提出一种基于方形对称邻域的局部离群点检测方法。该算法改用方形邻域,吸收基于网格的思想,通过扩张方形邻域快速排除聚类点及避免"维灾";通过引入记忆思想,使得邻域查询次数及范围成倍地减小;同时新定义的离群度度量方法有利于提高检测精度。实验测试表明,该算法检测离群点的速度及精度均优于NDOD等算法。 相似文献