首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
孤立点通常都包含着重要的信息,挖掘出孤立点的内涵知识可以帮助用户更好地认知数据。通过给出的孤立点的原因属性子空间及其孤立度和孤立点的相似度等概念,提出了一个基于属性子空间的孤立点内涵知识挖掘算法,得到了每个孤立点的原因属性集,并结合聚类的思想把孤立点按照其相似性特征进行了分类,使每一类中的所有孤立点在一定精度下都具有相同的原因属性集。实验结果表明该算法是有效和实用的,且易用性较强。  相似文献   

2.
孤立点挖掘是数据挖掘中研究的热点之一.在对已有的孤立点挖掘技术分析的基础上,结合基于密度的聚类算法,提出了一种新的改进的检测孤立点方法即基于属性相似度的孤立点挖掘方法(ADBSCAN).该方法先用基于密度的聚类算法进行聚类,然后再利用对象间的属性相似度进行进一步的检验,确定不包含在任何聚类中的对象是否为真正的孤立点,并通过实验验证了该方法的可行性和有效性.  相似文献   

3.
本文介绍了网络安全态势感知、聚类分析算法和孤立点算法,基于网络安全事件中大部分为异常事件的原理,把聚类分析和孤立点技术引入网络安全态势评估,提出了一种利用聚类数据集合和孤立点数据集合计算服务层威胁值的方法,为网络安全态势提供一个可以参考和决策的重要参数。  相似文献   

4.
介绍一种孤立点因子的评价方法LOF,基于LOF给出一种修改的孤立因子评价标准MLOF,它不仅适用于聚类模式的孤立点发现,还适用于规则模式的孤立点发现;阐述了基于MLOF的一类孤立因子阈值的计算方法,实验表明这种方法具有良好的推荐效果.  相似文献   

5.
基于相似系数和检测孤立点的聚类算法   总被引:11,自引:2,他引:11  
姜灵敏 《计算机工程》2003,29(11):183-185
在多目标决策和综合评价中,有个别对象远远偏离群体,成为孤立点集。如果不别除这些对象,就会影响决策和评价的结果。数据挖掘中孤立点集检测算法通常是基于项集属性的,显然不适干多目标决策(MODM)和综合评价中的孤立点集检测。该文提出了一个基于相似系数和检测孤立点的聚类算法,有效地解决了这个问题。  相似文献   

6.
针对基于聚类分析及基于孤立点检测的入侵检测方法的局限,根据数据流的特点,提出了一种数据流中孤立点动态识别方法。该方法使用动态微粒群算法对特征空间中当前主要聚类的特征点进行追踪,通过计算数据流中数据对象与特征点的距离来判断数据对象的性质。将该方法应用于入侵检测而进行的实验证明了方法的有效性。  相似文献   

7.
一种基于空间邻接关系的k-means聚类改进算法   总被引:3,自引:0,他引:3       下载免费PDF全文
王海起  王劲峰 《计算机工程》2006,32(21):50-51,75
空间对象不仅具有非空间的属性特征,而且具有与空间位置、拓扑结构相关的空间特征。利用传统的聚类方法对空间对象进行聚类时,由于没有考虑空间关系,同一类的对象可能出现在空间不相邻的位置。基于空间邻接关系的k-means改进算法将相邻对象的空间邻接关系作为约束条件加以考虑,使聚类结果既反映了属性特征的相似程度,又反映了对象的空间相邻状态,从而可以揭示不同类别对象的空间分布格局,因此其比传统的k-means方法更适合于空间对象的聚类分析。  相似文献   

8.
聚类分析是数据挖掘的一类主要的方法,它可以自动根据相似性对数据对象进行分组,发现数据空间的分布特征。DBSCAN算法是经典的基于密度的聚类算法,针对此算法处理簇边界共享点的不足之处,改进了此算法。试验结果证实了确实可以提高聚类结果的质量。  相似文献   

9.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的.  相似文献   

10.
提出了一种基于主分量分析和属性距离和的孤立点检测算法。该方法首先通过主分量分析方法从众多属性中提取出满足累计贡献率的主分量,同时利用PCA变换矩阵把原始数据集转换到由主分量组成的新的特征空间上,之后对转换后的数据集用属性距离和的方法对孤立点进行检测。实验结果证明了基于主分量分析和属性距离和的孤立点检测算法的有效性。  相似文献   

11.
该文提出在高维空间下离群点发现技术的新方法,即利用粗糙集的属性约简技术减少高维空间的维数,并在各个关联规则子空间下对数据集进行基于密度的离群点挖掘,使高维空间下的离群点挖掘更具有实用性。数据分析表明,该算法能有效地发现高维空间数据集中的离群点。  相似文献   

12.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

13.
Despite the importance of the quality of software project data, problematic data inevitably occurs during data collection. These data are the outliers with abnormal values on certain attributes, which we call the abnormal attributes of outliers. Manually detecting outliers and their abnormal attributes is laborious and time consuming. Although few existing approaches identify outliers and their abnormal attributes, these approaches are not effective in (1) identifying the abnormal attributes when the outlier has abnormal values on more than the specific number of its attributes or (2) discovering accurate rules to detect outliers and their abnormal attributes. In this paper, we propose a pattern-based outlier detection method that identifies abnormal attributes in software project data: after discovering the reliable frequent patterns that reflect the typical characteristics of the software project data, outliers and their abnormal attributes are detected by matching the software project data with those patterns. Empirical studies were performed on three industrial data sets and 48 artificial data sets with injected outliers. The results demonstrate that our approach outperforms five other approaches by an average of 35.27% and 107.5% in detecting the outliers and abnormal attributes, respectively, on the industrial data sets, and an average of 35.44% and 46.57%, respectively on the artificial data sets.  相似文献   

14.
对于离群点的形成,不同的属性起着不同的作用,离群点在不同的属性域中,会表现出不同的离群特性,在大多数情况下,高维数据空间中的对象是否离群往往取决于这些对象在低维空间中的投影。针对如何将离群点按照形成原因分类的问题,引入离群属性和离群簇等概念,以现有离群挖掘技术为基础,提出了基于离群分类来进行离群点分析的方法,实现了基于聚类的离群点分类算法CBOC(cluster-based outlier classification),以揭示离群点的内涵知识。实验表明了该方法在实际应用中的有效性。  相似文献   

15.
针对高维数据集中存在不相关的属性与冗余数据导致无法检测出异常值的问题,提出了一种新的基于稀疏子空间的局部异常值检测算法(SSLOD)。根据数据对象在每个维度上的局部密度定义了对象的异常因子;依据异常因子阈值约简数据集中与局部异常值不相关的属性以及冗余的数据对象;用改进的粒子群优化算法在约简后的数据集中搜索稀疏子空间,该子空间中的数据对象即为异常值。通过在仿真数据集和真实数据集上的综合实验验证了该算法的有效性和准确性。  相似文献   

16.
一种新颖的神经网络稳健估计方法   总被引:2,自引:0,他引:2  
当神经网络应用于实际工程问题时,网络的训练数据集成或多或少都有噪声或异常值掺入其中,为了使网络具有更好的稳健性,文中根据稳健统计学原理,针对前馈神经网络(FNN)提出了一种稳健估计(RE)函数作为新的网络目标函数。  相似文献   

17.
空间孤立点是指与邻居具有不连续性的空间点,或者是偏离观测值以至使人们认为是由不同的体系产生的。空间孤立点检测在交通、生态、公共安全、卫生健康、地震、海啸等领域有广泛应用。传统的根据一个非空间属性值进行孤立点判断的方法客易引起孤立点判断失误。作者在针对多个属性进行考虑的基础上,提出以空间维确定邻居关系,非空间维定义距离函数,使用Mahalanobis距离检测孤立点,研究一种新的检测空间孤立点的算法。并时时间复杂度进行分析。仿真实验说明算法可以有效地发现大规模空间数据中的孤立点。  相似文献   

18.
粗糙集中的距离度量与离群点检测   总被引:1,自引:0,他引:1  
针对传统的基于距离的离群点检测方法不能有效地处理具有离散型属性数据集的问题,将基于距离的离群点检测方法引入粗糙集理论,利用粗糙集解决离散型属性的处理问题.首先,在粗糙集的框架中提出3种面向离散型属性的距离度量;然后,针对这3种距离度量分别设计出相应的离群点检测算法,用于从包含离散型属性的数据集中检测离群点;最后,通过在2个包含离散型属性的UCI数据集上的实验,验证了这些算法的可行性和有效性.  相似文献   

19.
The logical analysis of data (LAD) is one of the most promising data mining methods developed to date for extracting knowledge from data. The key feature of the LAD is the capability of detecting hidden patterns in the data. Because patterns are basically combinations of certain attributes, they can be used to build a decision boundary for classification in the LAD by providing important information to distinguish observations in one class from those in the other. The use of patterns may result in a more stable performance in terms of being able to classify both positive and negative classes due to their robustness to measurement errors.The LAD technique, however, tends to choose too many patterns by solving a set covering problem to build a classifier; this is especially the case when outliers exist in the data set. In the set covering problem of the LAD, each observation should be covered by at least one pattern, even though the observation is an outlier. Thus, existing approaches tend to select too many patterns to cover these outliers, resulting in the problem of overfitting. Here, we propose new pattern selection approaches for LAD that take both outliers and the coverage of a pattern into account. The proposed approaches can avoid the problem of overfitting by building a sparse classifier. The performances of the proposed pattern selection approaches are compared with existing LAD approaches using several public data sets. The computational results show that the sparse classifiers built on the patterns selected by the proposed new approaches yield an improved classification performance compared to the existing approaches, especially when outliers exist in the data set.  相似文献   

20.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号