首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 132 毫秒
1.
针对XML数据中的孤立点问题,利用聚类分析思想和XML数据嵌套结构特性所蕴含的元素间的上下文信息,设计了一种在XML半结构数据中检测孤立点的算法.该算法把逻辑相关的结点聚集到相应的子空间中,并基于这些相关子空间计算孤立点兴趣度度量XO度量,以此来识别孤立点数据.实验结果表明,该算法在一定规模的孤立点数据下能够达到较高的识别效率.  相似文献   

2.
提出了一种基于主分量分析和属性距离和的孤立点检测算法。该方法首先通过主分量分析方法从众多属性中提取出满足累计贡献率的主分量,同时利用PCA变换矩阵把原始数据集转换到由主分量组成的新的特征空间上,之后对转换后的数据集用属性距离和的方法对孤立点进行检测。实验结果证明了基于主分量分析和属性距离和的孤立点检测算法的有效性。  相似文献   

3.
在分析现有的孤立点探测算法的基础上,提出一种新颖的基于聚类的孤立点集挖掘算法.该算法不但能够探测出所有的孤立点,还能根据孤立点产生的原因对这些孤立点进行分类。通过实验数据测试,本算法有较好的稳定性和性能的优越性。  相似文献   

4.
李光兴 《计算机科学》2016,43(Z6):236-238, 280
根据孤立点是数据集合中与大多数数据的属性不一致的数据,边界点是位于不同密度数据区域边缘的数据对象,提出了基于相对密度的孤立点和边界点识别算法(OBRD)。该算法判断一个数据点是否为边界点或孤立点的方法是:将以该数据点为中心、r为半径的邻域按维平分为2个半邻域,由这些半邻域与原邻域的相对密度确定该数据点的孤立度和边界度,再结合阈值作出判断。实验结果表明,该算法能精准有效地对多密度数据集的孤立点和聚类边界点进行识别。  相似文献   

5.
基于相似系数和检测孤立点的聚类算法   总被引:11,自引:2,他引:11  
姜灵敏 《计算机工程》2003,29(11):183-185
在多目标决策和综合评价中,有个别对象远远偏离群体,成为孤立点集。如果不别除这些对象,就会影响决策和评价的结果。数据挖掘中孤立点集检测算法通常是基于项集属性的,显然不适干多目标决策(MODM)和综合评价中的孤立点集检测。该文提出了一个基于相似系数和检测孤立点的聚类算法,有效地解决了这个问题。  相似文献   

6.
孤立点挖掘是数据挖掘中研究的热点之一.在对已有的孤立点挖掘技术分析的基础上,结合基于密度的聚类算法,提出了一种新的改进的检测孤立点方法即基于属性相似度的孤立点挖掘方法(ADBSCAN).该方法先用基于密度的聚类算法进行聚类,然后再利用对象间的属性相似度进行进一步的检验,确定不包含在任何聚类中的对象是否为真正的孤立点,并通过实验验证了该方法的可行性和有效性.  相似文献   

7.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

8.
空间孤立点是指与邻居具有不连续性的空间点,或者是偏离观测值以至使人们认为是由不同的体系产生的。空间孤立点检测在交通、生态、公共安全、卫生健康、地震、海啸等领域有广泛应用。传统的根据一个非空间属性值进行孤立点判断的方法客易引起孤立点判断失误。作者在针对多个属性进行考虑的基础上,提出以空间维确定邻居关系,非空间维定义距离函数,使用Mahalanobis距离检测孤立点,研究一种新的检测空间孤立点的算法。并时时间复杂度进行分析。仿真实验说明算法可以有效地发现大规模空间数据中的孤立点。  相似文献   

9.
传统的聚类算法是一种无监督的学习过程,聚类的精度受到相似性度量方式以及数据集中孤立点的影响,并且算法也没有很好的利用先验知识,无法体现用户的需求。因此提出了基于共享最近邻的孤立点检测及半监督聚类算法。该算法采用共享最近邻为相似度,根据数据点的最近邻居数目来判断是否为孤立点,并在删除孤立点的数据集上进行半监督聚类。在半监督聚类过程中加入了经过扩展的先验知识,同时根据图形分割原理对数据集进行聚类。文中使用真实的数据集进行仿真,其仿真结果表明,本文所提出的算法能有效的检测出孤立点,并具有很好的聚类效果。  相似文献   

10.
ISAD:一种新的基于属性距离和的孤立点检测算法   总被引:1,自引:0,他引:1  
孤立点是数据对象在某些属性(维)上波动形成的.由此,本文提出了关键属性的概念,用于描述影响数据稳定性的属性.在真实数据集中,只有一部分属性是能够决定某数据是否是孤立点的关键属性.由此,本文提出了关键属性隶属度的定义及其求解算法,并在此基础上提出了一种新的基于属性距离和的孤立点检测算法.实验结果表明,该算法较基于单元的算法在效率及雏数可扩展方面均有显著提高.  相似文献   

11.
该文提出在高维空间下离群点发现技术的新方法,即利用粗糙集的属性约简技术减少高维空间的维数,并在各个关联规则子空间下对数据集进行基于密度的离群点挖掘,使高维空间下的离群点挖掘更具有实用性。数据分析表明,该算法能有效地发现高维空间数据集中的离群点。  相似文献   

12.
一种基于关键域子空间的离群数据聚类算法   总被引:4,自引:0,他引:4  
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性.  相似文献   

13.
In this study, we propose a novel local outlier detection approach - called LOMA - to mining local outliers in high-dimensional data sets. To improve the efficiency of outlier detection, LOMA prunes irrelevance attributes and objects in the data set by analyzing attribute relevance with a sparse factor threshold. Such a pruning technique substantially reduce the size of data sets. The core of LOMA is searching sparse subspace, which implements the particle swarm optimization method in reduced data sets. In the process of searching sparse subspace, we introduce the sparse coefficient threshold to represent sparse degrees of data objects in a subspace, where the data objects are considered as local outliers. The attribute relevance analysis provides a guidance for experts and users to identify useless attributes for detecting outliers. In addition, our sparse-subspace-based outlier algorithm is a novel technique for local-outlier detection in a wide variety of applications. Experimental results driven by both synthetic and UCI data sets validate the effectiveness and accuracy of our LOMA. In particular, LOMA achieves high mining efficiency and accuracy when the sparse factor threshold is set to a small value.  相似文献   

14.
针对大多数离群数据检测方法依赖于用户确定参数以及维灾现象,给出了一种基于基尼指标加权的离群子空间与离群数据挖掘方法。该方法通过计算各个维上去一划分的基尼指标值来生成数据对象的离群子空间及属性权向量,在子空间中采用基于统计离群数据挖掘的思想来挖掘离群数据;不需输入参数,结果更具客观性,并且能够适应高维离群数据挖掘;最后采用恒星光谱数据集,验证了可行性和有效性。  相似文献   

15.
该文提出一种基于熵加权属性子空间的目标社区发现方法,挖掘与用户偏好相关的社区。首先,从属性和结构两个方面综合考虑节点间的相似度,利用用户给定的样例节点及其邻居扩展得到目标社区中心点集;其次,在中心点集上,设计一种熵加权的属性权重计算方法,得到目标社区的属性子空间权重;再次,利用目标社区的属性子空间权重,基于节点的属性和结构相似度重写网络中边的权重;最后,定义社区适度函数并结合重写后网络中边的权重改进社区适度函数,以中心节点集为核心,挖掘基于用户偏好的内部连接紧密且与外部分离较好目标社区。此外,该方法可以扩展到网络中多个社区发现及离群点检测任务中。在人工网络和真实网络数据集上的实验结果验证了该文所提算法的效率和有效性。  相似文献   

16.
高维数据集离群子空间特性研究   总被引:1,自引:1,他引:0  
探讨对挖掘出的离群数据集进行解释与分析的有效方法。以粗糙集理论的属性约简技术为基础,定义了属性离群贡献度等概念对高维数据集离群特性进行了量化描述,提出了离群划分与离群约简思想以及离群数据关键属性域子空间分析方法,给出了一种离群约简算法并分析了算法复杂性。实验表明,这种方法可以有效地揭示离群数据产生来源,有助于对整体数据集的更全面理解,且提出的算法对于问题规模具有较好的适应性。  相似文献   

17.
针对高维数据集中存在不相关的属性与冗余数据导致无法检测出异常值的问题,提出了一种新的基于稀疏子空间的局部异常值检测算法(SSLOD)。根据数据对象在每个维度上的局部密度定义了对象的异常因子;依据异常因子阈值约简数据集中与局部异常值不相关的属性以及冗余的数据对象;用改进的粒子群优化算法在约简后的数据集中搜索稀疏子空间,该子空间中的数据对象即为异常值。通过在仿真数据集和真实数据集上的综合实验验证了该算法的有效性和准确性。  相似文献   

18.
离群数据是数据中的小模式,因其固有的少数据与稀疏性等特征,使得基于距离或基于统计等常规聚类方式不适用于对离群数据的分类。该文根据离群对象关键域子空间的重合度,定义了离群共享属性集与离群相似度等概念,提出-离群簇分析技术。通过构建离群邻接图并将其稀疏化,将-离群簇搜索与相应的离群邻接图的最大完全子图搜索一一对应,给出一种基于邻接图的离群数据聚类算法。算例及实验结果表明,该方法具有较高的效率及良好的直观性。  相似文献   

19.
一种基于知识粒度的启发式属性约简算法   总被引:1,自引:0,他引:1  
属性约简是粗糙集理论进行知识获取的核心问题之一。根据属性相似度与知识粒度的一致性,通过条件属性与决策属性以及条件属性之间的相似度度量,提出了一种基于知识粒度的启发式属性约简算法。根据条件属性与决策属性的相似度对条件属性进行降序排列,根据条件属性之间的相似度度量选择重要的属性,从而得到约简集合。理论分析与实验结果表明,该算法具有较高的运行效率和较好的约简效果。  相似文献   

20.
社交网络边权重表示节点属性相似性时,针对边权重能导致节点敏感属性泄露的问题,提出一种利用差分隐私保护模型的扰动策略进行边权重保护。首先根据社交网络构建属性相似图和非属性相似图,同时建立差分隐私保护算法;然后对属性相似图及非属性相似图边权重进行扰动时,设计扰动方案,并按扰动方案对属性相似图及非属性相似图进行扰动。实现了攻击者无法根据扰动后边权重判断节点属性相似性,从而防止节点敏感属性泄漏,而且该方法能够抵御攻击者拥有最大背景知识的攻击。从理论上证明了算法的可行性,并通过实验验证了算法的可行性及有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号