首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 63 毫秒
1.
针对密度峰值聚类算法需要人工设置参数、时间复杂度高的问题,提出了基于快速密度峰值聚类离群因子的离群点检测算法。首先,使用k近邻算法代替密度峰值聚类中的密度估计,采用KD-Tree索引数据结构计算数据对象的k近邻;然后,采用密度和距离乘积的方式自动选取聚类中心。此外,定义了向心相对距离、快速密度峰值聚类离群因子来刻画数据对象的离群程度。在人工数据集和真实数据集上对所提算法进行实验验证,并与一些经典和新颖的算法进行对比实验,从正确性和时间效率上验证了所提算法的有效性。  相似文献   

2.
提出一种基于改进粒子群优化算法的离群点检测算法,解决高维环境下离群点挖掘效率偏低的问题。新算法能够充分发挥粒子群优化算法全局搜索的优势,并具有k均值算法快速收敛的特点,可避免粒子群优化算法的早熟,减小确定k均值算法聚类中心的计算量等问题。实验表明,该算法在高维环境下可快速有效的挖掘出离群数据的离群支持度,有较好的挖掘效率、准确率和实用性。  相似文献   

3.
针对现有离群点检测算法在复杂数据分布和高维度数据集上精度低的问题,提出了一种基于相对熵权密度离群因子的离群点检测算法.首先引入熵权距离取代欧氏距离以提高离群点检测精度.然后结合自然邻居的概念对数据对象进行高斯核密度估计.同时提出相对距离来刻画数据对象偏离邻域的程度,提高所提算法在低密度区域检测离群点的能力.最后提出相对...  相似文献   

4.
俞琳琳  吉根林 《信息技术》2005,29(11):86-89
离群数据挖掘是数据挖掘技术的重要研究领域之一。在简单介绍了离群数据挖掘的产生背景及研究意义后,对几种主要的离群数据挖掘方法进行了简单的阐述,详细论述了基于距离的离群数据挖掘算法和基于密度的离群数据挖掘算法,希望能为离群数据挖掘的研究者提供借鉴。  相似文献   

5.
李越 《信息通信》2013,(3):132-133
公安情报的分析研判在情报工作中处于核心地位,现如今已是大数据时代,面对亿万条情报信息公安部门很难有效地处理。从公安实际工作出发,往往那些看似异常的信息更值得公安机关去关注。因此,通过离群点数据挖掘的思想构建公安情报分析模型来对异常信息进行分析研判,对于公安机关利用这些情报信息预防打击犯罪有着重要的意义。  相似文献   

6.
针对高维稀疏聚类CABOSFV算法仅能解决二态变量高维稀疏聚类问题而对其他类型变量算法将失效的情况,通过定义“属性绝对值距离”解决了CABOSFV算法固有的这一缺陷。另外,针对聚类后产生伪孤立点问题,提出相应的异常数据处理策略,从而得到较为精确的离群数据。  相似文献   

7.
郭龙 《通讯世界》2016,(21):77-78
本文主要分析了离群点挖掘方法是针对小模式数据进行挖掘,其目的是找出大数据集中那些与正常数据相比差别比较多,远离正常数据的数据,以供参考.  相似文献   

8.
吴远超  范磊 《通信技术》2020,(2):312-317
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象。高维度环境是离群点检测技术的一个重要场景,现实生活中的高维数据中大量无关或嘈杂的特征给基于子空间/特征选择的高维离群点检测方法提出了重大挑战。Pang等人提出了一种将离群点打分和特征选择结合起来的方案CINFO,准确度相比传统的高维度离群点检测算法有所提升。CINFO方法在效率上有改进空间,本文通过引入扩展的孤立森林算法(Extended Isolation Forest,EIF)对CINFO方法进行改进,在几乎不损失精度的情况下,明显提升了算法效率。  相似文献   

9.
针对传统离群点识别方法对数据的分布形状和密度有特定要求,需设定参数的问题,提出了一种自动聚类的离群点识别方法。该方法通过引入相互K近邻数来表示数据对象的离群度,对数据的分布形状、分布密度无要求,可以输出全局离群点、局部离群点和离群簇;通过k次迭代来实现自动聚类,无需人为设定参数。通过合成数据以及UCI数据实验,验证了该方法的有效性、普适性。  相似文献   

10.
胡正平  路亮  许成谦 《信号处理》2011,27(6):874-882
最小生成树数据描述方法在刻画高维空间样本点分布时,将所有图形的边作为新增虚拟样本以提供同类样本分布描述,这种描述存在分支多覆盖模型复杂,且局部覆盖不够合理的问题。针对该问题,依据特征空间中同类样本分布的连续性规律,提出基于高维空间典型样本Steiner最小树覆盖模型的一类分类算法,该算法首先对目标类训练集进行样本修剪,去除冗余信息和噪声信息,选择最具代表性的样本作为训练集,然后对保留的典型样本构建Steiner最小树覆盖模型。算法分析和仿真实验结果表明,相比最小生成树数据描述,文中提出的方法能在较低覆盖模型复杂度的前提下更合理的描述目标类样本空间分布,构建更合理的覆盖模型,在分类正确率和适用样本规模上都表现出一定的优越性。   相似文献   

11.
分布式异常检测中隐私保持问题研究   总被引:3,自引:0,他引:3  
隐私保持是目前数据挖掘领域的一个重要方向,其目标是研究如何在不共享原始数据的条件下,获取准确的数据关系.本文采用现实的多方安全计算模式,结合数据干扰技术,提出了一种保持隐私的异常检测算法.该算法选择那些超出局部阈值距离的两点间距离及其序号进行通讯,为了保持原始数据的隐私,随机抽取一些正常范围内的两点间距离及其序号,在加入干扰后分散在异常信息中.理论分析表明该算法既提供了现实的数据隐私又保障了算法的性能.  相似文献   

12.
孤立点检测是数据挖掘的重要研究方向之一,目标是发现数据集中不具备数据一般特性的数据对象.通过挖掘数据属性间内在的数量关联规则,标记产生的弱关联规则中置信度小于阈值的极小概率事件为孤立点,提出了一种基于数量关联的离群点检测算法.实例表明,算法能够有效检测数据集中的孤立点,具有应用价值.  相似文献   

13.
基于边界和距离的离群点检测   总被引:4,自引:1,他引:3       下载免费PDF全文
近年来,离群点检测已经引起人们的广泛关注. 离群点检测在网络入侵检测、信用卡欺诈、电子商务犯罪、医疗诊断以及反恐等诸多领域都具有十分重要的作用. 离群点检测的目的是为了发现数据集中的一小部分对象,与数据集中其余的大部分对象相比,这一小部分对象有着特殊的行为或者具有反常的属性. 针对现有的离群点检测方法不能有效处理不确定与不完整数据的问题,本文将粗糙集中边界的概念与 Knorr 等所提出的基于距离的离群点检测方法结合在一起,在粗糙集的框架中提出一种新的离群点定义与检测方法. 针对于该方法,我们设计出相应的离群点检测算法 BDOD,并且通过在临床诊断数据集上所进行的实验,验证了算法BDOD的有效性. 实验结果表明本文的方法为处理离群点检测中的不确定与不完整数据问题提供了一条新的途径.  相似文献   

14.
分布式数据流上的连续异常检测   总被引:1,自引:1,他引:0  
近年来,数据流异常检测在决策支持和监测等领域有着广泛的应用前景,并成为数据管理与挖掘的研究热点.针对该问题提出了相应的异常定义及检测算法,理论分析表明:与现有异常检测算法相比较,提出的算法具有良好的性能和效率,更适合于数据流应用.  相似文献   

15.
提出一个新的概念——基于簇的孤立点概念,这个概念的提出有助于理解局部数据的行为,同时也描述了如何利用LDBSCAN算法发现基于簇的孤立点,并为每一个对象计算局部偏离因子.  相似文献   

16.
17.
基于粗糙集理论的序列离群点检测   总被引:3,自引:1,他引:2       下载免费PDF全文
作为数据挖掘的一项重要任务,离群点检测已经引起人们的广泛关注.本文基于粗糙集理论来讨论离群点的定义与检测问题,提出了一种新的离群点定义--粗糙序列离群点以及相应的离群点检测算法RSOD.该算法利用粗糙集理论中的知识熵和属性重要性等概念来构建三种类型的序列,并通过分析序列中元素的变化情况来检测离群点.在UCI标准数据集上...  相似文献   

18.
随着无线传感器网络技术的发展,数据采集量越来越大,维数也不断提高。然而现有的离群点检测算法多是面向单维或低维度数据,对此文中提出了基于Fusion-Bayes的离群点检测算法。该检测方法首先利用数据转换技术将不同数据属性转换成统一格式,使得各属性可以进行融合运算;然后再利用贝叶斯方法对融合后的属性进行离群点检测。通过实验得出,多维数据属性融合后的检测结果相比于单维属性或低维属性的检测更加准确、效果更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号