首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
鉴于现有算法缺乏从时序演化角度解决不确定数据流聚类问题,提出基于近邻传播的不确定数据流演化聚类算法。考虑不确定数据流在线形成微簇时的变化因素对离线聚类的影响,提出不确定微簇变化率的概念。从不确定数据流演化的角度衡量微簇之间的相似程度,提出不确定微簇关联度的概念,并以此为基础构造不确定相似度矩阵,结合近邻传播思想实现不确定数据流演化聚类。通过实验证明文中算法的有效性和良好的聚类效果。  相似文献   

2.
为了提高进化数据流的聚类质量,提出基于半监督近邻传播的数据流聚类算法(SAPStream),该算法借鉴半监督聚类的思想对初始数据流构造相似度矩阵进行近邻传播聚类,建立在线聚类模型,随着数据流的进化,应用衰减窗口技术对聚类模型适时做出调整,对产生的类代表点和新到来的数据点再次聚类得到数据流的聚类结果。对数据流进行动态聚类的实验结果表明该算法是高质有效的。  相似文献   

3.
基于密度与近邻传播的数据流聚类算法   总被引:1,自引:0,他引:1  
针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引 入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更 符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模 型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工 数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.  相似文献   

4.
基于小波概要的并行数据流聚类   总被引:1,自引:0,他引:1  
许多应用中会连续不断产生大量随时间演变的序列型数据,构成时间序列数据流,如传感器网络、实时股票行情、网络及通信监控等场合.聚类是分析这类并行多数据流的一种有力工具.但数据流长度无限、随时间演变和大数据量的特点,使得传统的聚类方法无法直接应用.利用数据流的遗忘特性,应用离散小波变换,分层、动态地维护每个数据流的概要结构.基于该概要结构,快速计算数据流与聚类中心之间的近似距离,实现了一种适合并行多数据流的K-means聚类方法.所进行的实验验证了该聚类方法的有效性.  相似文献   

5.
利用数据流的遗忘特性,应用随机投影,分层、动态地维护每个数据流的概要结构.基于该概要结构,快速计算数据流和聚类中心之间的近似距离,实现一种适合并行多数据流的K-means聚类方法.所进行的实验验证该方法的有效性.  相似文献   

6.
传统基于单数据流的木马检测方法在实际应用中具有较高的误报率,为此提出一种基于多数据流分析的木马检测方法.通过对应用程序的数据流进行聚类形成数据流簇,在数据流簇上提取相应属性特征描述木马的通信行为,并采用集成学习方法对改进的C4.5决策树分类算法进行多轮训练,生成检测规则,建立检测模型.实验表明,基于多数据流分析的木马检测方法有效降低了传统基于单数据流检测的误报率,并且对无控制端的木马通信数据流具有较好的检测能力,产生的重复报警信息也大大减少,提高了基于数据流的木马检测方法的实用性.  相似文献   

7.
灰关联度聚类算法在图像检索中的应用   总被引:1,自引:1,他引:0       下载免费PDF全文
针对K-means聚类算法和相似度计算在实际应用中存在的问题,提出一种基于灰关联度的聚类算法,并将它应用于回转窑图像检索中。介绍了灰关联度及基于灰关联聚类的基本原理,给出了相应的算法,并采用VC++6.0实现。实验证明,该方法不仅在一定程度上克服了欧氏距离的缺陷,而且能够反映各属性间的影响,具有可行性和有效性,有利于实现图像的快速检索。  相似文献   

8.
杨宁  唐常杰  王悦  陈瑜  郑皎凌 《软件学报》2010,21(10):2395-2409
为解决从多数据流挖掘演化事件这一难题,提出了一种多数据流上的谱聚类算法SCAM(spectral clustering algorithm of multi-streams),其相似矩阵基于耦合度构造,而耦合度衡量了两个数据流的动态相似性.提出了算法EEMA(evolutionary events mining algorithm),该算法基于聚类模型的演变挖掘多数据流的演化事件.定义了聚类模型凝聚度,用以衡量聚类的紧凑程度,并证明了凝聚度的上界.基于到上界的距离和规范化相似矩阵的特征间隙,定义了聚类模型质量,并作为EEMA的优化目标自动地确定聚簇数k.设计了O-EEMA作为EEMA的优化实现,其时间复杂度为O(cn2/2).在合成和真实数据集上的实验结果表明,EEMA和O-EEMA是有效的、可行的.  相似文献   

9.
为提高数据流聚类的精度和时效性,提出一种具有时态特征与近邻传播思想的高效数据流聚类算法(TCAPStream).该算法利用改进的WAP将新检测到的类模式合并到聚类模型中,同时利用微簇时态密度表征数据流的时态演化特征,并提出在线动态删除机制对微簇进行维护,使算法模型既能体现数据流的时态特征,又能反映数据流的分布特性,得到更精确的聚类结果.实验结果表明,该算法在多个人工数据集和真实数据集上不仅具有良好的聚类效果,而且具有较好的伸缩性和可扩展性.  相似文献   

10.
基于近邻传播与密度相融合的进化数据流聚类算法   总被引:3,自引:0,他引:3  
邢长征  刘剑 《计算机应用》2015,35(7):1927-1932
针对目前数据流离群点不能很好地被处理、数据流聚类效率较低以及对数据流的动态变化不能实时检测等问题,提出一种基于近邻传播与密度相融合的进化数据流聚类算法(I-APDenStream)。此算法使用传统的两阶段处理模型,即在线与离线聚类两部分。不仅引进了能够体现数据流动态变化的微簇衰减密度以及在线动态维护微簇的删减机制,而且在对模型采用扩展的加权近邻传播(WAP)聚类进行模型重建时,还引进了异常点检测删除机制。通过在两种类型数据集上的实验结果表明,所提算法的聚类准确率基本能保持在95%以上,其纯度对比实验等其他相关测试都有较好结果,能够高实效、高质量、高效率地处理数据流数据聚类。  相似文献   

11.
Continually advancing technology has made it feasible to capture data online for onward transmission as a steady flow of newly generated data points, termed as data stream. Continuity and unboundedness of data streams make storage of data and multiple scans of data an impractical proposition for the purpose of knowledge discovery. Need to learn structures from data in streaming environment has been a driving force for making clustering a popular technique for knowledge discovery from data streams. Continuous nature of streaming data makes it infeasible to look for point membership among the clusters discovered so far, necessitating employment of a synopsis structure to consolidate incoming data points. This synopsis is exploited for building clustering scheme to meet subsequent user demands. The proposed Exclusive and Complete Clustering (ExCC) algorithm captures non-overlapping clusters in data streams with mixed attributes, such that each point either belongs to some cluster or is an outlier/noise. The algorithm is robust, adaptive to changes in data distribution and detects succinct outliers on-the-fly. It deploys a fixed granularity grid structure as synopsis and performs clustering by coalescing dense regions in grid. Speed-based pruning is applied to synopsis prior to clustering to ensure currency of discovered clusters. Extensive experimentation demonstrates that the algorithm is robust, identifies succinct outliers on-the-fly and is adaptive to change in the data distribution. ExCC algorithm is further evaluated for performance and compared with other contemporary algorithms.  相似文献   

12.
基于相关分析的多数据流聚类   总被引:2,自引:0,他引:2  
屠莉  陈崚  邹凌君 《软件学报》2009,20(7):1756-1767
提出基于相关分析的多数据流聚类算法.该算法将多数据流的原始数据快速压缩成一个统计概要.根据这些统计概要,可以增量式地计算相关系数来衡量数据间的相似度.提出了一种改进的k-平均算法来生成聚类结果.改进的k-平均算法可以动态、实时地调整聚类数目,并及时检测数据流的发展变化.还将算法应用到按照用户要求的聚类问题(COD),使得用户可以在任意的时间区间上查询聚类结果.提出了一种合理的时间片断划分机制,使得用户指定的任意时间区间都可以由这些时间片断组合而成.在模拟和真实数据上的实验结果都表明,该算法比其他方法具有更好的聚类质量、速度和稳定性,能够实时地反映数据流的变化.  相似文献   

13.
针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。  相似文献   

14.
党耀国  朱晓月  丁松  王俊杰 《控制与决策》2017,32(12):2227-2232
针对面板数据的三维特征、正负相关性以及灰色关联模型缺乏有效检验等问题,构建面板数据灰色关联模型,拓展了面板数据聚类方法;引入灰熵,提出灰色关联聚类的检验模型.研究发现,灰色关联度模型能够反映面板数据的正、负相关关系,且具有对称性、唯一性和可比性.通过在苏南4市空气质量区域划分中的应用,表明基于面板数据灰关联模型的聚类方法具有良好的效果,各类别的灰色关联度差异明显,层次清晰.  相似文献   

15.
数据流具有数据量无限且流速快等特点,使得传统的聚类算法不能直接应用于数据流聚类问题.针对上述问题,提出了一种可以聚类单数据流和多数据流的聚类算法.此算法现阶段应用了两种概化技术,基于小波的技术和基于回归的技术来构造摘要层次结构.基于回归的拟合模型可以得到较精确的摘要层次结构,而基于小波的拟合模型可以快速地建立摘要层次结构并且所需的存储空间比较小.  相似文献   

16.
刘建伟  李卫民 《计算机科学》2009,36(11):148-151
传统的数据库管理系统和数据查询算法不能很好地支持对流数据的查询已经被广泛认识,因而需要研究新的流数据模式查询算法.提出了一种基于摘要技术的在线快速混合模型流数据聚类算法,该算法为分阶段混合模型聚类过程.算法首先时最初到达的流数据用多维网格结构进行划分,对划分形成的每一个单元进行数据摘要,提取足够的统计信息.对该摘要运行基于模型的贪心聚类算法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类混合模型;在聚类模型的维持过程中,当不断有流数据到达时,对到达的数据块用多维网格结构进行划分,对划分形成的每一个单元提取足够的摘要信息.对该摘要运行基于模型的贪心聚类算法形成聚类混合模型.在判断是否可以把新到达的模型合并到现有的混合模型中去时,提出了三种合并标准.实验表明,该算法减少了分类误差,其速度也比传统的基于模型的贪心聚类算法大大加快.  相似文献   

17.
基于突发特征分析的事件检测*   总被引:1,自引:1,他引:1  
针对新闻数据流的事件检测问题,提出了一种基于突发特征分析的事件检测方法。事件由在一定时间窗口内代表它的特征构成,通常它们在事件发生时表现出一定的突发。通过多尺度突发分析算法识别出突发特征,并计算突发特征突发模式的相似性及所在新闻的重合度,对突发特征进行聚类分析以构造事件。在路透社80多万篇新闻数据集中验证上述算法,可准确地识别出突发特征各种跨度上的突发,且能有效地检测出事件。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号