首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式.流挖掘是数据库领域的研究热点,有很大的应用前景.本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结.在本文的最后,对流数据挖掘的前景做出展望.  相似文献   

2.
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式。流挖掘是数据库领域的研究热点,有很大的应用前景。本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结。在本文的最后,对流数据挖掘的前景做出展望。  相似文献   

3.
基于数据流的BIRCH改进聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
数据流管理作为一种新兴课题正在逐渐受到国内外广大研究学者的重视,数据流聚类是其中的一个重要研究领域。论文基于BIRCH聚类算法,提出了一种M-BIRCH聚类算法,克服了BIRCH算法对非球形的聚类效果不佳等缺点。实验结果证明,M-BIRCH聚类算法在聚类质量上比BIRCH有较大提高。  相似文献   

4.
数据流的网格密度聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的实时数据流聚类算法RTCS.算法采用在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,对多维数据和空间单元格动态计算密度.在后台离线层形成初始聚类,并不断地更新单元格的密度来自适应地调整聚类.RTCS算法能够根据密度的动态变化区分出真正的孤立点并剔除之,而这种剔除对后面的聚类结果没有影响.实验结果证明,算法可以很好地挖掘出各种形状的聚类,与CluStream算法相比,取得聚类的质量更高,有更快的处理速度,对数据维数和规模有更好的可扩展性.  相似文献   

5.
滑动窗口内进化数据流任意形状聚类算法   总被引:1,自引:0,他引:1  
任意形状聚类是数据流挖掘中的重要研究课题.提出一种滑动窗口内进化数据流任意形状聚类算法SWASCStream.提出了改良的微簇特征结构,能够全面地描述滑动窗口内任意形状的簇;提出新的稀疏微簇、临界微簇和非疏微簇的概念,有助于从本质上提高滑动窗口内的聚类质量;提出了合理的微簇周期删除策略,能够有效降低算法的维护代价,并且保证误差可控.通过一系列真实和人工数据集上的试验,验证了本文算法的高效性.  相似文献   

6.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

7.
进化数据流中基于密度的聚类算法   总被引:1,自引:1,他引:0  
分析当前数据流聚类算法的优点及不足,提出一种新的进化数据流中基于密度的聚类算法——Sdstream算法,该算法能够分析并处理大规模进化数据流,利用真实数据集和仿真数据集对其进行性能测试,实验结果表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较高的聚类效果。  相似文献   

8.
张华  杨磊 《计算机仿真》2022,39(4):316-320
数据流为连续快速到达的数据序列,数据量大且时变性较强,对其聚类时不能准确获得聚类细节,无法高效处理演化数据流.因此,提出基于密度梯度的滑动窗口数据流任意形状聚类方法.结合数据流特征,确定数据处理时需要满足实时性、准确性等要求;根据不确定指数与不确定度分析聚类时必须处理的问题,定义核心密度单元与候选密度单元;通过点邻域、...  相似文献   

9.
基于密度的优化数据流聚类算法   总被引:1,自引:1,他引:1  
为了解决数据流聚类算法中有效处理离群点这一关键问题,改进了基于密度的数据流聚类算法,在DenStream算法基础上提出了具有双检测时间策略DDTS(double derection time strategy)的基于密度的数据流聚类算法.该策略在数据流流速波动的情况下,结合时间与流数据数量两方面因素对微簇进行测试.通过在线动态维护和删减微簇,保存可能升级的离群点来改善聚类效果.实验结果表明,改进算法具有良好的适用性和有效性,能够取得较高的聚类质量.  相似文献   

10.
针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。  相似文献   

11.
一种混合属性数据流聚类算法   总被引:5,自引:0,他引:5  
杨春宇  周杰 《计算机学报》2007,30(8):1364-1371
数据流聚类是数据流挖掘中的重要问题.现实世界中的数据流往往同时具有连续属性和标称属性,但现有算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法.目前还没有能在算法层次上进行混合属性数据流聚类的算法.文中提出了一种针对混合属性数据流的聚类算法;建立了数据流到达的泊松过程模型;用频度直方图对离散属性进行了描述;给出了混合属性条件下微聚类生成、更新、合并和删除算法.在公共数据集上的实验表明,文中提出的算法具有鲁棒的性能.  相似文献   

12.
基于形态特征的数据流聚类方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
吴学雁  黄道平 《计算机工程》2011,37(13):46-48,51
在聚类过程中为保留数据的重要形态与趋势特征,提出一种基于形态特征的数据流聚类方法。在初始化阶段提取重要特征点表示序列分段,在在线更新阶段使用部分动态时间弯曲方法计算子序列距离,基于动态滑动窗口思想保证多条数据流中数据的同步,在用户触发聚类阶段提出数据流聚类方法。通过对仿真数据和实际股票数据的分析结果表明,在参数设置合理的情况下,该方法可以获得接近0.95的聚类演化精度。  相似文献   

13.
一种基于密度的空间数据流在线聚类算法   总被引:2,自引:0,他引:2  
于彦伟  王沁  邝俊  何杰 《自动化学报》2012,38(6):1051-1059
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms.  相似文献   

14.
基于概率数据流的有效聚类算法   总被引:6,自引:0,他引:6  
戴东波  赵杠  孙圣力 《软件学报》2009,20(5):1313-1328
提出一种在概率数据流上进行聚类的有效方法P-Stream.P-Stream针对数据流上的概率元组提出强簇、过渡簇和弱簇的概念,设计一种有效的在线候选簇选择策略,为每个不断到达的数据元组合理地找到可能归属的簇,并在每个检查点存储微簇快照,以便离线进一步高层聚类和演化分析.最后设计一个“积极”的二层聚类模型来判断现有的第1层聚类模型是否还适应数据流中最近到达的概率元组.实验采用KDD-CUP’98和KDD-CUP’99真实数据集以及变换高斯分布的人工数据集构造概率数据流.实验结果表明,P-Stream具有良好的聚类质量、较快的处理速度,能够有效地适应数据演化情况.  相似文献   

15.
基于滑动窗口的支持泛在应用的流聚类挖掘算法   总被引:2,自引:0,他引:2  
近年来,泛在数据流挖掘逐渐成为数据挖掘发展的新热点,它具有在有限的资源上去挖掘无限的数据流,并可随时随地返回挖掘结果的特点,对此,本文提出一种基于滑动窗口的流聚类算法;该方法将一个滑动窗口分成n个大小相等的窗口单元,基于窗口单元进行增量式的知识相关性的挖掘,提高了流挖掘的效率;当窗口滑动时,通过衰变函数衰减当前滑动窗口内的第一个窗口单元的挖掘结果,并在当前滑动窗口挖掘结果中将其剔除,实现下一滑动窗口的增量式挖掘.  相似文献   

16.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。  相似文献   

17.
数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种新的数据流子空间聚类算法SC-RP,SC-RP无需预先给出聚类数目或特征子空间,对孤立点不敏感,可实现快速聚类,通过区域树结构记录数据流的变化并及时更新统计信息,进而根据数据流的变化调整聚类结果.通过在真实数据集与仿真数据集上的实验,证明了SC-RP在聚类精度和速度上优于现有的数据流子空间聚类算法,且对聚类数目及数据维度均具有良好的伸缩性.  相似文献   

18.
数据流具有数据量无限且流速快的特点.针对上述问题,本文讨论了基于频繁模式的数据流聚类算法.本算法应用改造后的FP-Tree,更新树时增加一个数组减少了遍历树的时间,使算法的效率得到了很大的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号