首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
流数据挖掘技术是数据挖掘领域的新研究方向之一,而聚类研究又是其重要的内容。本文介绍了流数据基本特点,在统一流聚类表示模型的基础上,对现有流数据聚类算法进行了总结,并进一步提出了流数据聚类技术的研究方向和前景。  相似文献   

2.
采用属性聚类的高维子空间聚类算法   总被引:3,自引:1,他引:3  
为了解决现有子空间聚类算法时间复杂度偏高以及对输入参数敏感的问题,提出了一种基于属性聚类方法的高效子空间聚类算法.算法首先通过计算每个属性的基尼值来过滤冗余属性,而后通过基于二维联合基尼值的关系函数建立非冗余属性的关系矩阵,以衡量任意两个非冗余属性的相关度, 进而在关系矩阵上应用可产生交叠的聚类算法,聚类结果即为所有兴趣度子空间的候选集合,最后调用聚类算法得到所有存在于这些子空间内的簇.在人工数据集和真实数据集上的实验表明,新算法不仅在时间复杂度和子空间簇的寻找能力方面均有较优表现,而且对输入参数的取值不甚敏感.  相似文献   

3.
针对线形分布的数据集提出了一种新的模糊遗传聚类算法(FGCA)。仿真结果表明该算法在已知类别数目的情况下对线形分布的数据集有良好的分类性能,且对聚类中心的初始值不敏感。  相似文献   

4.
针对海量实时数据流,提出了一种基于密度和网格划分相结合的聚类算法.首先对数据空间进行划分,判断每个单元格中数据点的属性.如果单元格内数据点密度高于阈值,则判定这些点为核心点;否则,根据单元格邻居内数据点的数量对数据点进行再次判断,以确定单元格内的数据点是边界点还是噪声点.算法克服了基于密度的算法运行效率低的缺点,又弥补了基于网格的算法精度较低的不足.通过实验验证了算法的效率和性能,并与经典的DBSCAN和CLIQUE算法进行了对比分析.最后分析了算法在面向海量实时数据流方面所具有的优势,并提出了进一步的研究方向.  相似文献   

5.
现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究.利用模糊可扩展聚类框架,与模糊加权软子空间聚类算法相结合,提出了一种有效的模糊加权流数据软子空间聚类算法(FWSSC).实验结果表明,FWSSC对于高维流数据可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

6.
根据因子分析法的思想,用统计学的方法,建立多属性数据样本间的相似矩阵,探索求因子载荷矩阵的有效方法,实现多属性数据的样本聚类。文中的方法是因子分析法在聚类分析中的进一步推广与应用。  相似文献   

7.
针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。  相似文献   

8.
大规模数据集的多层聚类算法   总被引:1,自引:0,他引:1  
针对大多谱聚类算法由于计算复杂度高而不适于大规模数据的问题,提出了一种能处理大规模数据集的多层算法。该算法把海量数据根据一定的相关性逐级分组成小数据集,再对分组后的小数据集用谱聚类算法进行聚类,最后利用权核K均值聚类逐级微调,完成全部数据的聚类。通过对UCI数据库中的数据集和图像分割的仿真实验,结果表明该算法的聚类效果很好。  相似文献   

9.
电信业务每天都产生大量数据,如何从这些数据中提取有用的信息是当今数据挖掘的难题之一。针对实际应用中存在聚类簇数难以确定、单趟聚类算法有时不能收敛到用户指定的簇数等问题,提出了可调多趟聚类挖掘方法。第1趟通过引入一个较大的K值,采用K-means聚类算法,获得K个簇,为第2趟聚类的簇数及簇中心初始值选择提供参考。经电信现网业务数据实验,本文的方法既改善了原聚类方法的局部收敛性,又能较好地适应用户的不同数据分析需求,该方法可用于不确定簇数的大数据分析中。  相似文献   

10.
基于模式识别理论,提出了一种通过对多传感器的测量数据聚类,以区分来自同一目标的测量数据集合,结合聚类数据集与目标预测值,应用卡尔曼滤波器估计目标的运动状态,从而实现了各雷达站目标观测航迹的数据融合.实验表明了本算法的有效性.  相似文献   

11.
在用户访问网站点击流形成频繁序列的基础上,提出基于距离函数的聚类分析算法.首先对数据流分区做K均值聚类生成中间聚类结果,然后对这些均值参考点进行离线聚类,以获取用户访问模式.理论分析和实验表明,算法具有较好的聚类效果.  相似文献   

12.
数据流管理系统是用来管理和查询不断到来的大量、持续、快速和多变的数据流。系统的基础就是对这些流动的数据进行抽取、转化、组合,这是查询执行的主要内容与任务。本文主要论述查询执行模块的设计与实现,查询执行由两大部分组成——查询运算和查询执行及调度。  相似文献   

13.
Java字符流最适合用来处理字符串和文本.以一个学生成绩管理系统开发过程中的输入、显示、排序等操作为例,说明Java字符流类在管理系统中的应用.Java字符流使系统的功能得到了完整的实现,同时,程序具有了很强的灵活性和可拓展性.  相似文献   

14.
针对现有的数据流聚类算法不能在线实时生成用户需要的聚类结果问题,提出一种基于滑动窗口的数据流在线聚类算法.该算法采用密度网格存储结构,实现了数据流的在线聚类过程,能实时地向用户提供聚类结果,动态地检测数据流的进化情况.实验结果表明,该方法具有快速在线聚类能力,并能保证良好的聚类质量.  相似文献   

15.
利用VFw库函数快速分解AVI数据流   总被引:12,自引:0,他引:12       下载免费PDF全文
本文在简要分析AVI数据结构的基础上,着重介绍了如何调用vfw库中的函数快速分解AVI数据流的方法,并给出了一些函数的调用实例。  相似文献   

16.
一种基于数据流驱动的数据流连续查询模型   总被引:2,自引:0,他引:2  
建立了基于数据流驱动的数据流连续查询模型,介绍了系统结构和解决方案,设计了一些通用的查询算子,并通过查询算子在查询链中的有序组合来构造出各种复杂的连续查询语句。实验表明,该模型可扩充性强,操作简单,适合小规模的数据流查询需要。  相似文献   

17.
数据挖掘中聚类算法的比较研究   总被引:6,自引:0,他引:6  
数据挖掘算法是数据挖掘的核心部分.对数据挖掘中的聚类算法进行了较详细的比较研究.  相似文献   

18.
由于数据仓库很难做到从建模初期就完全考虑到多维分析的所有维及其层次,需要一个易于实现模式演变的数据模型及建模工具来支持增量式数据仓库的建设,因而提出了一个可以支持模式演变的数据模型,并给出其形式定义及在关系数据库上的设计与实现.该模型将数据立方体与复杂维模式分开并将度量维度化,其简单灵活的多维数据立方体结构有效地避免了因度量或维路径层次增减造成的数据立方体重建,在实际应用中取得了良好的效果,满足了复杂多样、不断变化的OLAP (on-line analytical processing)需求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号