期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杜奕卢德唐黄丰王磊《小型微型计算机系统》2006,27(9):1605-1607

现实数据往往分布在高维空间中，从整个向量空间来看，这些数据间的联系非常分散，因此如何降低维数实现高维数据的聚类受到众多研究者的普遍关注．介绍了一种适用于符号型高维数据的随机投影聚类算法．其根据频率选择与聚类相关的维向量，随机产生并根据投影聚类效果择优选择聚类中心及相关维向量，将投影聚类算法扩展至符号数据空间．实验结果证实了这种算法的实用性与有效性．相似文献

2.

高维数据流的自适应子空间聚类算法 总被引：1，自引：0，他引：1

下载免费PDF全文

任家东周玮玮何海涛《计算机科学与探索》2010,4(9):859-864

高维数据流聚类是数据挖掘领域中的研究热点。由于数据流具有数据量大、快速变化、高维性等特点,许多聚类算法不能取得较好的聚类质量。提出了高维数据流的自适应子空间聚类算法SAStream。该算法改进了HPStream中的微簇结构并定义了候选簇,只在相应的子空间内计算新来数据点到候选簇质心的距离,减少了聚类时被检查微簇的数目,将形成的微簇存储在金字塔时间框架中,使用时间衰减函数删除过期的微簇;当数据流量大时,根据监测的系统资源使用情况自动调整界限半径和簇选择因子,从而调节聚类的粒度。实验结果表明,该算法具有良好的聚类质量和快速的数据处理能力。相似文献

3.

一种基于网格方法的高维数据流子空间聚类算法 总被引：4，自引：0，他引：4

孙玉芬卢炎生《计算机科学》2007,34(4):199-203

基于对网格聚类方法的分析,结合由底向上的网格方法和自顶向下的网格方法,设计了一个能在线处理高维数据流的子空间聚类算法。通过利用由底向上网格方法对数据的压缩能力和自顶向下网格方法处理高维数据的能力,算法能基于对数据流的一次扫描,快速识别数据中位于不同子空间内的簇。理论分析以及在多个数据集上的实验表明算法具有较高的计算精度与计算效率。相似文献

4.

基于随机投影的并行数据流聚类方法

陈华辉施伯乐《模式识别与人工智能》2009,22(1)

利用数据流的遗忘特性,应用随机投影,分层、动态地维护每个数据流的概要结构.基于该概要结构,快速计算数据流和聚类中心之间的近似距离,实现一种适合并行多数据流的K-means聚类方法.所进行的实验验证该方法的有效性. 相似文献

5.

高维Turnstile型数据流聚类算法 总被引：4，自引：1，他引：3

周晓云张净孙志挥《计算机科学》2006,33(11):14-17

现有数据流聚类算法只能处理Time Series和Cash Register型数据流,并且应用于高维数据流时其精度不甚理想。提出针对高维Turnstile型数据流的子空间聚类算法HT-Stream,算法对数据空间进行网格划分,在线动态维护网格单元信息,采用倾斜时间窗口存储统计信息,根据用户指定时间跨度离线输出聚类结果。基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性。相似文献

6.

基于子空间差异的投影聚类算法

吴涛陈黎飞钟韵宁孔祥增《计算机应用研究》2023,40(11):3303-3308+3314

针对传统K-means型软子空间聚类技术中子空间差异度量定义的困难问题,提出一种基于概率距离的子空间差异表示模型,以此为基础提出一种自适应的投影聚类算法。该方法首先基于子空间聚类理论提出一个描述各簇类所关联的软子空间之间的相异度公式;其次,将其与软子空间聚类相结合,定义了聚类目标优化函数,并根据局部搜索策略给出了聚类算法过程。在合成和实际数据集上进行了一系列实验,结果表明该算法引入子空间比较可以为簇类学习更优的软子空间;与现有主流子空间聚类算法相比,所提算法大幅度提升了聚类精度,适用于高维数据聚类分析。相似文献

7.

高维数据流映射聚类算法的研究概述

陈启崧《福建电脑》2007,(4):27-28

随着流数据收集大量应用,数据流挖掘是数据挖掘的一个新的研究方向。本文在介绍数据流的基本特点以及分析了数据流对聚类的要求,并对现有高维数据流映射聚类算法的主要思想方法进行了总结。最后对面向高维数据流聚类的发展方向进行了展望。相似文献

8.

基于映射的高维数据聚类方法

周煜人彭辉桂卫华《计算技术与自动化》2005,24(2):78-80

通常,经典的数据聚类算法在低维情况下是有效的,但随着维数的增加,性能和效率都明显的下降,原因在于数据的复杂度是呈指数增长。本文提出了一个处理高维数据聚类的框架,并分析了该框架的性能。相似文献

9.

DEN-Stream:一种分布式数据流聚类方法

《计算机应用与软件》2016,(7)

现有的数据流聚类方法很难兼顾数据稀疏和子空间聚类等高维数据难题,而分布式数据流对数据流聚类提出包括在线计算效率、通信开销以及多路数据的融合等更多挑战。提出分布式数据流聚类方法,采用全局统一的网格划分和衰退时间以支持多路数据流融合,并周期性检查和删除过期网格来控制概要规模。通过对多路高维数据流的一遍扫描,发现高维数据流子空间任意形状的聚类,并反映数据分布随时间的演化。在线组件效率高开销低,概要信息简洁,通信代价低。实验表明,该方法能够对分布式数据流正确聚类并演进,在线组件效率高,概要规模小。相似文献

10.

基于Squeezer 算法的文本数据流聚类

尤薇佳刘鲁刘丹李明《控制与决策》2012,27(4):542-546

为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通过投影聚类提高聚类效率并为簇赋予语义.最后通过在互联网新闻语料的聚类实验,表明了所提出的算法能够以较小的速度代价换来聚类效果的大幅提升,性能显著优于Squeezer算法. 相似文献

11.

一种适用于高维数据流的子空间聚类方法 总被引：2，自引：0，他引：2

颜晓龙沈鸿《计算机应用》2007,27(7):1680-1684

受频繁模式挖掘中FP树算法的启发，结合静态高维数据聚类中CLIQUE算法所体现的思想，设计一种树形数据结构DenseGrid树（简称DG树），以记录用于聚类的数据流摘要信息，并通过搜索树中路径从高维数据流中发现存在聚类的低维子空间，从而将高维空间聚类问题转化成构造DG树并利用这种树形数据结构搜索高密网格单元的过程。实验表明，这种聚类方法具有良好的聚类效果和伸缩性。相似文献

12.

基于聚类的快速数据流匿名方法

郭昆张岐山《软件学报》2013,24(8):1852-1867

为了防止敏感信息的泄漏,保护用户隐私,常采用概化和抑制等技术在共享数据前对其准标识符进行匿名化。与静态数据集不同,数据流具有潜在无限、高度动态等特性,使得数据流匿名需要解决更加复杂的问题,不能直接应用静态数据集的匿名方法。在分析现有数据流匿名方法的基础上,提出一种采用聚类思想进行数据流匿名的方法,通过单遍扫描数据识别和重用满足匿名条件的簇,以实现数据流的快速匿名。真实数据集上的实验结果表明,该方法在满足匿名要求的同时能够降低概化和抑制处理带来的信息损失,并且具有较低的时间和空间复杂度。相似文献

13.

基于单元区域的高维数据聚类算法

下载免费PDF全文

谢坤武胡俊鹏《计算机工程》2008,34(10):101-102

提出一种高维数据集合聚类算法(CAHD)。采用双向搜索策略在指定的n维空间或其子空间上发现数据点密集的单元区域,采用逐位相与的方法为这些密集单元区域聚类。双向搜索策略能够有效地减少搜索空间,提高算法效率,聚类密集单元区域只用到逐位与和位移2种机器指令。实验结果表明,在发现的类数量相同的情况下,CAHD算法的运行时间比其他算法减少30%。相似文献

14.

数据流聚类算法研究

王高洋李英梅《电脑学习》2014,4(5)

随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式.流挖掘是数据库领域的研究热点,有很大的应用前景.本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结.在本文的最后,对流数据挖掘的前景做出展望. 相似文献

15.

基于排序思想的高维稀疏数据聚类

下载免费PDF全文

祝琴高学东武森陈敏陈华《计算机工程》2010,36(22):13-14

针对CABOSFV聚类算法对数据输入顺序的敏感性问题,提出融合排序思想的高属性维稀疏数据聚类算法,通过计算首次聚类中两两高属性维稀疏数据非零属性取值情况确定所需要计算差异度的集合组合,减小了算法复杂度。应用结果表明,该方法能提高CABOSFV聚类的质量。相似文献

16.

数据流聚类算法研究

朱颖雯陈松灿《数据采集与处理》2022,37(4):894-908

许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。相似文献

17.

高维数据聚类方法综述* 总被引：10，自引：2，他引：10

贺玲蔡益朝杨征《计算机应用研究》2010,27(1):23-26

总结了高维数据聚类算法的研究现状,分析比较了算法性能的主要差异,并指出其今后的发展趋势,即在子空间聚类过程中融入其他传统聚类方法的思想,以提高聚类性能。相似文献

18.

自适应熵的投影聚类算法 总被引：1，自引：0，他引：1

吴涛陈黎飞《计算机科学与探索》2014,(8):933-944

受“维度效应”的影响,许多传统聚类方法运用于高维数据时往往聚类效果不佳。近年来投影聚类方法获得广泛关注,其中软子空间聚类法更是得到了广泛的研究和应用。然而,现有的投影子空间聚类算法大多数均要求用户预先设置一些重要参数,且未能考虑簇类投影子空间的优化问题,从而降低了算法的聚类性能。为此,定义了一种新的优化目标函数,在最小化簇内紧凑度的同时,优化每个簇所在的子空间。通过数学推导得到了新的特征权重计算方法,并提出了一种自适应的“均值型投影聚类算法。该算法在聚类过程中,依靠数据集自身的相关信息及推导获得的公式动态地计算各优化参数。实验结果表明,新算法通过对投影子空间的优化改善了聚类质量,其性能较已有投影聚类算法有了明显提升。相似文献

19.

高维数据流子空间聚类发现及维护算法 总被引：3，自引：2，他引：3

周晓云孙志挥张柏礼杨宜东《计算机研究与发展》2006,43(5):834-840

近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法--SHStream.算法将数据流分段（分段长度由Hoeffding界确定）,在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高雏数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 相似文献

20.

一种新的基于局部保持投影的高维数据聚类成员构造方法

周静波殷俊金忠《计算机科学》2011,38(9):177-181

研究在高维数据中如何产生聚类成员,并提出一种新的构造聚类成员的方法。为解决高维数据的维度对构造成员带来的影响,新的构造方法在构造聚类成员之前利用局部保持投影先对高维数据进行维度约减,然后在约减后的子空间中用随机投影结合K均值方法构造聚类成员。最后讨论了局部保持投影子空间维度的选取。实验表明,新方法得到的结果要明显优于已有的主分量分析结合下采样方法和简单的随机投影方法。相似文献