共查询到18条相似文献,搜索用时 78 毫秒
1.
2.
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询次数,降低I/O开销而提出的改进算法有FDBSCAN、LSNCCP等。随着应用的发展,增量聚类显得越来越重要,而现有的增量聚类算法存在很大的局限性。基于LSNCCP,提出了一种有效的增量聚类算法,同时它也可以用于对LSNCCP进行性能优化。 相似文献
3.
4.
一种基于网格和密度的数据流聚类算法 总被引:1,自引:0,他引:1
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类. 相似文献
5.
针对BFSN算法需要人工输入参数r和λ的缺陷,提出了一种自适应确定r和λ的SA-BFSN聚类方法。该方法通过Inverse Gaussian拟合判断r参数,通过分析噪声点数量的分布特征选择合适的λ值。算法测试表明,使用SA-BFSN无需人工输入参数,能够实现聚类过程的全自动化,能够有效处理任意形状、大小和密度的簇。 相似文献
6.
一种基于密度的空间数据流在线聚类算法 总被引:2,自引:0,他引:2
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms. 相似文献
7.
8.
一种特征加权的聚类算法框架 总被引:3,自引:0,他引:3
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性. 相似文献
9.
针对基于密度的空间聚类及其变种提出了拓扑的概念。给出了聚类拓扑结构的定义,把簇定义为多种拓扑连通集合。此外,运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法。实例证明此算法有效。 相似文献
10.
传统的密度聚类算法不能识别并聚类多个不同密度的簇。对此提出了变密度聚类算法VDBSCAN,针对密度不稳定的数据集,可有效识别并同时聚类不同密度的簇,避免合并和遗漏。VDBSCAN算法的基本思想是:根据k-dist图和DK分析,对数据集中的不同密度层次自动选择一组Eps值,分别调用DBSCAN算法。不同的Eps值,能够找到不同密度的簇。4个二维数据集实验验证了VDB-SCAN算法的有效性,表明VDBSCAN算法可以有效地聚类密度不均匀的数据集,且参数Eps的自动选择方法也是有效的和健壮的。 相似文献
11.
现实世界中社交网络中的节点和边随时间动态增加或消失,导致网络中的社区结构也随之发生变化,因此,文中提出基于密度聚类的增量动态社区发现算法.首先,基于改进后的DBSCAN生成初始时刻社区.然后,提出边变化率指标,并结合余弦相似度指标确定相邻时刻邻居发生变化的节点及其邻居节点的社区归属调整.在进行社区归属度计算时,不仅考虑节点直接邻居的影响,还考虑间接邻居的影响.最后,通过迭代更新模块度增益进行社区合并,以减少噪声社区的干扰.在人工数据集和真实数据集上的实验表明,文中算法可以有效应对网络结构突变和增量计算累积误差带来的影响,具有较低的时间复杂度. 相似文献
12.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。 相似文献
13.
增量式K-Medoids聚类算法 总被引:3,自引:0,他引:3
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新。由于数据量大,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效,因此亟待研究增量式聚类算法。该文通过对K-Medoids聚类算法的改进,提出一种增量式K-Medoids聚类算法。它能够很好地解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。 相似文献
14.
提出一种基于核方法的下视等分辨率景象匹配算法. 通过模拟电荷吸引模型, 提出了计算不等维高维数据相似度的SNN核函数. 将图像中的特征点映射到径向基向量(Radial basis vector, RBV)空间, 利用SNN核函数计算两个特征点集的相似度及过渡矩阵. 利用置换测试模块来增强SNN核的稳定性, 以确保输出解的可靠性. 实验证明, 基于SNN核的景象匹配算法对图象畸变、噪声干扰与信号缺失具有很强的鲁棒性, 并可保证高精度与高实时性. 相似文献
15.
在近邻算法中,近邻样本和目标样本之间的绝对距离和相似性为目标样本类别的判断提供重要的决策依据,K值的大小也会直接决定了近邻算法的预测效果.然而,SNN算法在预测过程中,使用固定的经验K值来预测不同局部密度的目标样本,具有一定的片面性.因此,为实现SNN算法中K值的合理调节,提高算法的预测准确度和稳定性,提出一种基于局部... 相似文献
16.
聚类作为一种有效的图像分割方法,被广泛地应用于计算机视觉领域。相较于其他聚类方法,密度峰值聚类(DPC)具有参数少且能有效识别非球形聚类的特点。基于此,引入信息论中的不确定性度量熵,提出一种改进的DPC图像分割算法。将图像像素点的颜色空间CIE Lab值作为特征数据,通过计算信息熵求得自适应截断距离以取代经验取值,建立相应的决策图并确定聚类中心总数,归类非聚类中心点,剔除噪声点从而完成图像分割。在Berkeley数据集上的实验结果表明,该算法能较好地实现彩色图像的分割,其平均分割时间和PRI指标分别为14.658 s和0.721。 相似文献
17.
18.
一种基于增量式谱聚类的动态社区自适应发现算法 总被引:6,自引:0,他引:6
针对当前复杂网络动态社区发现的热点问题, 提出一种面向静态网络社区发现的链接相关线性谱聚类算法, 并在此基础上提出一种基于增量式谱聚类的动态社区自适应发现算法. 动态社区发现算法引入归一化图形拉普拉斯矩阵呈现复杂网络节点之间的关 系,采用拉普拉斯本征映射将节点投影到k维欧式空间.为解决离群节点影响谱聚类的效果和启发式确定复杂网络社区数量的问题, 利用提出的链接相关线性谱聚类算法发现初始时间片的社区结构, 使发现社区的过程能够以较低的时间开销自适应地挖掘复杂网络社区结构. 此后, 对于后续相邻的时间片, 提出的增量式谱聚类算法以前一时间片聚类获得的社区特征为基础, 通过调整链接相关线性谱聚类算法实现对后一时间片的增量聚类, 以达到自适应地发现复杂网络动态社区的目的. 在多个数据集的实验表明, 提出的链接相关线性谱聚类算法能够有效地检测出复杂网络中的社区结构以及基于 增量式谱聚类的动态社区自适应发现算法能够有效地挖掘网络中动态社区的演化过程. 相似文献