共查询到20条相似文献,搜索用时 187 毫秒
1.
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类.与其他聚类算法相比,其聚类的速度得到了很大的提高. 相似文献
2.
3.
在传统的K-means聚类算法基础上提出了一种基于均方差属性加权的MWS-K-means算法.引入特征权重以提高聚类结果的类内相似度(intra-similarities),从而提高聚类精度.考虑到K-means算法采用误差平方和作为聚类准则函数, 而误差平方和与概率论中数字特征的基本描述方法--均方差具有较高相似性,算法中特征权重的计算采用均方差法.根据属性的离散程度对欧氏距离进行加权处理,从而用相对距离代替绝对距离来计算类间相似度.实验结果表明:MWS-K-means算法在聚类精度方面优于标准的K-means算法. 相似文献
4.
5.
通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类.实验表明:该方法能够对XML文档进行结构聚类,且其聚类结果充分展现了该方法的有效性. 相似文献
6.
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。 相似文献
7.
一种基于距离调节的聚类算法 总被引:2,自引:1,他引:1
针对k-means算法不适合凹形样本空间的问题,提出了一种基于距离调节的聚类算法.算法中引入了一种调节最短路径距离作为算法的相似度函数,该函数可以使经过高密度数据区域的两点距离缩短,而经过低密度数据区域的两点距离加长,由此来缩小类间样本的相似度,同时加大类间的相似度,以及更好的聚类.实验结果证明,该算法对凹状的聚类样本空间具有很好的聚类效果. 相似文献
8.
模糊C均值(FCM)聚类算法及其相关改进算法基于最大模糊隶属度原则确定聚类结果,没有充分利用迭代后的模糊隶属度矩阵和簇类中心的样本属性特征信息,影响聚类准确度。针对这个问题,该文提出一种新的改进思路:改进FCM算法输出定类原则。给出二元属性拓扑子空间中属性相似度的定义,最终提出一种基于属性空间相似性的改进FCM算法(FCM-SAS):首先,选择FCM算法聚类后模糊隶属度低于聚类置信度的样本作为存疑样本;然后,计算存疑样本与聚类后聚类中心的属性相似度;最后,基于最大属性相似度原则更新存疑样本的簇类标签。通过UCI数据集实验,证明算法不仅有效,还较一些基于最大模糊隶属度原则定类的改进算法具有更优的聚类评价指标。 相似文献
9.
10.
11.
12.
提出了一种基于子空间分解的高效谱聚类算法。首先,基于共识信息和特定域信息的矩阵分解将链接文档划分为3个子空间,然后对子空间添加正则化项建模共识信息和特定域信息对聚类的不同影响,并采用交替优化方法实现谱聚类。考虑到谱聚类的复杂性,提出了一种带曲线搜索的梯度下降法加速求解过程。3个真实数据集上的实验结果表明,所提算法在聚类质量和效率方面始终明显优于目前典型的基线算法,且对输入参数不敏感。 相似文献
13.
Ruizhang HUANG Ruina BAI Yanping CHEN Yongbin QIN Xinyu CHENG Youliang TIAN 《通信学报》2005,41(8):155-164
In response to the problems traditional multi-view document clustering methods separate the multi-view document representation from the clustering process and ignore the complementary characteristics of multi-view document clustering,an iterative algorithm for complementary multi-view document clustering——CMDC was proposed,in which the multi-view document clustering process and the multi-view feature adjustment were conducted in a mutually unified manner.In CMDC algorithm,complementary text documents were selected from the clustering results to aid adjusting the contribution of view features via learning a local measurement metric of each document view.The complementary text document of the results among the dimensionality clusters was selected by CMDC,and used to promote the feature tuning of the clusters.The partition consistency of the multi-dimensional document clustering was solved by the measure consistency of the dimensions.Experimental results show that CMDC effectively improves multi-dimensional clustering performance. 相似文献
14.
高光谱图像聚类问题一直是图像处理领域的研究热点。谱聚类算法是最流行的聚类算法之一,但其计算复杂度较大,难以处理大规模的高光谱图像数据。由于二叉树能够较快地选取锚点,因此基于二叉树锚点图,充分利用高光谱图像的光谱和空间特性,可保证聚类性能并降低计算复杂度。然而,该聚类算法一般采用有核的聚类方法,因此不可避免地引入了参数调节。在二叉树锚点选取的基础上,提出了一种基于二叉树锚点的高光谱快速聚类算法,该算法创新性地将二叉树锚点选取和无核聚类方法应用于高光谱图像中。首先,利用二叉树从高光谱数据中选取一些具有代表性的锚点;紧接着构造基于锚点的无核相似图,有效避免了通过人为调节热核参数来构造相似图;然后进行谱聚类分析获得聚类结果;最后,将该算法应用到高光谱图像聚类中。该算法不仅提高了聚类速度,还减少了原有热核参数调节。实验结果表明,与传统的聚类算法相比,所提算法能够在较短的时间内获得更佳的聚类精度。 相似文献
15.
WU Tiefeng 《现代电子技术》2008,31(4):100-102
This paper presents a new Section Set Adaptive FCM algorithm. The algorithm solved the shortcomings of localoptimality, unsure classification and clustering numbers ascertained previously. And it improved on the architecture of FCM al-gorithm, enhanced the analysis for effective clustering. During the clustering processing, it may adjust clustering numbers dy-namically. Finally, it used the method of section set decreasing the time of classification. By experiments, the algorithm can im-prove dependability of clustering and correctness of classification. 相似文献
16.
基于分水岭-谱聚类的SAR图像分割 总被引:7,自引:2,他引:5
由于谱聚类是基于图论的、以相似性为基础的聚类方法,需要计算图像中每对像素点之间的相似性.当图像很大时,计算相似性矩阵和求解相应的特征值、特征向量是很困难和耗时的.为此,针对合成孔径雷达(SAR)图像的特点,提出了一个两阶段的图像分割方法,首先采用分水岭算法对图像进行过分割,然后再用改进的谱聚类算法进行聚类.新方法不仅可以减少噪声对分割结果的影响,很好地保持图像边缘,而且对时间要求较高的应用也具有一定的参考价值.为了验证新方法的有效性,将其用于SAR图像分割,取得了较优的分割结果. 相似文献
17.
针对传统模糊C-均值聚类算法对复杂的医学、遥感图像难以获得满意分割效果问题,将图像模糊C-均值聚类引入图像分割问题研究中,提出了基于直方图的图像模糊聚类快速分割算法。将越南学者Le提出的分布式图像模糊聚类算法目标函数进行简化,得到图像模糊聚类算法目标函数;采用拉格朗日乘子法获取其迭代求解所对应的隶属度、中立度、拒分度和聚类中心表达式,设计图像模糊聚类算法并对其收敛性进行了证明。通过复杂医学和遥感图像的分割测试结果表明,新的分割算法相比现有的模糊C-均值聚类分割算法和直觉模糊C-均值聚类分割算法具有更好的分割性能。 相似文献
18.
Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类, 但却不适用于子空间聚类。基于属性关系矩阵的AP子空间聚类算法(AP clustering algorithm based on attributes relation matrix, ARMAP)是一种异步软子空间聚类算法,首先通过计算属性a的 邻域得到属性的关系矩阵,然后通过查找极大全1子矩阵得到数据集的兴趣度子空间,最后在各兴趣度子空间使用AP算法聚类,完成子空间聚类的任务。ARMAP算法将子空间的查找转换成查找矩阵的极大全1子矩阵,在正确查找子空间的同时,降低了时间复杂度。算法既保留了AP聚类算法的优点,又克服了AP算法不能进行子空间聚类的不足。 相似文献
19.