共查询到20条相似文献,搜索用时 78 毫秒
1.
多层自动确定类别的谱聚类算法 总被引:1,自引:0,他引:1
自动确定聚类数和海量数据的处理是谱聚类的关键问题。在自动确定聚类数谱聚类算法的基础上,提出了一种能处理大规模数据集的多层算法。该算法的核心思想是把大规模数据集根据一定的相关性逐级进行合并,使之成为小数据集,再对分组后的小数据集用自动确定类别的谱聚类算法聚类,最后逐层进行拆分并微调, 完成全部数据的聚类。实验证明该算法的聚类效果很好。 相似文献
2.
很多聚类算法要求用户在聚类之前给出聚类数目,这给用户带来了很大的困难。利用二分思想递归分裂簇内相似度大于给定阈值的簇,最后合并簇间相似度小于给定阈值的簇,来获得最终聚类数目。实验表明提出的算法确定的聚类数目和实际聚类数目相同,并且簇内数据的相似性高,簇间数据的相似性低,该算法简单高效。 相似文献
3.
尽管模糊聚类是一种无监督的分类,但目前的FCM类型的算法却要求聚类原形参数的先验知识(原型数目及类型),否则算法就会产生误导,这就限制了在图像分割中的应用。因此需要对聚类数目给出一个判断算法。通过对图像的灰度直方图中加入它的梯度信息,提出了灰度一梯度的二维直方图。该方法能有效地抑制噪声的干扰,更准确地得到聚类数目.使模糊聚类完全无监督化。 相似文献
4.
尽管模糊聚类是一种无监督的分类,但目前的FCM类型的算法却要求聚类原形参数的先验知识(原型数目及类型),否则算法就会产生误导,这就限制了在图像分割中的应用。因此需要对聚类数目给出一个判断算法。通过对图像的灰度直方图中加入它的梯度信息,提出了灰度-梯度的二维直方图。该方法能有效地抑制噪声的干扰,更准确地得到聚类数目,使模糊聚类完全无监督化。 相似文献
5.
Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。 相似文献
6.
针对当前自动文摘方法的不足,提出了基于文本聚类的自动文摘实现方法.可以克服常规自动文摘方法的不足,使文摘的质量和效果得到大大的提高.将文本聚类引入自动文摘中,不但使单文档的文摘质量得到提高,而且能够实现多文档的自动文摘,这是现有的自动文摘技术所没有涉及的.实现了面向"塑料"行业的基于文本聚类的自动文摘系统TCAAS.实验表明该方法可行, 对自动文摘系统的设计具有借鉴意义和深入研究的价值. 相似文献
7.
《计算机科学与探索》2016,(11):1614-1622
密度峰聚类是一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,能够发现非球形簇。针对密度峰聚类算法需要人工确定聚类中心的缺陷,提出了一种自动确定聚类中心的密度峰聚类算法。首先,计算每个数据点的局部密度和该点到具有更高密度数据点的最短距离;其次,根据排序图自动确定聚类中心;最后,将剩下的每个数据点分配到比其密度更高且距其最近的数据点所属的类别,并根据边界密度识别噪声点,得到聚类结果。将新算法与原密度峰算法进行对比,在人工数据集和UCI数据集上的实验表明,新算法不仅能够自动确定聚类中心,而且具有更高的准确率。 相似文献
8.
9.
10.
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档摘要。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档摘要。使用ROUGE自动摘要评测工具包对DUC2002数据集评测摘要质量,结果表明,该方法能有效地提高摘要的质量。 相似文献
11.
确定数据集的最佳聚类数是聚类研究中的一个重要难题。为了更有效地确定数据集的最佳聚类数,该文提出了通过改进K-means算法并结合一个不依赖于具体算法的有效性指标Q(c)对数据集的最佳聚类数进行确定的方法。理论分析和实验结果证明了该方法具有良好的性能和有效性。 相似文献
12.
13.
14.
15.
基于密度的聚类中心自动确定的混合属性数据聚类算法研究 总被引:2,自引:0,他引:2
面对广泛存在的混合属性数据,现有大部分混合属性聚类算法普遍存在聚类 质量低、聚类算法参数依赖性大、聚类类别个数和聚类中心无法准确自动确定等问题,针对 这些问题本文提出了一种基于密度的聚类中心自动确定的混合属性数据 聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数 值占优、分类占优和均衡型混合属性数据三类,分析不同情况的特征选取 相应的距离度量方式.在计算数据集各个点的密度和距离分布图基础 上,深入分析获得规律: 高密度且与比它更高密度的数据点有较大距离的数 据点最可能成为聚类中心,通过线性回归模型和残差分析确定奇异 点,理论论证这些奇异点即为聚类中心,从而实现了自动确定聚类中心.采 用粒子群算法(Particle swarm optimization, PSO)寻找最优dc值,通过参数dc能够计算得到 任意数据对象的密度和到比它密度更高的点的最小距离,根据聚类 中心自动确定方法确定每个簇中心,并将其他点按到最近邻的更高 密度对象的最小距离划分到相应的簇中,从而实现聚类.最终将本文 提出算法与其他现有的多种混合属性聚类算法在多个数据集上进行 算法性能比较,验证本文提出算法具有较高的聚类质量. 相似文献
16.
17.
中文Web文档聚类算法研究 总被引:1,自引:0,他引:1
在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类.STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方法来降低STC的时间复杂度并提高STC聚类准确率.通过对STC-I与STC、AHC、K-Means算法从聚类的准确性和时间复杂度上进行比较,结果表明,STC-I算法在聚类的准确性和时间复杂度方面都较STC、AHC和K-Means算法好. 相似文献
18.
基于动态聚类的文档碎纸片自动拼接算法 总被引:1,自引:0,他引:1
针对碎纸机三种碎纸模式进行拼接复原,提出了一种基于动态聚类的文档碎纸片自动拼接算法,定义了匹配度矩阵计算两块碎片最合理的拼接方式,设计了一种基于碎纸片特征向量的动态聚类行聚类算法进行行初步聚类,根据文字特征线及计算出的行距对初步聚类进行了调整修正,确定最终的行分类及行间顺序,根据提出的动态四邻近匹配算法,匹配出复原结果。实验表明,该方法实现简单,成功率高,能快速得到碎纸片的三种碎纸模式的拼接复原结果。 相似文献