首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
提出了一种基于最大频繁Induced子树的GML文档结构聚类新算法TBCClustering.通过挖掘GML文档集合中的最大频繁Induced子树构造特征空间,并对特征空间进行优化;采用CLOPE聚类算法聚类GML文档,可自动生成最小支持度与聚类簇的个数,无需用户设置;不仅减少了特征的维数,而且得到了较高的聚类精度.实验结果表明算法TBCClustering是有效的,且性能优于PBClustering算法.  相似文献   

2.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。  相似文献   

3.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷, 提出基于进化思想的聚类算法及其类簇融合算法, 该算法将K均值聚类算法嵌入进化聚类算法框架中, 通过调整距离倍参, 将数据逐渐划分, 在此过程中自动确定类簇数目, 提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法, 将相似度大的类簇进行融合, 使得k值逐渐趋向真实值. 实验表明, 该方法具有良好的实用性.  相似文献   

4.
针对目前大多数空间聚类算法主要是针对关系数据且没有考虑空间拓扑关系相似性的问题,对基于空间拓扑关系的空间聚类方法进行研究.提出了一种基于线面包含关系的GML(geography markup language)空间聚类算法SCGML-LRI(spatial clustering in GML data based on line region inclusion relations).算法将GML文档中线面空间对象的包含关系作为空间对象相似性度量准则,并用CLOPE算法对空间对象进行聚类.实验结果表明:算法SCGML-LRI能实现GML数据的空间聚类,并具有较高的效率.  相似文献   

5.
以往建立在模糊C均值(fuzzyC-means, FCM)框架下利用源域虚拟簇中心作为迁移知识的迁移聚类算法容易受到离群点和噪声的干扰,且单个簇中心不足以描述簇结构。针对此问题,提出多代表点自约束的模糊迁移聚类算法,该算法引入样本代表权重机制为簇中每个样本分配代表权重来刻画簇结构,这种机制能更好的刻画簇结构,对离群点和噪声有较好的抑制作用;同时利用源域样本,重构目标域簇结构,并以此作为迁移知识进行目标域样本聚类,相对于利用单中心作为迁移知识来说,整体重构后的目标域簇结构所包含的迁移知识量更为丰富。试验结果表明。在人工数据集和真实数据集上,所提出的聚类算法相比对比算法, NMI和ARI最高提升了0.674 5和0.608 4。说明在迁移环境下,以代表点自约束作为知识迁移规则,所提出的聚类算法具有一定的聚类效果。  相似文献   

6.
在各种聚类算法中,基于目标函数的K-均值聚类算法应用最为广泛,然而,K-均值算法对初始聚类中心特别敏感,聚类结果易收敛于局部最优。为此,提出基于加权处罚的K-均值优化算法。每次迭代过程中,根据簇的平均误差的大小为簇分配权值,构造加权准则函数,把样本分给加权距离最小的簇中。限制簇集中出现平均误差较大的簇,提高聚类准确率。实验结果表明,该算法与K-均值算法、优化初始聚类中心的K-均值算法相比,在含有噪音的数据集中,表现出更好的抗噪性能,聚类效果更好。  相似文献   

7.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

8.
基于特征加权理论的数据聚类算法   总被引:1,自引:0,他引:1  
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值.  相似文献   

9.
为了有效处理三维列联表数据,采用模糊联合聚类算法的思想,提出一种基于信息瓶颈理论的模糊三维聚类算法(IBFTC).IBFTC算法为每个维度指定隶属度函数,可实现3个维度上的同时聚类,且在目标函数中引入信息瓶颈理论计算对象与簇之间的距离.采用MovieLens数据集对IBFTC算法进行多方面分析,结果表明,IBFTC算法可获得比现有模糊联合聚类算法更高的聚类准确率.  相似文献   

10.
分层子树合并聚类算法   总被引:2,自引:1,他引:1  
为了解决传统分层合并聚类算法可能产生不唯一的二叉树结果问题,提出了分层子树合并聚类算法, 其基本思想是通过在数据集的最小树中分析θ-极大紧邻子树然后合并它的顶点集,该算法每步可将多个对象聚类,计算结果用多叉树表示.在理论上证明了该树在不计分支次序时是唯一的,并且通过计算实验说明,在样本中存在较多距离彼此相等的点对时,该树所描述的聚类结果要明显比传统分层合并聚类算法用二叉树描述的聚类结果更为合理.  相似文献   

11.
为了获取高质量的隐式主题结果,提高服务聚类精度,解决服务描述文档文本短带来的语义稀疏性与噪声问题,提出词向量与噪声过滤优化的词对主题模型(BTM-VN). 该模型以词对为基础,拓展服务描述文档,获取额外的语义信息,设计利用主题分布信息进行代表词对概率计算的策略,通过在采样过程中计算代表词对矩阵,提高代表词对在当前主题的权重,降低噪声词对服务描述文档主题获取的干扰. 利用词向量筛选待训练的词对集合,减少共现意义低的词对组合,解决词对主题模型耗时较长的问题. 使用优化的密度峰值聚类算法对经BTM-VN训练后的服务主题分布矩阵进行聚类. 实验结果表明,基于BTM-VN的服务聚类方法在3种聚类评价指标上的表现均优于传统的服务聚类算法.  相似文献   

12.
研究了一种基于自组织神经网络的中文文档聚类方法,按照提出的中文聚类模型,该方法首先对文档进行SOM训练产生初步的聚类结果,然后对第一次聚类结果进行基于参考点和密度的快速聚类,理论分析和实验结果也证明了该方法适合高维中文文档的聚类,与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间。  相似文献   

13.
VSM在中文文本聚类中的应用及实证分析   总被引:7,自引:0,他引:7  
文本聚类Web文本挖掘的一个重要分支,而文本表示方法是文本聚类的基础。重点讨论了文本表示方法中最常用到的向量空间模型,分析了其优势和不足,并基于一个文本处理实验,对VSM模型从可实现角度给出改进建议。  相似文献   

14.
In order to construct Chinese ontology easily, an automated ontology learning technology forChinese documents based on singular value decomposition(SVD) and conceptual clustering is proposed. Firstthe system extracts concepts from a set of domain-specific documents by using SVD technology,and thenacquires subsumption relationships between the concepts by means of hierarchical conceptual clusteringmethod. The system thus yields domain-related concept hierarchy.  相似文献   

15.
基于XML的智能信息检索与聚类研究   总被引:1,自引:0,他引:1  
目前Web上大多是非结构化的信息,检索主要是通过基于关键词的搜索引擎或目录浏览。近来,许多组织、团体、协会在Web上通过DTD/Schema定义XML(Extensible Markup Language)档,由于XML描述了结构化的信息,对XML文档的检索也与以往的搜索引擎不同。为此,本文设计了一个新的基于XML文档的智能信息检索原型系统XIIRC,给出了它的体系结构及功能,并对用户界面、索引机制、查询机制、检索结果概念聚类等问题进行了探讨。  相似文献   

16.
为了提高大规模半结构化文档集的聚类质量,提出了一种新的XML文档聚类方法.从XML文档中提取层次路径序列,以此为依据将XML文档表示为VSM中的向量,将欧氏空间对应于粒子群模型的问题空间,采用粒子群聚类方法进行文档聚类.为了加速算法的收敛性,在算法的后续部分采用C-means进行快速局部调优,提出两阶段混合聚类方法,优点是能够跳出局部极值,搜寻整个问题空间的同时又保证了合理的时间.实验结果表明提出的方法具有较高的聚类准确性和较好的收敛程度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号