首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
提出了一种两阶段的聚类方法:Hybrid。第一阶段产生大小相同的圆形原子聚类;第二阶段合并原子聚类形成任意形状和大小的聚合聚类。在扩展边界时,不但考虑原子聚类间的距离,还考虑原子聚类的密度相似度。这样可以更好地排除“噪音”的影响,得到内部结构更加趋同的聚合聚类。  相似文献   

2.
针对当前自动文摘方法的不足,提出了基于文本聚类的自动文摘实现方法.可以克服常规自动文摘方法的不足,使文摘的质量和效果得到大大的提高.将文本聚类引入自动文摘中,不但使单文档的文摘质量得到提高,而且能够实现多文档的自动文摘,这是现有的自动文摘技术所没有涉及的.实现了面向"塑料"行业的基于文本聚类的自动文摘系统TCAAS.实验表明该方法可行, 对自动文摘系统的设计具有借鉴意义和深入研究的价值.  相似文献   

3.
问题分类是问答社区系统的关键技术,分析用户提出的自然语言问题,并返回一个确切而适当的问题类别.针对网络社区中问题分类标签众多(>1 000)、有一定层次且易受时间演化影响的问题,提出了针对两种不同流动粒度的问题分类算法,运用不同时刻的数据集层次集成学习方法提高了问题分类精度和效率.同时,针对单次分类标签过多引起的特征集...  相似文献   

4.
不同的聚类算法用于设计各自的策略,然而,每种技术在执行特定数据集时都有一定的局限性。选择恰当的识别信息方法(DIM)可确保文档聚类的进行。针对这些问题提出一种基于共识和分类的文档聚类(DCCC)的DIM。首先,选择识别信息最大化聚类(CDIM)作为数据集生成初始聚类的解决方法,并使用两种不同的CDIM方法生成两个初始聚集;其次,使用不同的参数方法对两初始聚集再进行初始化,通过簇标签信息间的关系建立共识,最大限度地提高文档的识别数总和;最后,选择识别文本权重分类(DTWC)作为文本分类器给共识分配新的簇标签,通过训练文本分类器更改基础分区,并根据预报标签信息生成最后的分区。采用8个网络数据集进行实验,选择BCubed的精度和召回率指标进行聚类验证。实验结果表明,所提出的共识分类方法的聚类结果优于对比方法的聚类结果。  相似文献   

5.
一种基于SOM和K-means的文档聚类算法   总被引:9,自引:0,他引:9  
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K—means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

6.
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.  相似文献   

7.
标签传播算法(LPA)是一种高效地处理大规模网络的社区发现算法,由于其近乎线性的时间复杂度而受到广泛关注。然而,该算法每个节点的标签依赖于其邻居节点,其迭代速度和聚类有效性对标签信息的更新顺序非常敏感,影响了社区发现结果的准确性和稳定性。基于该问题,提出了一种基于加权聚类集成的标签传播算法。该算法利用多次标签传播算法的结果作为基聚类集,并用模块度评估每个基聚类的重要性,使其作为节点相似性度量的权值形成加权相似性矩阵,最后通过层次聚类得出最终的社区划分结果。在实验分析中,该算法和其他5个具有代表性的标签传播算法的改进算法在真实数据集上进行了比较,展示了新算法能有效地提高标签传播算法的社区发现精度。  相似文献   

8.
基于主题的Web文档聚类研究   总被引:9,自引:3,他引:9  
网络资源的不断膨胀和新旧信息的迅速更迭,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类,并能够发现新的信息资源。针对Web文档数据的复杂性,本文提出了通过二次特征提取和聚类的方法,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时,实现了较高质量的Web文档聚类。  相似文献   

9.
张斌  苏一丹  曹波 《微计算机信息》2008,24(15):231-233
本文首先针对Web数据高纬的特点,提出一种基于方向相似性的蚁群聚类算法并将其应用于用户聚类;然后针对Web数据的动态性,引入聚类模型维护库,在原有聚类模型的基础上实现增量式用户聚类.实验结果表明,该方法能动态有效地实现用户聚类.  相似文献   

10.
提出了一种把自组织特征映射SOM和Kmeans算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化Kmeans的聚类中心,再用Kmeans算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

11.
随着因特网的普及.如何有效地分类HTML文档成为一个热点话题。提出一个基于标签加权的HTML文档分类算法,该算法使用词干分析方法进行数据预处理,同时使用LSI对特征向量降维。然后使用人工神经网络反向传播算法作为主分类器。通过实验表明,对HTML文档的标签加权.有助于提高分类的准确性。  相似文献   

12.
分析新闻类聚合内容(RSS)文档的结构,提出一种基于新闻类RSS文档的信息隐藏方法。根据各新闻条目的先后顺序不会影响RSS文档使用的特点,利用标签模块的排列组合隐藏机密信息。同时选取另外2种基于XML的隐藏方法进行合理组合,构建一个基于多种隐藏方法的新闻类RSS文档的信息隐藏系统。实验结果表明,排序后的3种隐藏方法不会发生冲突,在提高隐藏容量的同时,具有较好的隐蔽性和鲁棒性。  相似文献   

13.
14.
黄媛  李兵  何鹏  熊伟 《计算机科学》2013,40(2):167-171
聚类Web服务能大大提高W c6服务搜索引擎检索相关服务的能力。ProgrammablcWeb. com是一个很流行 的在线社会Mashup网站。作为基于Web的应用程序,Mashup本质上是开发者提供的Web服务。结合Mashup服 务的描述文档和相应标签提出一种新颖的Mashup服务聚类的方法,此外还提出一种标签推荐的方法来改进服务聚 类的性能。实验结果表明,基于标签推荐的服务聚类方法的聚类精度比其他两种实验方法要高,说明提出的标签推荐 策略有效扩充了标签数较少的Mashup服务,从而带来更多相关标签信息,因而聚类效果更好。  相似文献   

15.
基于Web-Log Mining的Web文档聚类   总被引:22,自引:0,他引:22  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):99-104
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.  相似文献   

16.
排序学习算法作为信息检索与机器学习的一个交叉领域,越来越受到人们的重视。然而,几乎没有排序学习算法考虑到查询差异的存在。文中查询被建模为多元高斯分布,KL距离被用来度量查询之间的距离,利用谱聚类方法对查询进行聚类,为每个聚类类别训练一个排序函数。实验结果表明经过聚类得到的排序函数需要较少的训练样例,但是它的性能却和没有经过聚类得到的排序函数具有可比性,甚至优于后者。  相似文献   

17.
一种基于词共现的文档聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
常鹏  冯楠  马辉 《计算机工程》2012,38(2):213-214
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。  相似文献   

18.
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。  相似文献   

19.
李曲  龙昊 《计算机科学》2004,31(7):178-180
在一篇文档中,一个单词可以看作是一个项目,一组单词就是一个项目集。在以往的基于关联的文本聚类方法中.都是将一整篇文档看作是一个事务来挖掘频繁项目集和关联规则的。但是实际上,一篇文档中的基本语义单位是句子。在同一个句子中同时出现的一组词在语义上或多或少都是相互关联的,与分布在多个句子中的同一组词相比,前者要有意义得多。因此,基于以上发现,我们考虑将文档中的每一个句子看作是一个事务,一篇文档就被看作是一个事务的集合,并由此提出了一种新的文本聚类方法:SAT-TC。通过在标准测试集上的实验证明.SAT-TC要优于传统的文本聚类算法。  相似文献   

20.
社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和基于该相似度的聚类算法;(2)分析了影响标签相似度的条件;(3)通过实验表明:与已有方法相比,新方法的准确性更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号