共查询到20条相似文献,搜索用时 31 毫秒
1.
一种层次化的检索结果聚类方法 总被引:3,自引:1,他引:2
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高. 相似文献
2.
高镔 《计算机工程与应用》2011,47(12):110-112
在网页聚类中,HAC(Hierarchical Agglomerative Clustering)算法和K-means算法都是经常用到的。但它们都有各自的不足。提出一种两阶段聚类方法。第一阶段利用HAC聚类算法对网络检索结果的标题进行聚类,第二阶段以第一阶段结果作为初始中心用K-means算法聚类标题和摘要取得比较合理的聚类结果。由于标题一般都比较短,可以大大减少HAC算法的运行时间。这样既满足网络检索对时间的要求又可以得到较好的聚类结果。 相似文献
3.
聚类分析是一种无监督的机器学习方法,聚类结果完全取决于所用聚类算法,不同的算法会得到不同的聚类结果,因此面对待挖掘数据选择合适的算法很重要。如何判断哪个聚类算法最合适,或者哪个算法的聚类结果最优,就需要用到聚类评价方法。本文选择各类聚类算法中的经典算法对某汽车4S店顾客消费数据进行聚类分析,最后用两种评价指标对各聚类结果进行评价进而选择出最优的聚类算法。 相似文献
4.
文章提出了一种基于算法选择和结果评估的自动聚类方法。对给定数据集,该方法首先通过分析数据集的潜在簇结构,并依据所发现的簇结构为数据集挑选一种合适的备选聚类算法集;然后利用聚类有效性指标对这个算法集的算法聚类结果进行评估,以确保得到高质量聚类结果。实验结果表明该方法能够自动地挑选适合数据集的聚类算法,并获得高质量的聚类结果。 相似文献
5.
6.
7.
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。 相似文献
8.
综合考虑聚类、分类的特点,从聚类结果出发,学习并利用初始聚类结构信息形成训练集,结合迭代分类思想重新划分原数据集,提出一种基于迭代分类的聚类结果改进方法。实验结果表明该方法具有更高准确率,为获得良好的聚类效果提供了新思路。 相似文献
9.
聚类分析在数据挖掘研究中占有重要的位置。聚类结果的可视化则是用图形的方式直观地表现聚类质量的优劣。目前采用的聚类结果可视化方法多为统计学方法,如饼图、柱状图等。但是这些统计学方法只能反映簇与簇之间的数量关系、簇内成分的比例关系,没有具体到每一个对象,没有利用到每个对象所包含的信息。针对上述问题,本文提出三种聚类结果的可视化方法:随机点图、顺序点图、电子云图。其中,随机点图的优点是简单、易于实现;顺序点图的优点是可以反映具体哪一个对象被错分,并且适合动态显示聚类过程;电子云图的优点是可以反映每个对象与相应聚类中心的距离。 相似文献
10.
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持. 相似文献
11.
12.
卢仁猛 《计算机光盘软件与应用》2014,(18):109-110
随着互联网的普及和web上网页数量的迅猛增长,搜索引擎已经成为从网上获取信息的首选工具。然而,目前主流的搜索引擎利用关键词建立索引,根据检索结果和查询词的相关性从高到低排成一个很长的线性列表,而且检索结果中包含了大量的无用信息,因此对检索结果进行重新组织和挖掘成为了研究热点。本文介绍了检索结果聚类的应用背景,然后介绍了检索结果聚类的算法,最后介绍了检索结果聚类质量评测标准。 相似文献
13.
搜索引擎根据特定关键字查询返回的结果,可以基于语义进行分类组织,提高用户查询效率。但分类方法是基于预定义类别的,由于类别不全或更新不及,对于互联网上的信息可能会造成遗漏。本文提出了一种将分类与聚类方法相结合的方法来优化搜索结果,即分类之后,用聚类的方法来处理未被归入任何类别的信息。研究表明,该方法可以兼顾效率和信息完整性。 相似文献
14.
15.
基于后缀树的Web检索结果聚类标签生成方法 总被引:1,自引:0,他引:1
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。 相似文献
16.
谱聚类可以任意形状的数据进行聚类,在聚类集成中能够有效的提高基聚类的质量.以往的聚类集成算法中,聚类集成得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散-连续-离散的转变.提出了一种基于谱聚类的双边聚类集成算法.算法首先在生成阶段使用谱聚类算法来获得基聚类,通过标准互信息来选取基聚类.将选出来基聚类和样本作为图的顶点,并对构建的图利用双边聚类算法对基聚类和样本同时聚类直接得到最终聚类结果.在实验中,将所提方法与一些聚类集成算法进行了比较,取得了较好的结果. 相似文献
17.
18.
搜索引擎返回的信息太多且不能根据用户的兴趣提供检索结果,使得用户使用搜索引擎难以用简便的方式找到感兴趣的文档。个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法。文中把内容过滤技术和文档聚类技术相结合,实现了一个基于搜索结果的个性化推荐系统,以聚类的方法自动组织搜索结果,主动推荐用户感兴趣的文档。通过建立用户概率兴趣模型,对搜索结果STC聚类的基础上进行内容过滤。实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化。 相似文献
19.