共查询到18条相似文献,搜索用时 43 毫秒
1.
高镔 《计算机工程与应用》2011,47(12):110-112
在网页聚类中,HAC(Hierarchical Agglomerative Clustering)算法和K-means算法都是经常用到的。但它们都有各自的不足。提出一种两阶段聚类方法。第一阶段利用HAC聚类算法对网络检索结果的标题进行聚类,第二阶段以第一阶段结果作为初始中心用K-means算法聚类标题和摘要取得比较合理的聚类结果。由于标题一般都比较短,可以大大减少HAC算法的运行时间。这样既满足网络检索对时间的要求又可以得到较好的聚类结果。 相似文献
2.
针对关系数据库元组级别关键词检索中存在查询语句多义性及展现结果冗余性等问题,提出一种关系数据库对象级别检索结果的聚类方法。以对象的观点,综合考虑检索结果的相关性和多样性,从结构和内容两个层面对其聚类。基于覆盖树对检索结果进行同构判断,实现第一级聚类;利用核函数计算同构类别中检索结果间所包含内容的相似性,实现第二级聚类;同时对聚类后的结果集进行动态更新。该聚类方法有效降低了展现结果的冗余性,增加了用户可选择的结果类别,提高了检索系统的性能。 相似文献
3.
Web检索结果快速聚类方法的研究与实现 总被引:2,自引:0,他引:2
为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,在对聚类过程研究分析的基础上给出了一种Web检索结果快速聚类方法。它通过分析聚类过程,从建立索引模型、相似性的计算到聚类结果的形成等环节,都做了分析和简化,并利用检索结果的标题、Url以及文档片断3部分所含信息计算返回结果之间的相似度,将首先返回的部分检索结果利用无向图映射法进行部分聚类后,将其余返回结果分配到与之最相近的集簇中最终形成聚类结果。该方法实现简单。实验证明该方法响应速度快,聚类相关性较高,空间占用少。 相似文献
4.
5.
6.
卢仁猛 《计算机光盘软件与应用》2014,(18):109-110
随着互联网的普及和web上网页数量的迅猛增长,搜索引擎已经成为从网上获取信息的首选工具。然而,目前主流的搜索引擎利用关键词建立索引,根据检索结果和查询词的相关性从高到低排成一个很长的线性列表,而且检索结果中包含了大量的无用信息,因此对检索结果进行重新组织和挖掘成为了研究热点。本文介绍了检索结果聚类的应用背景,然后介绍了检索结果聚类的算法,最后介绍了检索结果聚类质量评测标准。 相似文献
7.
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。 相似文献
8.
9.
一种新的Web检索结果聚类方法 总被引:1,自引:0,他引:1
Web检索结果聚类用于检索结果的组织,以方便用户的浏览.从一个新的角度审视检索结果聚类.通过分析检索结果的特点,由此提出计算检索结果中的词语与用户输入的关键词拱现程度,然后根据共现程度高的词语确定基类,最后利用类标签的语聚类得到层次聚类结果.此基于词间共现度及词语语义的新方法为Web检索结果聚类提供了一个新的思路. 相似文献
10.
11.
基于潜在语义索引和自组织映射网的检索结果聚类方法 总被引:1,自引:0,他引:1
随着互联网的不断发展和数据量的不断增加,搜索引擎的作用日益明显,用户更多地依靠搜索引擎来查找需要的信息.利用潜在语义索引(LSI)理论和自组织映射神经网络(SOM)理论.提出了一种文本聚类的新方法——LSOM.该方法应用SOM网络来实现检索结果文本聚类,不必预先给定类别个数,具有聚类灵活和精度高等特点;同时,该方法应用LSI理论来建立向量空间模型.在词条的权重中引入了语义关系.对于高维的文本特征向量,消减原词条矩阵中包含的噪声,提高聚类速度.LSOM使用一种新的类别标签提取方法.并将提取的标签用于解决SOM基本类划分问题,算法在类别标签和聚类效果评价指标上都比已有的算法有所提高. 相似文献
12.
13.
14.
George Chang Gunjan Samtani Marcus Healey Franz Kurfess Jason Wang 《Journal of Systems Integration》2001,10(3):253-267
Information retrieval has evolved from searches of references, to abstracts, to documents. Search on the Web involves search engines that promise to parse full-text and other files: audio, video, and multimedia. With the indexable Web at 320 million pages and growing, difficulties with locating relevant information have become apparent. The most prevalent means for information retrieval relies on syntax-based methods: keywords or strings of characters are presented to a search engine, and it returns all the matches in the available documents. This method is satisfactory and easy to implement, but it has some inherent limitations that make it unsuitable for many tasks. Instead of looking for syntactical patterns, the user often is interested in keyword meaning or the location of a particular word in a title or header. This paper describes some precise search approaches in the environmental domain that locate information according to syntactic criteria, augmented by the utilization of information in a certain context. The main emphasis of this paper lies in the treatment of structured knowledge, where essential aspects about the topic of interest are encoded not only by the individual items, but also by their relationships among each other. Examples for such structured knowledge are hypertext documents, diagrams, logical and chemical formulae. Benefits of this approach are enhanced precision and approximate search in an already focused, context-specific search engine for the environment: EnviroDaemon. 相似文献
15.
以列表形式展示的搜索引擎查询结果往往使用户无法快速地找到真正需要的信息。采用对结果进行聚类后,以结构化的形式表现查询结果可以克服这一问题。文中阐述了聚类引擎包括的四部分工作及相关的技术,并对系统的性能和存在的问题进行了初步的分析,为此类系统的实现提供了基础。 相似文献
16.
17.
18.
文本聚类的目标是把数据集中内容相似的文档归为一类,而使内容不同的文档分开。目前针对不同领域的需求,多种解决聚类问题的算法应运而生。然而,由于文本数据本身固有的复杂特点,如海量、高维、稀疏等,使得对海量文本数据的聚类仍然是一个棘手的问题。提出了层次非负矩阵分解聚类方法,该方法不但保留了非负矩阵分解的优点,如同步识别文档类别和找出类别本质特征,而且能够展现类别间的层次结构。这种类别层次结构在网页预览等应用中是非常有用的。在真实数据集20Newsgroups和Reuters-RCV1上的实验结果表明,层次非负矩阵分解相比已有的方法更有效。 相似文献