首页 | 本学科首页   官方微博 | 高级检索  
     

基于后缀树的Web检索结果聚类标签生成方法
引用本文:骆雄武,万小军,杨建武,吴於茜.基于后缀树的Web检索结果聚类标签生成方法[J].中文信息学报,2009,23(2):83-88.
作者姓名:骆雄武  万小军  杨建武  吴於茜
作者单位:北京大学 计算机科学技术研究所 北京 100871
基金项目:国家资助项目,国家高技术研究发展计划(863计划) 
摘    要:对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。

关 键 词:计算机应用  中文信息处理  检索结果聚类  聚类标签生成  后缀树
  

Suffix Tree Based Label Generation Method for Web Search Results Clustering
LUO Xiong-wu,WAN Xiao-jun,YANG Jian-wu,WU Yu-qian.Suffix Tree Based Label Generation Method for Web Search Results Clustering[J].Journal of Chinese Information Processing,2009,23(2):83-88.
Authors:LUO Xiong-wu  WAN Xiao-jun  YANG Jian-wu  WU Yu-qian
Affiliation:Institute of Computer Science and Technology, Peking University, Beijing 100871, China
Abstract:Organizing web search results into clusters is helpful for users to browse through search results.Many clustering methods have been widely used for this purpose,but most of them do not work well because the generated cluster labels are not readable and informative enough for users to identify the right cluster quickly.In this paper,we focus on how to generate more readable cluster labels and propose a novel method to address this problem.Based on the ranked list of snippets returned by a web search engine f...
Keywords:computer application  Chinese information processing  search results clustering  cluster label generation  suffix tree  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号