首页 | 本学科首页   官方微博 | 高级检索  
     

Web信息检索中主题精选算法的研究与改进
引用本文:韩亚洪,许卓明,董逸生.Web信息检索中主题精选算法的研究与改进[J].计算机工程与应用,2004,40(17):174-178.
作者姓名:韩亚洪  许卓明  董逸生
作者单位:1. 河海大学计算机及信息工程学院,南京,210098;安阳师范学院计算机科学系,河南,安阳,455000
2. 东南大学计算机科学与工程系,南京,210096;河海大学计算机及信息工程学院,南京,210098
3. 东南大学计算机科学与工程系,南京,210096
基金项目:国家自然科学基金项目(编号:60173036),江苏省“十五”高科技项目(编号:BG2001013)资助
摘    要:搜索引擎是目前最主要的Web信息检索工具,然而它的效果还不能令人满意。基于Web链接结构的主题精选算法的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。笔者对经典主题精选算法HITS的分析表明该算法还有给不同的Web站点规定了不平等的影响权重以及不能满足用户多粒度的信息需求等缺点。文章在分析主题精选算法研究的基础上针对其不足提出了改进算法g-HITSc,实验表明该算法是合理和有效的。

关 键 词:主题精选  HITS  多粒度  链接分析  Web信息检索
文章编号:1002-8331-(2004)17-0174-06

Research and Improvement on Topic Distillation Algorithm in Web IR
Han Yahong , Xu Zhuoming , Dong Yisheng.Research and Improvement on Topic Distillation Algorithm in Web IR[J].Computer Engineering and Applications,2004,40(17):174-178.
Authors:Han Yahong  Xu Zhuoming  Dong Yisheng
Affiliation:Han Yahong 2,3 Xu Zhuoming 1,2 Dong Yisheng 11
Abstract:Search engine is the most commonly used tool for Web information retrieval;however,its current status is still far from satisfaction.Topic distillation algorithm,which is based on Web link structure,is likely to converge at an irrelevant Tightly Knit Community(TKC),thus lead to topic drift.Analysis on the classical algorithm,HITS,shows that such algorithm not only fails to satisfy user's multiple-granularity information needs,but also tends to define unjust in-fluence weights for different authors of Websites.Based on these analysis it puts forward an improved algorithm g-HITSc,experimental results show that the new algorithm is reasonable and effective.
Keywords:topic distillation  HITS  multiple-granularity  link analysis  Web IR  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号