首页 | 本学科首页   官方微博 | 高级检索  
     

Web信息检索结果融合中的按位加权插入合并算法
引用本文:张敏,金奕江,马少平. Web信息检索结果融合中的按位加权插入合并算法[J]. 中文信息学报, 2004, 18(2): 9-15
作者姓名:张敏  金奕江  马少平
作者单位:清华大学计算机系智能技术与系统国家重点实验室
基金项目:国家重点基础研究发展计划(973计划),国家自然科学基金,国家高技术研究发展计划(863计划)
摘    要:在Internet中,由于海量数据的多样性,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况,本文给出一种新的解决方案:按位加权插入合并算法。在18GB的大规模web标准测试集上的实验证明,该算法始终能够提高综合检索性能,且分布数据集检索结果越好,则合并后性能改善越多。其中系统平均精度提高接近10%,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。

关 键 词:计算机应用  中文信息处理  Web信息检索  数据集选择  结果融合  基于排序的融合  
文章编号:1003-0077(2004)02-0008-07

Rank-based Weighted Insertion Results Fusion Algorithm in Web IR
ZHANG Min,JIN Yi-jiang,MA Shao-ping. Rank-based Weighted Insertion Results Fusion Algorithm in Web IR[J]. Journal of Chinese Information Processing, 2004, 18(2): 9-15
Authors:ZHANG Min  JIN Yi-jiang  MA Shao-ping
Affiliation:State Key Lab of Intelligent Tech. & Sys. , CST Dept , Tsinghua University
Abstract:According to the variety of huge amount of web pages in Internet , it has been necessary to today's Web IR to search effectively on distributed collections. Therefore , the retrieval results fusion problem is derived. In this paper , a novel rank-based weighted insertion results fusion algorithm is proposed. Though it is possible that similarity scores of different results are absolutely incomparable , the proposed algorithm works effectively. Experimental results on 18GB large-scale Web standard test collection show the weighted insertion result fusion strategy enhances retrieval performance consistently. When the performances of distributed results are improved , the enhancement increases as well , which reaches to 10%. Furthermore , it also breaks the limitation in traditional result fusion studies that the final result merged by distributed collections is always worse than that of using single central database.
Keywords:computer application  Chinese information processing  Web IR  collection selection  result fusion  rank-based fusion
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号