首页 | 本学科首页   官方微博 | 高级检索  
     

中文网页信息检索测试集的构建、分析及应用
引用本文:李静静,闫宏飞.中文网页信息检索测试集的构建、分析及应用[J].中文信息学报,2008,22(1):30-36.
作者姓名:李静静  闫宏飞
作者单位:北京大学 北京 100871
基金项目:国家自然科学基金资助项目(60435020,60603056),国家863计划资助项目(2006AA01Z196)
摘    要:随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网页信息检索测试集CWT,并组织了SEWM中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完善CWT,一起推动中文网页信息检索技术的发展。本文在调研和分析国内外现有研究进展的基础上,详细介绍了CWT的构建原则和方法,并对CWT进行了有效的统计分析和实验研究。本文提出的构建测试集的方法为以后的研究提供了参考。

关 键 词:计算机应用  中文信息处理  CWT  信息检索  评测  测试集  文档集  
文章编号:1003-0077(2008)01-00030-07
收稿时间:2007-05-29
修稿时间:2007-12-05

Chinese Web Retrieval Test Collections: Construction, Analysis and Application
LI Jing-jing,YAN Hong-fei.Chinese Web Retrieval Test Collections: Construction, Analysis and Application[J].Journal of Chinese Information Processing,2008,22(1):30-36.
Authors:LI Jing-jing  YAN Hong-fei
Affiliation:Peking University, Beijing 100871, China
Abstract:With the rapid development of World Wide Web,Web information retrieval(IR) has been a hot research topic,but the research has been restricted by the lack of appropriate test collections.According to the framework of existing foreign test collections,we constructed large-scale Chinese Web Test collections(CWT),and organized SEWM Chinese Web search evaluation.Based on the investigation and analysis of current research,the details in constructing each component are introduced,and effective statistical analysis and experiments are carried through.The methodology used in engineering CWT should be readily applicable to the construction of future Web corpora.
Keywords:computer application  Chinese information processing  CWT  information retrieval  evaluation  test collection  document set
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号