首页 | 本学科首页   官方微博 | 高级检索  
     

面向信息检索需要的网络数据清理研究
引用本文:刘奕群,张敏,马少平.面向信息检索需要的网络数据清理研究[J].中文信息学报,2006,20(3):72-79.
作者姓名:刘奕群  张敏  马少平
作者单位:清华大学计算机系,智能技术与系统国家重点实验室
基金项目:国家重点基础研究发展计划(973计划);中国科学院资助项目;重庆市应用基础研究基金
摘    要:Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。

关 键 词:计算机应用  中文信息处理  网络信息检索  数据清理  机器学习  
文章编号:1003-0077(2006)03-0070-08
收稿时间:2005-11-03
修稿时间:2006-02-23

Web Data Cleansing for Effective Information Retrieval
LIU Yi-qun,ZHANG Min,MA Shao-ping.Web Data Cleansing for Effective Information Retrieval[J].Journal of Chinese Information Processing,2006,20(3):72-79.
Authors:LIU Yi-qun  ZHANG Min  MA Shao-ping
Affiliation:State Key Lab of Intelligent Technology and Systems , Tsinghua University
Abstract:The existence of low quality Web pages affects the effectiveness and efficiency of Web search.In this paper,we define the Web page quality estimation as a learning problem.First,several query-independent features are investigated which can separate search target page from ordinary ones.Bayes estimation based on these features is then used to train a model to assign importance scores to Web pages.In TREC based experiments,the top-scored set reduces 45% low quality pages as well as retains 95% high quality ones.It shows the possibility to gain better performance with less storage and computing resource for search engines.
Keywords:computer application  Chinese information processing  Web information retrieval  data cleansing  machine learning    
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号