首页 | 本学科首页   官方微博 | 高级检索  
     

基于主题词对的文档重排方法
引用本文:何婷婷,许婷,瞿国忠,涂新辉.基于主题词对的文档重排方法[J].计算机工程与应用,2007,43(11):161-163.
作者姓名:何婷婷  许婷  瞿国忠  涂新辉
作者单位:[1]华中师范大学计算机科学系,武汉430079 [2]教育部教育信息技术工程研究中心,武汉430079
基金项目:国家自然科学基金 , 国家社会科学基金 , 教育部科学技术研究重点项目
摘    要:提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。

关 键 词:主题词对  概率潜在语义索引  文档重排
文章编号:1002-8331(2007)11-0161-03
收稿时间:2006-8-23
修稿时间:2006-11

Re-ranking Based on Topic Word Pairs
HE Ting-ting,XU Ting,QU Guo-zhong,TU Xin-hui.Re-ranking Based on Topic Word Pairs[J].Computer Engineering and Applications,2007,43(11):161-163.
Authors:HE Ting-ting  XU Ting  QU Guo-zhong  TU Xin-hui
Affiliation:1.Department of Computer Science,Huazhong Normal University,Wuhan 430079,China; 2.Engineering Research Center for Education Information Technology,Ministry of Education,Wuhan 430079,China
Abstract:In this paper,a re-ranking approach based on topic word pairs is proposed to improve precision while recall is preserved.The topic word pairs contain two correlated words,one of which is the original query word and the other comes from the documents.The selection is based on Probabilistic Latent Semantic Indexing(PLSI).Then,the distribution of the word pairs is used to re-rank documents.Results show a 53.6% and 55.8% improvement comparing to the initial retrieval without any re-ranking or query expansion on NTCIR-5 document collection for SLIR.
Keywords:topic word pair  Probabilistic Latent Semantic Indexing(PLSI)  document re-ranking
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号