首页 | 本学科首页   官方微博 | 高级检索  
     

词性标注对信息检索系统性能的影响
引用本文:苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):59-66.
作者姓名:苏祺  昝红英  胡景贺  项锟
作者单位:北京大学计算语言学研究所,北京 100871
基金项目:国家高技术研究发展计划(863计划),国家自然科学基金
摘    要:在信息检索中引入NLP 技术是信息检索发展的主要趋势,本文将NLP 中较为成熟的词性标注技术加入信息检索,采用大规模TREC 数据集,试图发现词性标注对检索系统性能的影响。笔者在SMART 检索系统上使用不同标注集、不同索引项权重进行了检索实验。实验表明,在信息检索中加入词性标注信息可能会对某些特定Topic 和Document 的检索效果有所改进,但词性标注的影响能力弱于索引项权重选择的影响能力。词性标注对检索性能的影响涉及到Topic 和Document 中的具体用词,普遍规律有待进一步研究。

关 键 词:人工智能  自然语言处理  信息检索  向量空间模型  词性标注  SMART  
文章编号:1003-0077(2005)02-0058-08
修稿时间:2004年6月28日

Effects of POS Tagging on Performance of IR Systems
SU Qi,ZAN Hong-ying,HU Jing-he,Xiang Kun.Effects of POS Tagging on Performance of IR Systems[J].Journal of Chinese Information Processing,2005,19(2):59-66.
Authors:SU Qi  ZAN Hong-ying  HU Jing-he  Xiang Kun
Affiliation:Institute of Computational Linguistics ,Peking University ,Beijing  100871 ,China
Abstract:NLP technology combined with information retrieval has become mainstream in the IR field.In this article,the authors combine POS tagging with IR,in an attempt to find the effects of POS tagging on the performance of IR systems.Using the SMART system,the authors performed experiments with different tagsets and different term vector weighting schemes.According to the experiments,we found that retrieval performance using tags improved in certain topics and documents.The effects,however,are inferior to the assignment of appropriate term weighting.The effects concern concrete words in topics and documents.We still need further research to find general rules.
Keywords:SMART
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号