首页 | 本学科首页   官方微博 | 高级检索  
     

文档检索中句法信息的有效利用研究
引用本文:丁凡,王斌,白硕,刘宜轩,李亚楠.文档检索中句法信息的有效利用研究[J].中文信息学报,2008,22(4):66-74.
作者姓名:丁凡  王斌  白硕  刘宜轩  李亚楠
作者单位:1.中国科学院 计算技术研究所 ,北京 100190;2.中国科学院 研究生院 ,北京 100190;
3. 上海证券交易所 ,上海 200120
基金项目:国家重点基础研究发展计划(973计划) , 国家自然科学基金 , 北京市科技计划
摘    要:利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。

关 键 词:计算机应用  中文信息处理  信息检索  词项依存  句法分析  词项近邻  

Effectiveness of Syntactic Relationship in Document Retrieval
DING Fan,WANG Bin,BAI Shou,LIU Yi-xuan,LI Ya-nan.Effectiveness of Syntactic Relationship in Document Retrieval[J].Journal of Chinese Information Processing,2008,22(4):66-74.
Authors:DING Fan  WANG Bin  BAI Shou  LIU Yi-xuan  LI Ya-nan
Affiliation:1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;
2. Graduate University of Chinese Academy of Sciences, Beijing 100190, China;
3. Shanghai Stock Exchange, Shanghai 200120, China
Abstract:To relax the term independence assumption,term dependency is introduced and it has improved retrieval precision dramatically.There are two kinds of term dependencies: one is defined by term proximity,and the other is defined by syntactic dependencies.In: this paper,we take a comparative study to re-examine these two kinds of term dependencies in dependence language model framework and presents a smooth-based dependence language model.We studied the effectiveness of syntactic dependencies in query representation and document representation respectively.The experimental results on TREC collections show: 1) Syntactic dependencies get a better result than term proximity in document representation.2) In: query representation,concept-based part syntactic dependencies are more effective than other syntactic dependencies.
Keywords:computer application  Chinese information processing  information retrieval  term dependency  syntactic parsing  term proximity
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号