首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于内容权值的结构化文档检索方法
引用本文:范轶彦 朱利群 郭国强. 一种基于内容权值的结构化文档检索方法[J]. 辽宁工学院学报, 2004, 24(6): 18-21
作者姓名:范轶彦 朱利群 郭国强
作者单位:湖南文理学院计算机科学与技术系,湖南文理学院计算机科学与技术系,湖南文理学院计算机科学与技术系 湖南常德 415000,湖南常德 415000,湖南常德 415000
摘    要:结构化文档由标题、章节、段落等逻辑结构组成。利用文本文档中自然层次结构的优点,提出了一种新的相似度查找方法,用问题回答系统来实现。主要任务就是从底层的结构化文档集合中找到用户需要的最合适的答案。这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节。用微软百科全书Encarta作为测试集,实验结果表明本文的方法能获得更加准确、简短的答案,同时提供更多关于问题的上下文信息,从而更好地理解答案。

关 键 词:结构化文档 基于内容 文本文档 文档内容 权值 相似度 上下文 答案 检索方法 百科全书
文章编号:1005-1090(2004)06-0018-04
修稿时间:2004-09-17

Method to Query Structured Document Based on Content Weight
Abstract:Structured documents consist of a few logical components, such as title, sections, subsections and paragraphs. A new method was proposed for approximate search by taking advantage of the natural hierarchical structure in text documents. This method is implemented in a question answering system. The main task of a question-answer system is to locate the most matching answer from the underlying structured document collection. This retrieval technique allows users to retrieve document components with varying granularity. The proposed method is evaluated on the Encarta encyclopedia document set. Experimental results expatiate that our method can produce more accurate results and shorter answers than traditional document retrieval, at the same time, can provide much more related context information about fuzzy questions so that users can understand the answer better.
Keywords:document database  information retrieval  passage retrieval  structured document  
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号