首页 | 本学科首页   官方微博 | 高级检索  
     

信息检索中一种基于词语—主题词相关度的语言模型
引用本文:田萱,杜小勇,李海华.信息检索中一种基于词语—主题词相关度的语言模型[J].中文信息学报,2007,21(6):43-51.
作者姓名:田萱  杜小勇  李海华
作者单位:1. 中国人民大学 信息学院,北京 100872;
2. 教育部 数据工程与知识工程重点实验室,北京 100872
基金项目:国家自然科学基金;国家科技攻关项目
摘    要:本文提出一种基于词语—主题词相关关系的语言模型TSA-LM(Term-Subject Association Based Language Model ),它的基本思想是把一篇文档分成两个文档块,一部分是由领域主题词表中的主题词构成的主题词文档块,另一部分是由非主题词构成的非主题词文档块,分别计算两个文档块和查询的似然程度。对非主题词文档块,假设词语间独立无关,沿用经典的语言模型计算;对主题词文档块,把查询词语和主题词相关关系引入语言模型中来估计该文档块和查询的似然程度。词语—主题词相关关系采用词语—主题词相关度来衡量。词语—主题词相关度的计算除了来源于对文档中词语—主题词共现性的观察外,还来源于宏观上对词语—文档—主题词归属关系的观察。公开数据集上的检索实验结果表明,基于词语—主题词相关关系的语言模型可以有效提高检索效果。

关 键 词:计算机应用  中文信息处理  语言模型    主题词    词语—主题词相关关系  词语—文档—主题词归属关系    词语—主题词共现关系  
文章编号:1003-0077(2007)06-0043-09
收稿时间:2007-03-20
修稿时间:2007-06-20

A Term-Subject-Association-Based Language Model for Information Retrieval
TIAN Xuan,DU Xiao-yong,LI Hai-hua.A Term-Subject-Association-Based Language Model for Information Retrieval[J].Journal of Chinese Information Processing,2007,21(6):43-51.
Authors:TIAN Xuan  DU Xiao-yong  LI Hai-hua
Affiliation:1. School of Information, Renmin University of China, Beijing 100872, China;
2. Key Laboratory of Data Engineer and Knowledge Engineer, Ministry of Education, Beijing 100872, China
Abstract:We propose a Term-Subject-Association-based Language Model(TSA-LM)for document retrieval.Its main idea is to divide a document into two parts:one is only composed of subject words(named as subject block),and the other contains no subject words(named as non-subject block).Query-likelihood of a document is measured by the combination of the query-likelihood of the two blocks.For non-subject block,we follow classical language model.For subject block,we use the language model smoothed by term-subject association.The term-subject association is weighted by term-subject co-occurrence and term-document-subject labeling relationship.The experimental results on public dataset show that TSA-LM improves search effectiveness.
Keywords:computer application  Chinese information processing  language model  subject word  term-subject association  term-document-subject attachment  term-subject co-occurrence
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号