首页 | 本学科首页   官方微博 | 高级检索  
     

一种改善的基于语言模型的中文检索系统研究
作者姓名:张俊林  曲为民  孙乐  孙玉芳
作者单位:中科院软件所系统软件与中文信息中心
基金项目:国家自然科学基金,国家高技术研究发展计划(863计划)
摘    要:最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能,但是其隐含的词汇间相互独立的假设并不符合实际情况。尽管统计翻译模型考虑了词汇间的同义词因素,但是由于它没有考虑词汇上下文信息,所以对于解决多义词词义的区分并无帮助。我们提出了触发语言模型检索方法来改善这一状况,通过训练语料得到词汇在一定上下文中的相关比率,同时利用查询条件所含词汇计算触发词汇集合来区别查询条件词汇的具体含义并将相关参数引入文档语言模型形成触发语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与经典语言模型方法相比,触发语言模型方法的平均查准率提高了约12%,召回率提高了10.8%。

关 键 词:计算机应用  中文信息处理  语言模型  信息检索  触发  
文章编号:1003-0077(2004)02-0023-07
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号