首页 | 本学科首页   官方微博 | 高级检索  
     

融合主题与语言模型的蒙古文信息检索方法研究*
引用本文:斯日古楞,林民,田长波.融合主题与语言模型的蒙古文信息检索方法研究*[J].计算机应用研究,2016,33(12).
作者姓名:斯日古楞  林民  田长波
作者单位:内蒙古师范大学 计算机与信息工程学院,内蒙古师范大学 计算机与信息工程学院,内蒙古师范大学 计算机与信息工程学院
基金项目:国家自然科学基金(61562068) ;内蒙古自然科学基金(2013MS0912);内蒙古自治区教育部人文社会科学研究项目 (13YJAZH080)
摘    要:摘 要: 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好的实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA模型与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。

关 键 词:蒙古文  语言模型  主题模型  Gibbs采样  信息检索
收稿时间:2016/1/26 0:00:00
修稿时间:2016/10/24 0:00:00

Mongolian Information Retrieval Method Based on Topic Model and Language Model
Siriguleng,Lin Min and Tian Chang Bo.Mongolian Information Retrieval Method Based on Topic Model and Language Model[J].Application Research of Computers,2016,33(12).
Authors:Siriguleng  Lin Min and Tian Chang Bo
Affiliation:College of Computer and Information Engineering,Inner Mongolia Normal University,Hohhot,Inner Mongolia,College of Computer and Information Engineering,Inner Mongolia Normal University,Hohhot,Inner Mongolia,College of Computer and Information Engineering,Inner Mongolia Normal University,Hohhot,Inner Mongolia
Abstract:Aimed at the retrieval semantic information in Mongolian, the paper proposed a new method combined topic model Latent Dirichlet Allocation(LDA)and Language Model . This method models Mongolian documents with LDA and Language model, Parameters are estimated with Gibbs sampling and probability of word is represented, it can mine the hidden relationship between the different topics and the words from documents, get the topic distribution and compute the similarity of Keywordstopics. Finally, return to the most relevant documents with topics. Experimental results show that the method has a higher performance in topic semantic compared with one sole model.
Keywords:
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号