期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种改善的基于语言模型的中文检索系统研究 总被引：2，自引：1，他引：2

张俊林曲为民孙乐孙玉芳《中文信息学报》2004,18(2):24-29,43

最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能,但是其隐含的词汇间相互独立的假设并不符合实际情况。尽管统计翻译模型考虑了词汇间的同义词因素,但是由于它没有考虑词汇上下文信息,所以对于解决多义词词义的区分并无帮助。我们提出了触发语言模型检索方法来改善这一状况,通过训练语料得到词汇在一定上下文中的相关比率,同时利用查询条件所含词汇计算触发词汇集合来区别查询条件词汇的具体含义并将相关参数引入文档语言模型形成触发语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与经典语言模型方法相比,触发语言模型方法的平均查准率提高了约12%,召回率提高了10.8%。相似文献

2.

半结构化中文信息检索中查询结果相关度算法的研究 总被引：2，自引：0，他引：2

曲卫民孙乐孙玉芳《中文信息学报》2004,18(4):16-23

本文研究了对富含文本信息的XML数据进行基于关键字的查询时,查询结果与查询条件之间相关度的计算问题,分析了利用传统信息检索技术解决该问题时存在的一些不足,提出了一种基于节点的动态的关键字权重计算法,以及综合考虑关键字在查询结果中的频率分布特征和结构分布特征的查询结果相关度计算法,有效解决了XML数据中的结构信息对相关度计算的影响,实验证明本文中的方法取得了较好的检索性能。相似文献

3.

XML数据查询中值匹配查询代价估计算法 总被引：6，自引：0，他引：6

下载免费PDF全文

曲卫民孙乐孙玉芳《软件学报》2005,16(4):561-569

XML数据查询中值匹配查询条件的查询代价估计问题是一种典型的多元素查询条件代价估计问题.它与传统关系型数据库中的多元素查询条件不同,因为XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,可能会形成高维元素相关.针对以上问题,提出了一种面向XML数据的基于小波的多维直方图查询代价估计算法,并提出了确定XML数据中以某值元素为主键的相互依赖元组的方法,将值匹配条件改写为多元素查询条件的方法以及结构信息的值化方法.实验结果证明,提出的方法取得了较准确的查询代价估计结果. 相似文献

4.

基于主题的汉语语言模型的研究 总被引：1，自引：0，他引：1

曲卫民张俊林孙乐《计算机研究与发展》2003,40(9):1368-1374

基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题,针对其面临的两个主要问题——语料的分类和各语言模型的融合,采用了一种新的语料分类算法,突破了原有分类方法的一些局限性,并提出了一种改进的融合各语言模型的方法：概率线性插值法,该方法既改善了语言模型的性能,又提高了横型的运算效率。相似文献

5.

基于记忆的自适应汉语语言模型的研究 总被引：2，自引：2，他引：0

曲卫民张俊林孙乐孙玉芳《中文信息学报》2003,17(5):14-18,40

基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现,它没有考虑到常用词的影响,以及不同单词间的相互影响。本文针对这一问题从两个方面对原有模型进行了改进,一是采用TFIDF公式代替了原有的简单频率统计法;二是建立了一种基于记忆的扩展二元模型,并采用权重过滤法以节省模型计算量。实验表明这两种改进在很大程度上提高了原有模型的性能,增强了模型的自适应性。相似文献

6.

一种改进的基于记忆的自适应汉语语言模型

张俊林孙乐孙玉芳《中文信息学报》2005,19(1):9-14

基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析,我们认为作者在书写文章的时候,除了常常使用前文中出现过的词汇外,为了避免用词单调,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外,一篇文章总是围绕某个主题展开,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展,利用汉语义类词典,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能,与n元语言模型相比困惑度下降了4011% ,有效地增强了语言模型的自适应性。相似文献

7.

基于主题语言模型的中文信息检索系统研究

张俊林孙乐孙玉芳《中文信息学报》2005,19(3):15-21

准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K2Means 聚类算法”来对文档集合进行聚类,通过引入Aspect Model 结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek2Mercer 模型方法相比较,主题语言模型检索系统的平均精度提高大约16117 % ,召回率提高大约 9164 %。相似文献