首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 470 毫秒
1.
准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K2Means 聚类算法”来对文档集合进行聚类,通过引入Aspect Model 结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek2Mercer 模型方法相比较,主题语言模型检索系统的平均精度提高大约16117 % ,召回率提高大约 9164 %。  相似文献   

2.
本文提出一种深度学习与关联模式挖掘融合的查询扩展模型.该模型采用基于Copulas函数的支持度-置信度评价框架挖掘初检伪相关反馈文档集中扩展词,构建统计扩展词集,利用深度学习工具对初检文档集进行词向量语义学习训练得到词向量扩展词集,将统计扩展词集和词向量扩展词集融合得到最终扩展词.该模型不仅考虑来自统计分析与挖掘的扩展词与原查询间的关联信息,还考虑扩展词在文档中的上下文语义信息,扩展词质量得到较好地改善.在NTCIR-5 CLIR语料的实验结果表明,本文扩展模型能提高信息检索性能,其MAP和P@5平均增幅高于近年现有同类查询扩展方法.本文扩展模型可用于跨语言检索系统,以提高其性能.  相似文献   

3.
廖祥文  刘德元  桂林  程学旗  陈国龙 《软件学报》2018,29(10):2899-2914
观点检索是自然语言处理领域中的一个热点研究课题.现有的观点检索模型在检索过程中往往无法根据上下文将词汇进行知识、概念层面的抽象,在语义层面忽略词汇之间的语义联系,观点层面缺乏观点泛化能力.因此,提出一种融合文本概念化与网络表示的观点检索方法.该方法首先利用知识图谱分别将用户查询和文本概念化到正确的概念空间,并利用网络表示将知识图谱中的词汇节点表示成低维向量,然后根据词向量推出查询和文本的向量并用余弦公式计算用户查询与文本的相关度,接着引入基于统计机器学习的分类方法挖掘文本的观点.最后利用概念空间、网络表示空间以及观点分析结果构建特征,并服务于观点检索模型,相关实验表明,本文提出的检索模型可以有效提高多种检索模型的观点检索性能.其中,基于统一相关模型的观点检索方法在两个实验数据集上相比基准方法在MAP评价指标上分别提升了6.1%和9.3%,基于排序学习的观点检索方法在两个实验数据集上相比于基准方法在MAP评价指标上分别提升了2.3%和14.6%.  相似文献   

4.
基于词汇树的词袋模型(Bag-of-Words)表示算法是目前图像检索领域中的主流算法.针对传统词汇树方法中空间上下文信息缺失的问题,提出一种基于空间上下文加权词汇树的图像检索方法.该方法在词汇树框架下,首先生成SIFT点的空间上下文信息描述.然后利用SIFT点间的空间上下文相似度对SIFT间的匹配得分进行加权,得到图像间的相似度.最后,通过相似度排序完成图像检索.实验结果表明,该方法能够大幅度提高图像检索的性能,同时,对大规模图像库有较好的适用性.  相似文献   

5.
复合事件处理系统多节点处以及系统外部生成的大量的、连续到达的事件,通过规则匹配、推理等方法对事件模式进行检测,连续输出经过组合后的复合事件,以触发相应的后继处理。事件查询语言是规约事件模式的声明性语言,事件代数决定了事件查询语言的表达能力,同时也间接影响了事件检测的性能。因此,在权衡检测性能与事件查询语言的表达能力时,深入分析事件代数是非常重要的手段。基于White事件代数,扩展了事件代数的形式化框架,在形式化框架中考虑复合事件在更精细的时间关系下的语义定义,以增强事件代数的表达能力,同时考虑与应用相关的事件选择和消费策略-上下文策略,以提高事件检测的性能。讨论了InforSIB事件代数的代数性质,提出的上下文策略非常适合用于实时监控等领域,且具有良好的代数性质,保证了复合事件检测的时间和空间复杂度是有界的。  相似文献   

6.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

7.
物联网产生的数据具有大数据特征,而这些数据难以用现有数据处理技术进行有效处理.作为物联网中间件的核心技术,复杂事件处理技术具备大数据的海量、复杂性等特征和实时处理的需求.上下文敏感是复杂事件处理引擎的重要特征.提出一种高效的面向物联网的分布式上下文敏感复杂事件处理架构和方法.该方法使用模糊本体进行上下文建模,以支持事件的不确定性及模糊事件查询问题.以基于模糊本体的查询和基于相似性的分布式推理为基础,生成复杂事件查询规划,并通过查询重写,把上下文相关查询转换为上下文无关子查询.根据不同的事件模型和上下文划分数据,并通过优化和多级并行来提高性能.实验结果表明该方法能够处理模糊事件上下文,对于面向物联网的分布式上下文敏感复杂事件处理具有比一般方法更好的性能和可伸缩性.  相似文献   

8.
中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长查询的问题。为了解决上述两个问题,该文提出了一种支持混合语言的并行纠错方法。该方法通过对混合语言统一编码,建立统一编码语言模型和异构字符词典树,并根据语言特点制定相应的编辑规则对查询词语进行统一处理,其中,针对中文长查询,提出双向并行的纠错模型。为了并行处理查询语句,我们在字符词典树和语言模型的基础上提出了逆向字符词典树和逆向语言模型的概念。模型中使用的训练语料库是从用户查询日志、网页点击日志、网页链接信息等文件中提取的高质量文本。实验表明,与单向查询纠错相比,支持混合语言的并行纠错方法在准确率上提升了9%,召回率降低了3%,在速度上提升了40%左右。  相似文献   

9.
P2P技术被广泛的用于网络节点之间的文件共享与搜索.采用P2P的搜索技术可以有效地提高了共享资源的深度和广度,但往往存在仅支持弱语义(甚至缺乏语义)共享的局限性.针对这一弱点,在研究和分析基于查询条件概率的统计语言模型的基础上,引入机器翻译领域中的统计翻译模型,改进统计语言模型的经典算法——一元语言模型,提出基于概率翻译方法的一元语言模型检索技术,并将改进的语义信息检索算法引入基于超级节点(super-peer)的P2P信息共享模型,建立支持语义的P2P信息共享模型,改善文件共享与检索性能.理论分析及原型系统验证了利用此模型来实现P2P网络语义文档共享的有效性.  相似文献   

10.
针对目前生活中涌现的海量语音数据,人们对语音检索技术准确度的要求越来越高。主要研究了汉语连续语音检索任务中,基于转换音节网格的研究方法。针对语音检索系统中置信度计算的问题,提出了一种基于音节间互信息的置信度计算方法,并将其用于网格结构的语音检索系统中。该方法能够有效地利用上下文之间的互信息量,从而更准确、合理地描述汉语语言模型。实验结果表明,用提出的方法建立转换音节网格来进行语音检索,其检出率(FOM)比后验概率法和N-best法有较大幅度的提高。得到的汉语语音检索系统其FOM最高可以达到83.7%。  相似文献   

11.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
  相似文献   

12.
该文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配信息,实现了基于义原搭配信息的文本隐性语义特征提取方法。在结合传统的上下文特征后,应用隐最大熵原理进行文本中多义词的词义消歧。实验结果表明,采用文中所提方法对十个多义动词进行词义消歧,正确率提高了约4%。  相似文献   

13.
事件检测(ED)是信息抽取领域中最重要的任务之一,旨在识别文本中特定事件类型的实例。现有的ED方法通常采用邻接矩阵来表示句法依存关系,然而邻接矩阵往往需要借助图卷积网络(GCN)进行编码来获取句法信息,由此增加了模型的复杂度。为此,提出了融合句法信息的无触发词事件检测方法。通过将依赖父词及其上下文转换为位置标记向量,并在模型源端以无参数的方式融入依赖子词的单词嵌入来加强上下文的语义表征,而不需要经过GCN进行编码;此外,针对触发词的标注费时费力的问题,设计了基于多头注意力机制的类型感知器,以对句子中潜在的触发词进行建模,实现无触发词的事件检测。为了验证所提方法的性能,在ACE2005数据集以及低资源越南语数据集上进行了实验。其中,在ACE2005数据集上与图变换网络事件检测(GTN-ED)方法相比,所提方法的F1值提升了3.7%;在越南语数据集上,与二分类的方法类型感知偏差注意机制神经网络(TBNNAM)相比,所提方法的F1值提升了9%。结果表明,通过在Transformer中融入句法信息能有效地连接句子中分散的事件信息来提高事件检测的准确性。  相似文献   

14.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

15.
单词嵌入表示学习是自然语言处理(NLP)中最基本但又很重要的研究内容, 是所有后续高级语言处理任务 的基础. 早期的单词独热表示忽略了单词的语义信息, 在应用中常常会遇到数据稀疏的问题, 后来随着神经语言模 型(NLM)的提出, 单词被表示为低维实向量, 有效地解决了数据稀疏的问题. 单词级的嵌入表示是最初的基于神经 网络语言模型的输入表示形式, 后来人们又从不同角度出发, 提出了诸多变种. 本文从模型涉及到的语种数的角度 出发, 将单词嵌入表示模型分为单语言单词嵌入表示模型和跨语言单词嵌入表示模型两大类. 在单语言中, 根据模 型输入的颗粒度又将模型分为字符级、单词级、短语级及以上的单词嵌入表示模型, 不同颗粒度级别的模型的应用 场景不同, 各有千秋. 再将这些模型按照是否考虑上下文信息再次分类, 单词嵌入表示还经常与其它场景的模型结 合, 引入其他模态或关联信息帮助学习单词嵌入表示, 提高模型的表现性能, 故本文也列举了一些单词嵌入表示模 型和其它领域模型的联合应用. 通过对上述模型进行研究, 将每个模型的特点进行总结和比较, 在文章最后给出了 未来单词嵌入表示的研究方向和展望.  相似文献   

16.
基于CRFs和跨事件的事件识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,提出基于CRFs模型的触发词识别方法。在后一阶段,为提高事件类型识别的效果,将跨事件理论应用于中文事件类型识别。实验结果表明,该方法能提高系统性能,F值分别提高到66.3和62.0。  相似文献   

17.
Term mismatch is a common limitation of traditional information retrieval (IR) models where relevance scores are estimated based on exact matching of documents and queries. Typically, good IR model should consider distinct but semantically similar words in the matching process. In this paper, we propose a method to incorporate word embedding (WE) semantic similarities into existing probabilistic IR models for Arabic in order to deal with term mismatch. Experiments are performed on the standard Arabic TREC collection using three neural word embedding models. The results show that extending the existing IR models improves significantly baseline bag-of-words models. Although the proposed extensions significantly outperform their baseline bag-of-words, the difference between the evaluated neural word embedding models is not statistically significant. Moreover, the overall comparison results show that our extensions significantly improve the Arabic WordNet based semantic indexing approach and three recent WE-based IR language models.  相似文献   

18.
In this paper, we introduce the backoff hierarchical class n-gram language models to better estimate the likelihood of unseen n-gram events. This multi-level class hierarchy language modeling approach generalizes the well-known backoff n-gram language modeling technique. It uses a class hierarchy to define word contexts. Each node in the hierarchy is a class that contains all the words of its descendant nodes. The closer a node to the root, the more general the class (and context) is. We investigate the effectiveness of the approach to model unseen events in speech recognition. Our results illustrate that the proposed technique outperforms backoff n-gram language models. We also study the effect of the vocabulary size and the depth of the class hierarchy on the performance of the approach. Results are presented on Wall Street Journal (WSJ) corpus using two vocabulary set: 5000 words and 20,000 words. Experiments with 5000 word vocabulary, which contain a small numbers of unseen events in the test set, show up to 10% improvement of the unseen event perplexity when using the hierarchical class n-gram language models. With a vocabulary of 20,000 words, characterized by a larger number of unseen events, the perplexity of unseen events decreases by 26%, while the word error rate (WER) decreases by 12% when using the hierarchical approach. Our results suggest that the largest gains in performance are obtained when the test set contains a large number of unseen events.  相似文献   

19.
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析,我们认为作者在书写文章的时候,除了常常使用前文中出现过的词汇外,为了避免用词单调,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外,一篇文章总是围绕某个主题展开,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展,利用汉语义类词典,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能,与n元语言模型相比困惑度下降了4011% ,有效地增强了语言模型的自适应性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号