首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征。在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词语或字符串之间的相似度计算。提出了一种文本片段化机制(TSM)进行文档检索,首先将每个候选文档划分成片段,再计算查询语句与文档片段之间的相关度,所使用的相关度匹配方案考虑了语义和词频等因素,筛选出关键的文本片段并得出相关片段比率,综合这些片段信息计算查询与文档之间的相关性得分,从而获取Top-K文档集。针对Glasgow信息检索专用数据集的实验结果表明,利用文本片段化机制进行文本匹配可以提高信息检索的性能。  相似文献   

2.
查询词之间的距离较为接近的文档,相关的可能性更大,将这种距离信息用于信息检索模型的构造可有效提高检索的性能。然而直接估计查询词在文档中的距离需要大量的训练文本,且计算复杂度高。该文提出了一种结合句子级别检索的信息检索模型,将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。标准数据集上的实验结果表明所提出的模型可以取得较好的性能。  相似文献   

3.
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。该文首先以TREC Microblog数据为基础,从分析微博文档和微博查询两方面出发,得出微博检索与传统文本检索之间的两点不同: 一是微博文档相较于网页具有很多独有的特征;二是微博查询属于时间敏感查询,即在排序时除了考虑文本的语义相似度,还需要考虑时间因素,将这类方法统称为时间感知的检索技术。这两点差异使得已有的信息检索技术不能满足微博搜索的需求。该文主要介绍了近年来这两方面的相关研究: 首先描述了微博本身的多种特征以及基于这些特征提出的检索方法;然后以传统信息检索过程为主线,分别介绍了将时间信息用于文本表示、文档先验、查询扩展三方面的排序模型,最后总结了已有工作并且对未来研究内容进行了展望。  相似文献   

4.
于静  吴国全  卢燚 《计算机应用》2010,30(6):1664-1667
现有政务信息检索系统存在两个主要问题:一是采用基于关键词匹配的检索技术忽略了对用户检索条件的语义理解,缺乏对于文档实质内涵的准确描述;二是由于对政务信息领域知识的缺乏,用户不能很好地提出符合自己检索需求的检索条件。针对这些问题,提出了基于领域本体的政务信息检索方法,即通过引入本体,在文档和检索条件间建立一种基于本体的由本体中的词汇集组成的结构化的对应关系;设计并实现了相应的概念词抽取、检索条件扩展算法以及原型系统。实验结果表明,该方法在检索的查全率和查准率方面都有很大的提升。  相似文献   

5.
传统的话题模型假设每个文档只属于一个话题,而实际情况下一个文档往往与多个话题相关。应用LDA 模型将文档表示为多个话题的组合,并基于语言模型框架,提出了一种基于 LDA 的混合模型用于文本信息的 Ad hoc 检索。该方法将 LDA 模型与文档模型相结合,与聚类模型相比,在保持较低的计算复杂度外,具有很高的检索性能,因此更适用于大规模文档集的信息检索。  相似文献   

6.
温丹丽  刘春雨  宋煜  杨光红 《微计算机信息》2007,23(36):230-231,182
本文针对具有海量数据的超大规模文献集检索问题,深入分析与探讨了信息检索的理论和方法,对容量巨大、响应时限要求高等特征的超大规模文献集设计了相关的检索方法,并阐述了该方法的实现过程及相关算法。  相似文献   

7.
师雪霖  赵英 《计算机应用》2008,28(9):2324-2327
语义网格所需要处理的信息通常为半结构化数据,如何以合理的模型表示这些半结构化数据并实现高效查询处理,是语义网格要解决的核心问题之一。提出了一种基于资源描述框架(RDF)的半结构化数据表示模型,并设计了相应的信息检索机制。最后介绍了一个基于化工计算网格平台的,实现了化工领域知识共享与检索的化工语义网格架构的设计与实现。  相似文献   

8.
针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。  相似文献   

9.
提出了一种面向专业领域的概念集模型,该模型相比其他语义信息检索模型,使用更为简单实用的语义构建方法,对用户提供的检索关键词在其相应的专业领域进行了更为丰富的语义描述。在此研究成果的基础上,对面向专业领域的概念集模型和信息检索模型进行了集成,提出了一种基于领域概念集的信息检索模型,通过实验验证该模型的有效性。  相似文献   

10.
基于本体的Web智能检索研究   总被引:1,自引:0,他引:1       下载免费PDF全文
尹焕亮  孙四明  张峰 《计算机工程》2009,35(23):44-46,4
针对传统的基于关键词信息检索方式存在的问题,提出一种基于领域本体的语义检索模型,在建立本体概念与文档内容关联关系的基础上,对用户的查询输入预处理,利用本体计算两者的相似程度,给出与查询请求相关的排序后的文档。通过搭建基于本体的Web智能检索原型系统,验证了该模型的有效性。  相似文献   

11.
We seek to leverage an expert user's knowledge about how information is organized in a domain and how information is presented in typical documents within a particular domain-specific collection, to effectively and efficiently meet the expert's targeted information needs. We have developed the semantic components model to describe important semantic content within documents. The semantic components model for a given collection (based on a general understanding of the type of information needs expected) consists of a set of document classes, where each class has an associated set of semantic components. Each semantic component instance consists of segments of text about a particular aspect of the main topic of the document and may not correspond to structural elements in the document. The semantic components model represents document content in a manner that is complementary to full text and keyword indexing. This paper describes how the semantic components model can be used to improve an information retrieval system. We present experimental evidence from a large interactive searching study that compared the use of semantic components in a system with full text and keyword indexing, where we extended the query language to allow users to search using semantic components, to a base system that did not have semantic components. We evaluate the systems from a system perspective, where semantic components were shown to improve document ranking for precision-oriented searches, and from a user perspective. We also evaluate the systems from a session-based perspective, evaluating not only the results of individual queries but also the results of multiple queries during a single interactive query session.  相似文献   

12.
A Knowledge-Based Approach to Effective Document Retrieval   总被引:3,自引:0,他引:3  
This paper presents a knowledge-based approach to effective document retrieval. This approach is based on a dual document model that consists of a document type hierarchy and a folder organization. A predicate-based document query language is proposed to enable users to precisely and accurately specify the search criteria and their knowledge about the documents to be retrieved. A guided search tool is developed as an intelligent natural language oriented user interface to assist users formulating queries. Supported by an intelligent question generator, an inference engine, a question base, and a predicate-based query composer, the guided search collects the most important information known to the user to retrieve the documents that satisfy users' particular interests. A knowledge-based query processing and search engine is devised as the core component in this approach. Algorithms are developed for the search engine to effectively and efficiently retrieve the documents that match the query.  相似文献   

13.
当前,信息检索系统通常采用“检索+重排序”的多级流水线架构。基于稠密表示的检索模型已经被逐渐应用到第一阶段检索中,并展现出了相比传统的稀疏向量空间模型更好的性能。考虑到第一阶段检索所需的高效性,大多数情况下这些模型的基本架构都采用双编码器(bi-encoder)结构。对查询和文档进行独立的编码,分别得到一个稠密表示向量,然后基于获得的查询和文档表示使用简单的相似度函数计算查询-文档对的得分。然而,在编码文档的过程中查询是不可知的,而且文档相比查询而言通常包含更多的主题信息,因此这种简单的单表示模型可能会造成严重的文档信息丢失。为了解决这个问题,设计了一种新的语义检索方法 MDR(multi-representation dense retrieval),将文档编码成多个稠密向量表示。同时,该方法引入覆盖率(coverage)机制来保证多个向量之间的差异性,从而能够覆盖文档中不同主题的信息。为了评估模型性能,在MS MARCO数据集上进行了段落排序和文档排序任务,实验结果证明了MDR方法的有效性。  相似文献   

14.
This paper presents a knowledge-based approach to managing and retrieving personal documents. The dual document models consist of a document type hierarchy and a folder organization. The document type hierarchy is used to capture the layout, logical and conceptual structures of documents. The folder organization mimics the user's real-world document filing system for organizing and storing documents in an office environment. Predicate-based representation of documents is formalized for specifying knowledge about documents. Document filing and retrieval are predicate-driven. The filing criteria for the folders, which are specified in terms of predicates, govern the grouping of frame instances, regardless of their document types. We incorporated the notions of document type hierarchy and folder organization into the multilevel architecture of document storage. This architecture supports various text-based information retrieval techniques and content-based multimedia information retrieval techniques. The paper also proposes a knowledge-based query-preprocessing algorithm, which reduces the search space. For automating the document filing and retrieval, a predicate evaluation engine with a knowledge base is proposed. The learning agent is responsible for acquiring the knowledge needed by the evaluation engine.  相似文献   

15.
Genetic Mining of HTML Structures for Effective Web-Document Retrieval   总被引:3,自引:1,他引:3  
Web-documents have a number of tags indicating the structure of texts. Text segments marked by HTML tags have specific meaning which can be utilized to improve the performance of document retrieval systems. In this paper, we present a machine learning approach to mine the structure of HTML documents for effective Web-document retrieval. A genetic algorithm is described that learns the importance factors of HTML tags which are used to re-rank the documents retrieved by standard weighting schemes. The proposed method has been evaluated on artificial text sets and a large-scale TREC document collection. Experimental evidence supports that the tag weights are well trained by the proposed algorithm in accordance with the importance factors for retrieval, and indicates that the proposed approach significantly improves the performance in retrieval accuracy. In particular, the use of the document-structure mining approach tends to move relevant documents to upper ranks, which is especially important in interactive Web-information retrieval environments.  相似文献   

16.
基于本体的信息检索是实现知识检索的有效途径,针对目前本体支持的形式化概念还不足以表示不完备知识的问题,提出一种基于Rough本体的信息检索方法,该方法中本体以本体信息系统的形式表示。用户提交关键字查询后,首先结合基于关键字检索的方法在预先定义的语义文档空间中搜索文档,然后利用关联搜索的方法来搜索与关键词关联的个体集和属性集,以属性集作为等价类构造Rough本体的近似空间,最后通过近似空间计算个体集和文档集的相似度,根据相似度高低对文档排序。实验表明,此方法比基于关键字和基于经典本体的方法有更高的查准率。  相似文献   

17.
查询扩展是提高检索效果的有效方法,传统的查询扩展方法大都以单个查询词的相关性来扩展查询词,没有充分考虑词项之间、文档之间以及查询之间的相关性,使得扩展效果不佳。针对此问题,该文首先通过分别构造词项子空间和文档子空间的Markov网络,用于提取出最大词团和最大文档团,然后根据词团与文档团的映射关系将词团分为文档依赖和非文档依赖词团,并构建基于文档团依赖的Markov网络检索模型做初次检索,从返回的检索结果集合中构造出查询子空间的Markov网络,用于提取出最大查询团,最后,采用迭代的方法计算文档与查询的相关概率,并构建出最终的基于迭代方法的多层Markov网络信息检索模型。实验结果表明 该文的模型能较好地提高检索效果。  相似文献   

18.
该文针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;再次,用基于关键词相关度与主题相关度相结合的方法估计查询与样本集中文档的综合相关度,进而估计查询与各集合的相关度;最后,选择相关度最高的M个集合进行检索。实验部分采用RmP@nMAP作为评价指标,对集合选择方法的性能进行了验证。实验结果表明该方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。  相似文献   

19.
现有汉越跨语言新闻事件检索方法较少使用新闻领域内的事件实体知识,在候选文档中存在多个事件的情况下,与查询句无关的事件会干扰查询句与候选文档间的匹配精度,影响检索性能。提出一种融入事件实体知识的汉越跨语言新闻事件检索模型。通过查询翻译方法将汉语事件查询句翻译为越南语事件查询句,把跨语言新闻事件检索问题转化为单语新闻事件检索问题。考虑到查询句中只有单个事件,候选文档中多个事件共存会影响查询句和文档的精准匹配,利用事件触发词划分候选文档事件范围,减小文档中与查询无关事件的干扰。在此基础上,利用知识图谱和事件触发词得到事件实体丰富的知识表示,通过查询句与文档事件范围间的交互,提取到事件实体知识表示与词以及事件实体知识表示之间的排序特征。在汉越双语新闻数据集上的实验结果表明,与BM25、Conv-KNRM、ATER等基线模型相比,该模型能够取得较好的跨语言新闻事件检索效果,NDCG和MAP指标最高可提升0.712 2和0.587 2。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号