首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 171 毫秒
数字图书馆中的检索式扩展方法研究*   总被引:3,自引:0,他引:3  
研究了自动检索式扩展的几个基本方法,包括虚拟相关反馈、文本聚合、语词关联等,简单分析了这些方法在数字图书馆环境中的应用可行性,在此基础上介绍了基于概念的检索式扩展方法。介绍了一个将传统图书馆中的知识组织工具(分类法、主题词表)加以改造来构造知识网络以支持基于概念的检索式扩展的方法。  相似文献   

一种面向元数据描述文档的概念检索方法   总被引:2,自引:0,他引:2  
元数据描述文档在检索过程中仍然存在着检索词和描述词不匹配的问题。文章在准确描述领域概念之间关系的概念网的支持下,给出检索词和描述词的概念相关度计算公式,提出了用概念扩展来提高检索质量的新方法。并在领域概念网和元数据描述的科技文档组成的实验系统上,进行了多种实验和分析,证明了检索方法的有效性。  相似文献   

针对水利信息资源目录服务中资源发现服务高查全率和实时性的需求,提出一种基于语义扩展的分布式元数据检索方法。该方法利用《水利公文主题词表》构建领域本体结合知网语义实现专业词汇与通用词汇的扩展,定义语义推理规则和词汇相关度,并结合推理机以支撑查询词汇的扩展;同时定义相似度阈值和选择方法防止"语义飘移"以保证检索查准率;采用语义相似度和文本相似度相结合的方式进行结果排序;基于MapReduce对索引创建和查询处理进行并行化改造提高检索的处理效率。  相似文献   

利用本体和主题词表的集成构造RDF模式   总被引:2,自引:0,他引:2  
张哲 《微机发展》2004,14(3):87-92
为了减少语义异构性带来的信息发现、集成和存取的困难,论述了语义元数据构造,提出了通过集成现存的本体和主题词表构造元数据模式的一种新方法,即元数据模式构造的两步方法:在主题词T和本体O之间的连接关系规范;概念主题词表的自动构造。这个集成基于主题词术语和本体概念之间的蕴含关系规范,并产生具体应用的元数据模式,同时也给出利用结果元数据模式构造RDF模式的过程。  相似文献   

随着Internet和数字图书馆这两种基础信息资源的大量涌现,用户在检索信息之前,如何选择合适的目标站点来提交查询,从而降低查询代价、提高查询效率,已经成为一个重要任务。这个问题更加一般的说法是“数据源定位”或“数据库发现”。元数据是关于数据的数据,数字图书馆中,每个数据文档由其元数据描述,元数据是数字图书馆管理、检索数据以及在各个层面上实现互操作的重要手段。文章提出了一种基于元数据的数据源发现算法,并在召回率、检索精度等方面对这种算法作了评价。  相似文献   

为了减少语义异构性带来的信息发现、集成和存取的困难,论述了语义元数据构造,提出了通过集成现存的本体和主题词表构造元数据模式的一种新方法,即元数据模式构造的两步方法:在主题词T和本体O之间的连接关系规范;概念主题词表的自动构造.这个集成基于主题词术语和本体概念之间的蕴含关系规范,并产生具体应用的元数据模式,同时也给出利用结果元数据模式构造RDF模式的过程.  相似文献   

基于近似匹配模型的XML元数据检索   总被引:4,自引:0,他引:4  
将无序标签树匹配分解为树结构匹配和标签语义匹配,采用树结构匹配和语义匹配相结 合的方法,对传统树匹配算法进行了改进,提出了近似匹配概念,并针对元数据XML描述的结构化特 征,设计了一种基于三层近似匹配模型的元数据检索方法。这种检索方法可根据用户的不同需求有 效地调节元数据的查准率和查全率。最后构造了基于近似匹配模型的元数据查询系统原型,实验证 明近似匹配模型在元数据检索应用中具有可行性和高效性。  相似文献   

元数据管理应用系统的设计与实现   总被引:5,自引:2,他引:3       下载免费PDF全文
刘峰  顾君忠 《计算机工程》2009,35(11):29-31
针对元数据管理和使用过程中存在的问题,提出一种新的元数据管理应用系统,介绍系统架构和层次划分机制,通过JAXB技术和O/R映射框架实现基于XML文档元数据的存储管理,利用HQL查询语言访问和检索元数据记录,并利用MVC模式实现基于Web的元数据检索。实验结果表明,该设计方案有效可行。  相似文献   

基于语义网的电子政务文档智能检索   总被引:7,自引:0,他引:7  
杨芳  杨振山 《计算机应用》2005,25(10):2434-2435
根据电子政务文档的特点,通过电子政务主题词表计算检索文档集和检索请求的特征值。讨论了检索文档集和检索请求的相似性计算,从而找到与检索请求匹配的文档。根据电子政务文档元数据的语义组织形式,研究电子政务文档元数据的检索问题。对所检索到的文档进行元数据语义组织,从而在语义推理的基础上实现智能检索。  相似文献   

政务信息资源检索是政务信息资源共享系统的重要功能。以《政务信息资源目录体系》国家标准中的XML元数据规范为依据,提出了一种支持关键词搜索的政务信息资源检索算法。该算法使用政务信息资源XML元数据的TF*IDF和关键词依赖度对检索结果集进行语义相关度排序,通过改进关键词倒排索引来提高检索效率。实验表明该算法在检索结果排序精确度和时间效率上均有较大的改善,可有效提高政务信息资源利用的数据共享服务能力。  相似文献   

HIRMA results in an integrated environment to query any full-text document base system by natural language sentences, obtaining a document set relevant to the query. Moreover it supports hypertextual navigation into the document base. The system uses content based document representation and retrieval methods.

In this paper the representation framework as well as the retrieval and navigation algorithms used by HIRMA are described. Coverage and portability throughout application domains are supported by the lexical acquisition system ARIOSTO that provides the suitable lexical knowledge and processing methods to extract from raw text the semantic representation of documents content.  相似文献   

基于Berkeley DB的文献检索设计与实现   总被引:1,自引:0,他引:1  
该文基于开放源码的BerkeleyDB嵌入式数据库,采用不支持事务的BerkeleyDBConcurrentDataStore配置,实现了科学文献的全文检索和组合字段检索功能。该检索系统有着低开销,高效率的优点。为了进一步进行比较,文章还设计实现了基于Oracle数据库的检索方案。从实验结果来看,前者无论在开销还是检索效率上都远远优于后者,完全可适用于中大规模的各种检索应用。  相似文献   

We present a generic and flexible framework for building geoscientific metadata portals independent of content standards for metadata and protocols. Data can be harvested with commonly used protocols (e.g., Open Archives Initiative Protocol for Metadata Harvesting) and metadata standards like DIF or ISO 19115. The new Java-based portal software supports any XML encoding and makes metadata searchable through Apache Lucene. Software administrators are free to define searchable fields independent of their type using XPath. In addition, by extending the full-text search engine (FTS) Apache Lucene, we have significantly improved queries for numerical and date/time ranges by supplying a new trie-based algorithm, thus, enabling high-performance space/time retrievals in FTS-based geo portals. The harvested metadata are stored in separate indexes, which makes it possible to combine these into different portals. The portal-specific Java API and web service interface is highly flexible and supports custom front-ends for users, provides automatic query completion (AJAX), and dynamic visualization with conventional mapping tools. The software has been made freely available through the open source concept.  相似文献   

由于目前的内容寻址存储系统在应用时存在很大的问题,提出基于标准HTTP协议开发CAS存储接口,将文件操作映射为URI资源的标签语义,实现基于Web的文件存取和操作;并借助Web服务器和数据库建立功能强大的CAS客户端,基于元数据模型并结合数据库对文件对象进行描述,通过Web界面进行文件对象浏览和搜索,构建具有强大内容导航和搜索能力的对象存储系统.  相似文献   

Personalization is increasingly vital especially for enterprises to be able to reach their customers. The key challenge in supporting personalization is the need for rich metadata, such as metadata about structural relationships, subject/concept relations between documents and cognitive metadata about documents (e.g. difficulty of a document). Manual annotation of large knowledge bases with such rich metadata is not scalable. As well as, automatic mining of cognitive metadata is challenging since it is very difficult to understand underlying intellectual knowledge about document automatically. On the other hand, the Web content is increasing becoming multilingual since growing amount of data generated on the Web is non-English. Current metadata extraction systems are generally based on English content and this requires to be revolutionized in order to adapt to the changing dynamics of the Web. To alleviate these problems, we introduce a novel automatic metadata extraction framework, which is based on a novel fuzzy based method for automatic cognitive metadata generation and uses different document parsing algorithms to extract rich metadata from multilingual enterprise content using the newly developed DocBook, Resource Type and Topic ontologies. Since the metadata generation process is based upon DocBook structured enterprise content, our framework is focused on enterprise documents and content which is loosely based on the DocBook type of formatting. DocBook is a common documentation formatting to formally produce corporate data and it is adopted by many enterprises. The proposed framework is illustrated and evaluated on English, German and French versions of the Symantec Norton 360 knowledge bases. The user study showed that the proposed fuzzy-based method generates reasonably accurate values with an average precision of 89.39% on the metadata values of document difficulty, document interactivity level and document interactivity type. The proposed fuzzy inference system achieves improved results compared to a rule-based reasoner for difficulty metadata extraction (∼11% enhancement). In addition, user perceived metadata quality scores (mean of 5.57 out of 6) found to be high and automated metadata analysis showed that the extracted metadata is high quality and can be suitable for personalized information retrieval.  相似文献   

基于Hibernate搜索的数据库全文检索系统   总被引:3,自引:0,他引:3       下载免费PDF全文
现有关系数据库提供的全文检索服务对中文支持有限且难以检索二进制文本。针对该问题,在开源的数据库检索工具Hibernate搜索的基础上,提出一个对关系数据库内容进行全文检索的模型。该全文检索模型可支持关系对象映射、多种复合查询、中英文混合检索,并能检索以二进制格式存储在数据库中的多种类型的文本文件。  相似文献   

基于规则的HTML文档元数据提取   总被引:2,自引:0,他引:2  
狄涤  周竞扬  潘金贵 《计算机工程》2004,30(9):85-86,165
提出了一种基于规则提取HTML文档元数据的方法,介绍了规则的语法、语义和规则库的设计,研制了一个原型系统MEDES(MEtaData Extracting System),实现HTML文档元数据的自动提取。文章的最后给出了实验结果和评价,并指出进一步的工作。  相似文献   

提出了一种基于确定性随机分布算法分布元数据和数据对象的可伸缩集群文件系统结构。其中目录路径属性与目录对象分离的元数据管理方法,在提高系统性能、均衡元数据分布和减少元数据迁移等方面具有明显优势。提出的基于动态区间映射的数据对象布局算法,支持权重分布和副本,在均衡数据分布和最少迁移数据方面都具有统计意义上的最优性,有效解决了动态存储系统的数据均衡分布与可伸缩性问题。  相似文献   

A new approach is described for the fusion of multimedia information based on the concept of active documents advertising on the Internet, whereby the metadata of a document travels in the network to seek out documents of interest to the parent document and, at the same time, advertises its parent document to other interested documents. This abstraction of metadata is called an adlet, which is the core of our approach. Two important features make this approach applicable to multimedia information fusion, information retrieval, data mining, geographic information systems, and medical information systems: 1) any document, including a Web page, database record, video file, audio file, image and even paper documents, can be enhanced by an adlet and become an active document; and 2) any node in a nonactive network can be enhanced by adlet-savvy software and the adlet-enhanced node can coexist with other nonenhanced nodes. An experimental prototype provides a testbed for feasibility studies in a hybrid active network  相似文献   

全文索引技术在办公自动化系统中的应用研究*   总被引:1,自引:0,他引:1  
基于内容的全文检索技术广泛用于全文数据库中,为解决办公自动化系统中大量文档的快速检索问题,将SQL Server全文索引技术运用于办公自动化系统开发中.首先介绍SQL Server全文检索流程,然后将其运用于办公自动化系统文档管理模块公文搜索的实现中,全文检索用户界面层采用ASP.NET开发,应用业务层采用C#语言.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号