首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
为满足办公室环境下文档资料全文检索的需求,本文基于Lucene API研究并实现了一个面向海量文档数据的全文检索系统,该系统能实现对DOC、XLS和PDF等各种格式文档资料的全文检索。系统在实际办公室资料检索应用的结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足办公室人员快速检索文档资料的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

2.
随着互联网的快速发展,基于关键词字面匹配的信息检索方式已不能满足人们的需求。叙词表中所包含的语义关系是提高查全率和查准率的重要途径,如果将叙词表控制机制引入当前网络信息检索工具中,必然能在一定程度上提高信息检索的效率。利用叙词表中的词间关系,提出了一种计算叙词间语义相似度的方法,借助查询扩展的思想,设计了一种基于叙词表的林业信息语义检索模型。最后,以林业汉英拉叙词表中两个类目范畴作为实验对象,分别同百度搜索引擎、农业叙词表中所使用的检索方法进行了比较,实验结果表明,提出的检索模型可以更好地利用叙词表来改进传统的基于关键字的检索方式,此外,所提模型是通用的,为叙词表在网络信息系统中的应用提供了一种新的思路。  相似文献   

3.
吴代文 《网友世界》2013,(18):11-11
为满足办公室环境下文档资料全文检索的需求,本文基于LuceneAPI研究并实现了一个面向海量文档数据的全文检索系统,该系统能实现对DOC、XLS和PDF等各种格式文档资料的全文检索。系统在实际办公室资料检索应用的结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足办公室人员快速检索文档资料的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

4.
胡麒  何华灿 《微计算机信息》2007,23(33):215-216,171
词表检索技术是中文信息处理中的基础性工作,本文在分析现有技术优缺点的基础上,对基于链地址法的中文词表哈希函数的设计作了深入分析,提出了评价不同的哈希函数的性能指标,并给出了这些性能指标在理论上的期望值。以这些性能指标为根据,本文给出了一些具体的中文词表哈希函数。实践表明,这些函数有较高的效率。  相似文献   

5.
本文根据大型新闻资料计算机检索系统对中文检索语言的具体要求,对中文叙词表结构进行了分析,并以抽象代数为工具进行推导,给出了一种叙词表结构的形式化的描述方式。提出可利用叙词表的内在结构关系,将一个大的叙词表(集)划分成若干个彼此独立的小叙词集。提出了一种用于计算机检验叙词表构造正确性的多值关系矩阵算法。文中还研究了中文叙词表的中文处理、建表、正确性判定、词表维护和资料检索等问题。  相似文献   

6.
为了更好地利用 CERN 数据管理与信息共享系统技术平台为广大科研人员提供 CERN 生态学数据资源服务,CERN 需要不断完善平台性能,其中包括提高用户搜索 CERN 数据资源的效率和可靠性.本文分析了导航式搜索、主题式搜索、关键词搜索等三种不同检索方式的优缺点,着重讨论了在关键词搜索方式中,如何引入叙词表的技术来提高检索结果的查全率、查准率和响应速度.本文介绍了叙词表的概念与 CERN 生态学叙词表的构建方法,以及如何将开源的叙词表管理系统 TemaTres 进行汉化,包括关键词浏览功能、关键词扩展功能、关键词自动填完功能、利用扩展后的关键词去搜索 CERN 生态学数据资源元数据功能的汉化实现过程.通过建设并运行 TemaTres 汉化版叙词表管理信息系统,增强了 CERN 生态学元数据中关键词编撰的可控性和规范性,并且在 CERN 数据资源元数据检索中引入了关键词之间的某些简单的语义关系,比如等级关系、等同关系 (即同义词)、相关关系,从而改善了搜索效率,同时为下一步构建生态学本体打下良好基础.  相似文献   

7.
通过对图纸检索现状的分析与研究 ,提出了一种以图纸中全部文字信息为对象的图纸全文检索办法 ,进而提出了将设计文档资料引入全文数据库以实现图纸高命中率检索的新思路。  相似文献   

8.
本文简述了国内外词表管理系统的发展状况,介绍了词表管理系统TMS和MLTMS的设计思想和功能,讨论了词表管理系统与情报检索系统的相互作用。利用词表管理系统编制词表可以大大提高编表效率,更好地发挥词表的动态性。词表管理系统与检索系统融合在一起,既可提高检索效果,又可为词表的修改提供实际的统计数据。  相似文献   

9.
该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用词表进行了文档信息检索的对比实验。实验结果表明,用该文所述方法确定的蒙古文停用词表进行蒙古文文档检索,比用英文停用词翻译成蒙古文进行蒙古文文档检索的准确率更高。  相似文献   

10.
基于后控技术的中小型竞争情报系统自动标引研究   总被引:2,自引:0,他引:2  
为企业设计构建竞争情报系统对支持企业做出适时恰当的决策起着重要作用.基于此.为中小企业设计了一种基于Internet的竞争情报系统,为企业提供智能检索、个性化的服务等;为了提高系统的检索效率,改善系统功能,通过分析后控词表与本体之间的关系,提出一种利用本体编制后控词表的方法.对竞争情报系统中的文献进行检索效果比较,表明采用后控制的文献检索其查全率有显著的提高.  相似文献   

11.
This work presents the bioMine system, a full‐text natural language search engine for biomedical literature. bioMine provides search capabilities based on the full‐text content of documents belonging to a database composed of scientific articles and allows users to submit their search queries using natural language. Beyond the text content of articles, the system engine also uses article metadata, empowering the search by considering extra information from picture and table captions. bioMine is publicly released as an open‐source system under the MIT license.  相似文献   

12.
The tremendous success of the World Wide Web is countervailed by efforts needed to search and find relevant information. For tabular structures embedded in HTML documents, typical keyword or link-analysis based search fails. The Semantic Web relies on annotating resources such as documents by means of ontologies and aims to overcome the bottleneck of finding relevant information. Turning the current Web into a Semantic Web requires automatic approaches for annotation since manual approaches will not scale in general. Most efforts have been devoted to automatic generation of ontologies from text, but with quite limited success. However, tabular structures require additional efforts, mainly because understanding of table contents requires the comprehension of the logical structure of the table on the one hand, as well as its semantic interpretation on the other. The focus of this paper is on the automatic transformation and generation of semantic (F-Logic) frames from table-like structures. The presented work consists of a methodology, an accompanying implementation (called TARTAR) and a thorough evaluation. It is based on a grounded cognitive table model which is stepwise instantiated by the methodology. A typical application scenario is the automatic population of ontologies to enable query answering over arbitrary tables (e.g. HTML tables).  相似文献   

13.
为实现可以为单独的网站提供站内全文检索系统,采用独立于专门商业搜索引擎的lucene索引结构,在网站所有的文档基础上,首先使用xml转换技术建立文档的xml索引格式,抽取文档主题内容写入xml链表,索引过程基于伪xml的存储布局。该方法在检索效率和准确性上都有很明显的提高,并且扩展性好,在原来解析链的结构下可以直接增加新的解析模块。  相似文献   

14.
层次化的分布式路由结构   总被引:1,自引:0,他引:1       下载免费PDF全文
在P2P网络中构建了一种基于IPv6地址的分层的分布式路由结构,旨在解决目前分布式哈希表路由中存在的物理拓扑与逻辑网络不匹配造成的寻路效率低下的问题。通过对IPv6地址的每一级集聚标识符分别进行哈希构建节点标识符,构造有层次的节点路由信息,使得物理上相邻的节点在覆盖网络中也邻近,很好地降低了查询时延,提高了查询效率。同时,使用多关键字映射,根据各关键字的权值建立分层的关键字标识符,形成相似节点的聚集,实现了多关键字查找,并提高了相似数据的查询效率。  相似文献   

15.
针对XML数据的半结构化特征,设计了一种新型索引模块,给出一种新的倒排索引方法.构建了利用高频路径产生的索引机制,通过映射实现表和XML数据文档之间的转换,实现XML 数据库事务处理和版本控制,最后通达基于XML的路径查找算法的实验,快速检索出文件中重要的连续路径.  相似文献   

16.
A key task for students learning about a complex topic from multiple documents on the web is to establish the existing rhetorical relations between the documents. Traditional search engines such as Google® display the search results in a listed format, without signalling any relationship between the documents retrieved. New search engines such as Kartoo® go a step further, displaying the results as a constellation of documents, in which the existing relations between pages are made explicit. This presentation format is based on previous studies of single-text comprehension, which demonstrate that providing a graphical overview of the text contents and their relation boosts readers’ comprehension of the topic. We investigated the assumption that graphical overviews can also facilitate multiple-documents comprehension. The present study revealed that undergraduate students reading a set of web pages on climate change comprehended them better when using a search engine that makes explicit the relationships between documents (i.e. Kartoo-like) than when working with a list-like presentation of the same documents (i.e. Google-like). The facilitative effect of a graphical-overview interface was reflected in inter-textual inferential tasks, which required students to integrate key information between documents, even after controlling for readers’ topic interest and background knowledge.  相似文献   

17.
基于查询扩展的人名消歧   总被引:1,自引:0,他引:1  
针对现有很多基于特征的人名消歧方法不适用于文档本身特征稀疏的问题,提出一种借助丰富的互联网资源,使用搜索引擎查询并扩展出更多与文档相关特征的方法。首先根据搜索引擎的特性构建了四类查询规则,然后通过这些查询规则进行搜索并返回前k个文档,最后对这些文档使用文档频率(DF)方法进行特征选择,并将选择的特征加入到原文档中。实验证明,该方法能显著提高人名消歧系统的性能,平均F值由76%增加到81%。  相似文献   

18.
Web表格信息抽取模型的设计与实现   总被引:1,自引:0,他引:1  
Web表格作为一种简洁有效的数据信息表达方式,已广泛应用于Web页面中.现提出一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块三个模块组成,根据Web表格的结构标记和自定义的启发式规则来抽取表格信息.实验结果表明该模型能够很好地应用于Web表格信息的抽取.  相似文献   

19.
《Ergonomics》2012,55(4):593-610
Abstract

Measurements of head position, mechanical load at C7, and level of muscle EMG activity in the muscles of the neck were compared across six document positions in both a reading task and a typing (word processing) task. Source documents, identified as a primary visual task, were placed in two positions in front of the subject, flat on the table to each side of the keyboard, and on a document stand at each side of the keyboard. Each of the 20 subjects performed both a reading task and a typing task in each of these document positions while measurements were taken. It was found that the greatest variations in head position occurred in head rotation with documents flat on the table. This document position on each side also produced the greatest level of muscle tension in both the neck extensors and, to a lesser degree, the sternocleidomastoid muscles. In addition, greater variability between document position measures was found in the typing condition.  相似文献   

20.
基于Lucene的文档管理系统的设计与实现   总被引:1,自引:0,他引:1  
目前各种类型的文档被广泛地使用,但是如何快速地从众多的文档中查找到我们所需要的信息成为当前研究的热点.基于现有的开源搜索框架Lucene而设计并实现的一款文档管理系统,不仅可以实现对Word、Excel、PowerPoint等文档的检索,而且还能够实现对PDF、HTML、RTF、TXT等文档进行检索.从而能够方便的查找各类文档,进而更好地实现对各类文档的管理.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号