首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
随着信息化水平不断提高,如何从海量信息中快速查找到所需内容成为当前研究的热点。在分析了全文检索基本原理及Lucene系统结构的基础上,提出了MVC模式的全文检索模型,并实现了一套基于SSH框架技术和Lucene搜索引擎的全文检索系统。该系统扩展了检索文档支持的类型,不仅可以对TXT、MS Office各类文档进行检索,还能对PDF、HTML、RTF等文档进行检索;改进了中文分词器,提高了中文分词效率与精确度;改善了人机交互方式,实现了类似百度、谷歌搜索显示功能,对搜索关键字进行高亮显示。系统应用情况表明,该系统创建索引效率高,具有较快的检索速度以及较全的检索结果。  相似文献   

2.
海量异构文档的快速检索和细粒度、多维度控制信息的存取是面向行业应用的文档管理系统中的关键。本文利用Lucene.net开源全文检索引擎和Oracle数据库,设计并实现了一个基于B/S架构,能够保存文档密级、分类等多种信息文档组织与检索系统,实现了对海量异构文档数据的快速检索和存取,并实现了文档数据的逐文档按角色分等级权限管理。  相似文献   

3.
图像语义的图形化标注和检索研究   总被引:1,自引:0,他引:1  
基于图像语义进行检索的目的是希望能够更好地从用户的角度出发,查找出与用户理解相一致的图像。针对目前图像语义检索过程中存在的问题,提出一个基于对象的图像语义内容标注模型和检索框架。首先利用分割算法获取图像中的语义对象区域,然后以MPEG-7标准中的语义描述方案为基础,利用图形化结构实现图像语义内容的标注。在检索过程中,用户把查询内容转化为图形化描述结构,通过提取该描述图的不同长度的路径信息形成查询文档,与图像库中的图像语义标注文档进行匹配实现图像检索。实验结果表明,提出的方法能够有效地实现基于语义的图像标注和检索,与全文检索相比,有较高的查全率和查准率。  相似文献   

4.
针对图像局部特征的词袋模型(Bag-of-Word,BOW)检索研究中聚类中心的不确定性和计算复杂性问题,提出一种由不同种类的距离进行相似程度测量的检索和由匹配点数来检索的方法。这种方法首先需要改进文档图像的SURF特征,有效降低特征提取复杂度;其次,对FAST+SURF特征实现FLANN双向匹配与KD-Tree+BBF匹配,在不同变换条件下验证特征鲁棒性;最后,基于这两种检索方法对已收集整理好的各类维吾尔文文档图像数据库进行检索。实验结果表明:基于距离的相似性度量复杂度次于基于匹配数目的检索,而且两种检索策略都能满足快速、精确查找需求。  相似文献   

5.
随着学校信息化的发展,学校拥有大量的纸质档案资料。这些档案资料由于存放散乱、分类不明、没有统一的管理,带来了检索不便、交流困难、易遗失、安全性差等问题。本文提出了一种基于.net学校电子文档系统实现纸质档案的电子化应用与管理。按目录分类文档以及定义每个目录的详细资料,划分各类型文档以及定义每个文档的关键索引,使用文档基本信息、索引信息和文档内容快速查找需要的文档,进而来提高档案管理的整体水平和档案管理的信息化建设。  相似文献   

6.
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。  相似文献   

7.
实现了VC++新建Word文档,以数字、字母、汉字、特殊符号等为例,设定多个查找替换项,实现对文档内容的批量查找替换。  相似文献   

8.
传统伪相关反馈容易产生“查询主题漂移”,有效避免“查询主题漂移”的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合.在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型.相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档.  相似文献   

9.
一种通过内容和结构查询文档数据库的方法   总被引:4,自引:0,他引:4       下载免费PDF全文
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与传统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效.  相似文献   

10.
基于中文分词的OWL—S/UDDI语义Web服务检索模型   总被引:2,自引:0,他引:2  
目前中文搜索引擎尚不能进行语义检索,经OWL-S语义扩展后的语义Web服务检索也未充分考虑中文词语之间无空格的特点.基于语义Web服务技术与中文分词技术,提出基于中文分词的OWL-S/UDDI语义Web服务检索模型.该模型对中文检索请求语句进行中文分词并附加语义,所生成的服务请求OWL-S文档与语义扩展UDDI中的OWL-S服务描述进行匹配,进而实现Web服务的动态查找与组合.实验结果表明,语义Web服务检索可提高Web服务发现的质量.  相似文献   

11.
A document management system consists of a collection of documents, usually in hard copy or on microfilm, and an index to the documents in that collection. The index, sometimes referred to as the document data base, is usually maintained on a computer. This index helps users determine which documents they need to retrieve and identifies the physical locations of these documents. This column discusses whether PCs are the appropriate platforms for document management systems and describes important hardware and software features of such a system and important requirements for effective system planning and management.  相似文献   

12.
本系统是在基于B/S(Browser/Server)架构思想的系统设计。本系统可以对车辆证件的基本信息、车辆证件类别、删除车辆证件信息等相关的一系列进行管理,体现了信息化管理的先进性,简洁方便的管理界面能够更好的对车辆证件管理进行系统化管理。  相似文献   

13.
Searching for similar document has an important role in text mining and document management. In whether similar document search or in other text mining applications generally document classification is focused and class or category that the documents belong to is tried to be determined. The aim of the present study is the investigation of the case which includes the documents that belong to more than one category. The system used in the present study is a similar document search system that uses fuzzy clustering. The situation of belonging to more than one category for the documents is included by this system. The proposed approach consists of two stages to solve multicategories problem. The first stage is to find out the documents belonging to more than one category. The second stage is the determination of the categories to which these found documents belong to. For these two aims -threshold Fuzzy Similarity Classification Method (-FSCM) and Multiple Categories Vector Method (MCVM) are proposed as written order. Experimental results showed that proposed system can distinguish the documents that belong to more than one category efficiently. Regarding to the finding which documents belong to which classes, proposed system has better performance and success than the traditional approach.  相似文献   

14.
To find a document in the sea of information, you must embark on a search process, usually computer-aided. In the traditional information retrieval model, the final goal is to identify and collect a small number of documents to read in detail. In this case, a single query yielding a scalar indication of relevance usually suffices. In contrast, document corpus management seeks to understand what is happening in the collection of documents as a whole (i.e. to find relationships among documents). You may indeed read or skim individual documents, but only to better understand the rest of the document set. Document corpus management seeks to identify trends, discover common links and find clusters of similar documents. The results of many single queries must be combined in various ways so that you can discover trends. We describe a new system called the Stereoscopic Field Analyzer (SFA) that aids in document corpus management by employing 3D volumetric visualization techniques in a minimally immersive real-time interaction style. This interactive information visualization system combines two-handed interaction and stereoscopic viewing with glyph-based rendering of the corpora contents. SFA has a dynamic hypertext environment for text corpora, called Telltale, that provides text indexing, management and retrieval based on n-grams (n character sequences of text). Telltale is a document management and information retrieval engine which provides document similarity measures (n-gram-based m-dimensional vector inner products) visualized by SFA for analyzing patterns and trends within the corpus  相似文献   

15.
为解决办公人员在进行文档写作时存在各种文本格式和内容错误的问题,设计基于深度学习的文本自动纠错系统,用于辅助办公人员的写作和校对工作;分析办公人员的文本纠错需求,并进行文本格式与内容纠错方法研究;设计系统由写作模板生成、文本格式纠错和文本内容纠错三个功能组成;首先,设计文本要素识别与检查算法并基于VBA技术实现文本格式校对;然后基于Seq2Seq深度学习模型训练字词、语法和标点符号查错模型完成公文内容纠错,并根据办公人员工作需求建立纠错辅助字库提升系统纠错准确率;最终,通过系统测试实验结果表明,设计系统能够极大地提升办公人员写作效率并减轻文本校对工作负担。  相似文献   

16.
随着 EAST 大科学工程的进行,产生了越来越多的项目文档,为了更有效的管理海量文档资料,文档共享,需要设计一个兼具丰富文档管理功能、强大用户管理功能以及完善权限控制功能的集成文档管理系统。通过PHP和MySQL设计控制逻辑和数据结构,实现文档的创建、修改、删除、查找、上传和下载等功能,采用轻量目录访问协议实现统一用户管理,采用基于角色的访问控制技术实现高级权限分配,并根据用户角色信息实现文档版本控制和工作流管理,最终满足EAST文档管理的需要。  相似文献   

17.
为了利用网络资源进行化学教学,提出了使用全文文档检索技术整合网络资源进行教学的模式。该技术由3部分组成:一是文档系统,各种格式的文档以文件的形式在服务器硬盘上使用文件系统进行组织。二是全文检索系统,使用Index Server对文档进行过滤和索引。三是检索系统,以IIS(Internet Information Server)为Web服务器,利用ADO访问Index Server数据库,使用ASP编程,实现检索和排序。实践证明该模式实现容易,操作简单,性能优秀,适合于大学化学教学。  相似文献   

18.
相似文档检索在文档管理中是很重要的,提出一种在大文档集中基于模糊聚类的快速高效的聚类方法,传统方法大都通过词与词之间的比较来检索文档,该方法让文档通过两层结构得出相似度。系统用预定义模糊簇来描述相似文档的特征向量,用这些向量估计相似度,由此得出文档之间的距离,系统应用了新的相似性度量方法,并通过实验证实了其可行性和高效性。  相似文献   

19.
The use of digital document management and processing is increasing. Traditional workflows of paper forms are being replaced by electronic workflows of digital documents. These workflows often require multiple signatures to be added to the documents for authorization and/or integrity. We describe examples of digital workflows that illustrate problems with digital signatures: i.e. the use of digital signatures across entire documents results in signatures that can be unnecessarily invalidated by subsequent modification of the document. We propose the use of fragment signatures, which reduce unnecessary invalidation of signatures and enable greater concurrency in workflows. Our approach is document‐centric and does not use a centralized database. We report on an implementation that allows fragment signatures over document fragments as well as the attachment (or embedding) of other documents. This allows collaborative or cooperative editing to occur on parts of a document without disturbing unrelated signatures. We describe the lessons learned from our deployments and offer further ways to embed such signatures into other document types. Copyright © 2010 John Wiley & Sons, Ltd.  相似文献   

20.
The paper deals with a wide class of structured documents that cannot be described using one or several models based on associations between the document fields and geometric elements. A formal model of such documents is described that is based on the concept of a multiset. Examples of structured documents of this class are given and a technique for the construction of models of structured documents is proposed. This technique is illustrated using an implementation of an automated document management system. Implemented algorithms for detecting document fields are described, and implementation problems are discussed.__________Translated from Programmirovanie, Vol. 31, No. 4, 2005.Original Russian Text Copyright © 2005 by Slavin.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号