首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
随着信息检索技术的发展,通用文献检索系统已经取得了极大的成功,但在这些系统中进行文献检索工作时,检索结果的范围太广,无法满足科研人员专业化、个性化的需求。以水利领域为例,进行面向特定领域的文献检索系统的设计。具体地,对现有水利科技文献进行分类,形成水利领域词典,构建水利文献专有数据库;采用全文检索的技术和框架Lucene,对数据库中的水利文献建立双语索引,实现中英互搜功能。  相似文献   

2.
图书馆文献规模的不断扩大,为用户找寻需求文献带来了极大难度,为提高对于文献信息的处理效率和检索精度,基于卷积神经网络研究图书馆文献自动检索机器人。设计包括RFID硬件单元、卷积神经网络硬件加速器单元与文献信息存储器单元的硬件部分。设计包括文献信息自动分类模块、文献检索应用服务定义与协议描述模块与文献自动检索模块的软件部分。实验数据显示:设计机器人文献自动分类迭代次数与文献自动检索时延均低于最高限值,文献自动检索精度范围为74.07%~88.89%,说明文献信息的处理效率、机器人的应用效率及检索精度均较高,能满足读者的文献检索需求。  相似文献   

3.
基于内容主题的语料库系统设计与实现*   总被引:2,自引:0,他引:2  
介绍了笔者开发制作的汉语语料库系统的特点、功能,以及系统的设计思想和总体框架。系统以2001年《人民日报》电子文本为生语料,实现了KWIC索引、词表生成、词语搭配分析和分类主题词提取等功能,能够为网络信息挖掘和自然语言处理研究提供丰富而真实的语言环境。  相似文献   

4.
刘颖  胡明涵 《计算机应用》2008,28(5):1359-1361
设计并实现了带有主题词结构的政府公文分类系统,在公文分类预处理过程中充分利用主题词所携带的类别信息,运用随机关键词产生技术和Bootstrapping学习方法对公文文本特征空间进行转换并降维,实现了一个不同于传统的文本分类预处理过程,使公文分类系统的性能得到了提高。基于随机关键词产生技术和Bootstrapping 学习方法的公文分类系统分类效果优于普通分类器。  相似文献   

5.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

6.
中文全文检索算法研究   总被引:3,自引:0,他引:3  
一、全文检索系统概况1.全文检索系统应具备的功能一个全文检索系统至少要具备两个功能:仅)文章中任何有意义的词、字都可被检索。(2)能对检索词之间的关系进行位置和逻辑操作。另外,全文检索的响应时间应在秒级以内。2.本文全文检索的善本技术目前,已开发出来的中文全文检索系统,其基本技术可归纳为三种类型:(1)主题词索弓I。建立主题词索弓l。根据主题词典,对检索条件中切分后相邻自由词组合与主题词典匹配。得出检索结果。(2)词索引。对源文献进行分词,抽词,用切分获得的词的全体作为标引词,据此建立索引文件。检索时…  相似文献   

7.
一、综述人们对科学情报和信息的需求不仅限于简单的文献检索,而且需要从简单的查询、检索中得到大量直接或间接的信息,从中得到启迪。高温结构陶瓷信息咨询系统是基于上述思想进行信息综合处理的一个偿试,不仅可以实现通常的检索功能而且通过一些智能化处理,向研究人员提供有关领域内的综合性参考信息。二、系统环境 1.出于对所研制系统存贮空间,运行速度以及可移植性和现有设备等因素的考虑,我们选用IBM一PC机做为该系统的硬件基础。 2.高温结构陶瓷信息咨询系统是建立在CA文献基础上的,需要处理的信息量较大,因此  相似文献   

8.
建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据分布、查询负载等特征进行建模和学习,有效的提升了索引性能,并减少了访存空间开销.本文从学习型索引技术的基础模型入手,对RMI基础模型实现原理、构造和查询过程进行了分析,并总结了基础模型的优点和存在的问题;以此为基础,按照索引结构特点对学习型索引技术进行分类,从索引创建方式和更新策略两方面对学习型索引技术进行了系统梳理,并对比分析了典型学习型索引技术的优点及不足之处.另外,本文总结了学习型索引技术的扩展研究.最后,对学习型索引的未来研究方向进行了展望.  相似文献   

9.
搜索引擎的文档预处理技术研究   总被引:2,自引:0,他引:2  
搜索引擎的Robots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询。设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化。在建立索引文件之前,文档里的信息要进行处理,例如文档标准、索引词抽取,这个过程称为项目规格化(Item normalization)。项目规格化分三步进行:建立可搜索的数据库结构,禁用词表使用和抽取词干。  相似文献   

10.
中文信息的全文检索技术   总被引:3,自引:0,他引:3  
前言信息时代产生了大量的信息,迫切需要一个高效的信息整理工具,以便快速得到自己的所需要的文章。全文检索以其易用和实用件、成为包括中义在内的信息领域的基本技术。1、全文检索技术的基本概念全文检索的基本工作方式是能够将所有包含检索词的文献检索出来,不管这个词出现在文献的什么位置;或者说文献中的任意一个词都可以作为检索到该文献的条件。全文检索是信息检索的一个分支。70、80年代得到迅速的发展,90年代以来得到广泛的应用。信息检索的核心在于在文献信息中抽取出能够表现文献的特征值,对特征值建立索引,以便于检索时…  相似文献   

11.
本文在提出规范、规范满等概念的基础上,对CC4神经网络分类计算的倾向性进行了理论分析.并针对文本分类,提出了基于神经网络的增量式索引建立方法,将以词频为基础表示的高维文本信息映射到低维数据空间.为了使CC4神经网络应用到基于文本信息空间索引的分类技术中,将空间索引变换为CC4神经网络可以接受的二值向量,使得CC4神经网络以空间索引为基础,进行文档分类.最后给出了相应的实验结果.  相似文献   

12.
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。  相似文献   

13.
通过对农业信息分类技术的研究,依据农业信息分类标准,设计农业信息知识库;在农业信息知识库基础上,对倒排索引技术进行研究,利用lucene构建倒排索引,开发设计农业科技知识检索系统,为坐席人员提供信息检索支持。坐席人员通过该检索系统,解答农牧民生产过程中遇到的实际问题,充分发挥农业科技知识对农牧民生产的指导作用。  相似文献   

14.
科技工作者往往要借助于索引进行手检,以从正文中获得所需信息,然而,,国内出版的该物大都缺少索引,手工做索引又存在很多问题,因而必须发展计算机辅助自动标引技术,自动做索引。本系统能够在全文范围内检索关键词,并抽提相关内容,建立索引,实现了一定的智能化。本系统同时提供了一个编辑、选择的集成编辑器。  相似文献   

15.
MIS智能处理的近似评判法及其算法研究   总被引:5,自引:2,他引:3  
在MIS的设计中,智能技术的使用是一大趋势。本文围绕关键词的智能检索问题,完成了三部分工作:1)探讨了近似评判方法在MIS智能处理中的应用;2)给出了一个文献检索智能接口的设计;3)提出了相应的规则索引算法。  相似文献   

16.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

17.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

18.
这是一个适于在微型计算机系统上运行的情报检索方案,在1MB软盘支持下,可管理文献5—6万篇,基本上满足一个中、小型研究机构的情报管理要求。 可供检索的关键词有流水号、作者名、文献发表日期、期刊名、文种和属性。属性类似于主题词,可达65535个。提问表达式通过五级人机对话形成,不懂数理逻辑的人也可以方便地利用关键词检索。检索结果成批输出,除以上关键词所提供的近似自然语言信息外,还提供文献篇名和简要文摘。 整个系统实质上由两个文件组成,一个是每个索引项由关键词和文献项指针组成的索引文件,另一个是每个文献项由篇名、文摘和使用计数组成的文献文件。检索时首先是在索引文件中查到目标索引项,然后根据其中的文献项指针得到在文献文件中的相应文献项,再并装成输出表输出。插入和删除也是更新这两个文件。 本系统只是在一个文献范围相对较为集中,检索词量较少的场合下进行实验。微型机系统在情报检索应用中的潜力、它能管理的文献量以及检索的速度,肯定还可以大大提高。  相似文献   

19.
为了从这些海量信息中获取“有用的、满足用户需求的信息”,提出一个基于Hadoop和Lucene技术的分布式检索系统架构处理Web电子产品信息检索。利用Hadoop的Map和Reduce实现分布式索引文件的存储,通过Lucene检索技术实现索引文件的访问,从而提高信息检索的效率。并且针对Lucene_Hadoop架构存在粗粒度检索问题,提出了一种细粒度检索方法,减少了系统建立索引的时间。实验表明基于Hadoop和Lucene的分布式检索系统在Web电子产品信息中具有较高的检索性能。  相似文献   

20.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号