共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
3.
4.
5.
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。 相似文献
6.
全文检索系统的数据预处理研究 总被引:1,自引:0,他引:1
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。 相似文献
7.
对基于Java的全文检索工具包lucene的索引研究 总被引:4,自引:0,他引:4
详细介绍了Lucene的倒排索引原理,认识了索引机制架构和典型的索引文件操作,对如何提高索引的性能进行了比较深入的研究. 相似文献
8.
9.
10.
基于Lucene的中文倒排索引技术的研究 总被引:2,自引:0,他引:2
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。 相似文献
11.
崔国华 《计算机与数字工程》2000,28(2):43-45
随着计算机软硬件技术的进步以及Hypertext模型的出现,使全文检索技术应用普及的可能性变为现实。本文分析了全文检索技术应用于图书情报领域信息管理的意义,并给出了实施全文检索机制的主要步骤和方法。 相似文献
12.
针对大型行业或集团内部对于异构数据库全文检索服务的应用需求,通过分析分布式数据库全文检索系统建设的一般性方案,提出了一个基于P2P模式的架构,设计和实现了一个以JXTA作为交互框架的数据库全文检索系统,并对系统的各主要功能模块、交互流程和在系统实现过程中所涉及到的关键技术进行了详细的描述。该系统在不改变文件资料原有存储格局的基础上,有效地解决了分布式环境下异构数据库全文检索的问题。 相似文献
13.
概率潜在语义检索模型使用统计的方法建立“文档—潜在语义一词”之间概率分布关系并利用这种关系进行检索。本文比较了在概率潜在语义检索模型中不同中文索引技术对检索效果的影响,考察了基于分词、二元和关键词抽取三种不同的索引技术,并和向量空间模型作了对比分析。实验结果表明:在概率潜在语义检索模型中,词的正确切分能提高检索的平均精度。 相似文献
14.
LIANG Yong-lin 《数字社区&智能家居》2008,(20)
Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。介绍了基于Java的全文检索引擎Lucene,包括下载与配置,以及基本概念与实现机制,然后将Lucene与传统数据库系统的输入输出机制与查询技术作了比较。 相似文献
15.
基于对等网络的全文信息检索 总被引:7,自引:0,他引:7
基于P2P方式的信息检索系统相对集中式信息检索系统具有成本低、可扩展性好、容错性强等优点,可充分挖掘网络边缘资源,并可提供个性化的信息服务.然而如何在纯P2P环境下实现全文检索并定位目标资源是困难的.当前,采用广播查询的非结构化P2P(如Gnutella)和采用分布式Hash表方式的结构化P2P(如CAN)都不能直接实现全文检索.针对这个问题,提出了基于质心法的结构化P2P全文检索方法,并建立模拟程序,对检索的性能与效果做了初步的验证.实验结果表明了该方法的有效性. 相似文献
16.
根据形状相似性的书法内容检索 总被引:4,自引:1,他引:4
提出了一种根据形状相似性来检索书法字的算法:将扫描的书法作品先切分成单个书法字,并提取轮廓特征;接着由形状相似性算法计算相似度,然后按相似程度大小显示同一字不同的书法风格.实验证明,该算法具有很好的效果. 相似文献
17.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。 相似文献
18.
随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理,以及潜在语义索引模型的原理、设计、实现,进行了研究和探讨,同时开发了一个适合中文信息检索的系统原型。对系统进行了测试,取得了较好的实验效果。 相似文献
19.
汉语文本形式结构分析及其标引算法 总被引:3,自引:0,他引:3
本文从形式化的角度讨论了汉语文本的形式结构及有关的基本概念,给出了文本的标题、子标题、段落及其层次结构的一种划分与标记方法,提出了规范的与准规范的文本等概念,并以此为基础讨论了文本形式结构的标引问题,给出了两个标引算法。本文阐明的方法和结果对汉语文本的全文文本标引及结构化分析具有直接的现实意义。 相似文献