首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
随着文献资料应用的日益广泛,全文检索系统已成为文献资料管理系统的重要部分。针对文献资料管理的需要,提出了基于Lucene的文献全文检索系统的设计与实现方案。首先对全文检索、Lucene和J2EE等技术进行研究,然后进行了系统的功能设计和结构分析,最后进行了系统的编程实现和对比测试。系统采用J2EE架构开发,实现了文献资料的管理、存储、索引和检索功能,满足了文献资料的管理和检索要求。对比测试结果表明:相对数据库查询方式,本系统具有明显的时间和资源优势。  相似文献   

2.
分析了建立数字化公文数据库的必要性,阐述了Lucene技术在建立数字化公文数据库全文检索系统中具备的优势,介绍了应用Lucene技术实现数字化公文全文检索的整个流程及关键技术.  相似文献   

3.
基于数据库原理和数据库软件评价的原则,制定出数据库软件评价指标体系,并运用该指标体系比较了WINISIS、TRS全文检索系统、博菲特的数字文献制作管理与全文检索发布系统以及金信桥的全文信息库管理系统的性能,分析和评价了这四个软件的突出特点.  相似文献   

4.
本文讨论了概率模型的新闻资料全文检索及排序算法。作者提出了全文检索最佳排序原则。根据Neyman-Pearson决策规则导出了最优检索规则,并据此提出了BI概率模型和相应的最优查询。根据用户对被检索文献作出的相关判断,对构造BI模型的最优查询所需参数进行了估计。最后,提出了基于概率模型的全文检索排序算法。  相似文献   

5.
Lucene是一个用Java语言写的优秀的全文索引引擎工具包。分析了Lucene的系统结构及检索原理,并且用一个实例来说明如何实现全文检索,为应用开发提供了一种增加全文搜索的方法。最后提出了采用接口的方式来统一处理html、pdf、word和Excel等多种常用文档的思路。  相似文献   

6.
Lucene是一个用Java语言写的优秀的全文索引引擎工具包。分析了Lucene的系统结构及检索原理,并且用一个实例来说明如何实现全文检索,为应用开发提供了一种增加全文搜索的方法。最后提出了采用接口的方式来统一处理html、pdf、word和Excel等多种常用文档的思路。  相似文献   

7.
利用全文检索以及模糊二分查找技术,以词典的全文索引为基础,在辅助翻译系统中实现了词典的模糊查询和的快速录入功能,使词典查询更灵活,输入速度更快。  相似文献   

8.
全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原理及其开发应用方法。然后介绍中文分词和基本算法及Lucene的相关技术。  相似文献   

9.
介绍了Lucene全文索引及检索技术,包括它的组成结构和检索机制,提出了一个基于Lucene进行全文检索的方案.最后用一个实例进行了说明.  相似文献   

10.
介绍基于电力公司的多格式文档智能信息搜索系统的设计原理和实现过程。通过PHP调用COM组件以及Java调用jar包,将其他多种文档转换为".txt"文档,经过分词并采用基于句子特征的文本摘要生成方法生成".txt"文档的摘要。检索模块采用基于词索引的全文检索,信息检索模型采用空间向量模型,实现摘要及高相关度句子的输出。  相似文献   

11.
利用数据压缩原理,对文本文档进行压缩,由压缩比公式得到相似值.与基于统计的传统方法相比,它具有简便快速的特点.  相似文献   

12.
在跨媒体检索中,准确利用异构媒体间的语义相关性是制约检索性能优劣的关键因素之一。提出改进的核典型相关分析(modified kernel canonical correlation analysis, MKCCA)模型,以改善跨媒体检索性能:抽取图像的尺度不变特征变换(scale invariant feature transform, SIFT)与描述灰度纹理的空间包络特征(GIST),抽取文本的词频(term frequency, TF)特征;精选映射核,把图像、文本特征映射到高维可分空间中,生成核矩阵;基于典型相关分析(canonical correlation analysis, CCA)方法挖掘图像、文本核矩阵间的非线性语义相关性;设置语义相关度阈值,降低语义噪声干扰并优选核心典型相关分量,更准确、鲁棒地刻画图像与文本间的语义关联。试验表明:SIFT-TF特征组合整体表现最好,而MKCCA模型与高斯核(gauss kernel)配合可获取最优跨媒体检索性能,其图像检索文本与文本检索图像的平均精度均值(mean average precision, MAP)较次优指标分别提升3.06%和1.18%。  相似文献   

13.
To overcome the problem that the confusion between texts limits the precision in text re- trieval, a new text retrieval algorithm that decrease confusion (DCTR) is proposed. The algorithm constructs the searching template to represent the user' s searching intention through positive and negative training. By using the prior probabilities in the template, the supported probability and anti- supported probability of each text in the text library can be estimated for discrimination. The search- ing result can be ranked according to similarities between retrieved texts and the template. The com- plexity of DCTR is close to term frequency and mversed document frequency (TF-IDF). Its distin- guishing ability to confusable texts could be advanced and the performance of the result would be im- proved with increasing of training times.  相似文献   

14.
概述了方正书版大样转PDF文件方法的优缺点。根据科技期刊开放存取以及复制、检索的需要,提出一种用ps22pdf、Foxit PDF Editor等软件实现方正大样转双层PDF文件的新方法,所生成的PDF文件具有精确重现原文、能复制原文本和全文检索等功能,为科技期刊的开放存取提供了一种新的实现手段。  相似文献   

15.
传统的信息检索方法一般都采用对文本内容的词频进行分析的统计方法,这种索引方法仅仅考虑词语在文本中的出现率,因此不能抽取出表达文本语义的索引词。为了解决这个问题,本文提出了一种新的信息检索方法,即基于概念的权重索引方法。本方法引入了概念类的概念,并且提出了用概念之间存在的关系来表示文档中的词汇和概念的语义重要度。本方法比单纯的词汇信息更能体现文本的概念特征,提高信息检索的性能;同时还能降低文本向量的维数,减少计算量,提高检索效率。  相似文献   

16.
短信文本信息流携带了丰富的信息资源,为了在其中挖掘出多热点事件,给出了短信文本信息流在线分检算法,该方法采用特征词共现频度定义了特征词相关度,综合前导信息集合及信息产生频率定义了短信文本相似度。并且每聚类到一个时间段后,就对已聚类的短信文本进行周期分类。该算法对大数量短文本信息流的多热点事件检索效率较高,同时减少了信息的误检和漏检的可能性。在真实数据集上与Single Pass算法进行比较实验,其结果表明了各项指标都有不同程度的提高。  相似文献   

17.
短信文本信息流携带了丰富的信息资源,为了在其中挖掘出多热点事件,给出了短信文本信息流在线分检算法,该方法采用特征词共现频度定义了特征词相关度,综合前导信息集合及信息产生频率定义了短信文本相似度。并且每聚类到一个时间段后,就对已聚类的短信文本进行周期分类。该算法对大数量短文本信息流的多热点事件检索效率较高,同时减少了信息的误检和漏检的可能性。在真实数据集上与Single-Pass算法进行比较实验,其结果表明了各项指标都有不同程度的提高。  相似文献   

18.
借鉴心理学中人眼视觉注意力模型,提出了一种新的基于显著区域的图像检索方法。利用局部结合整体的方式,既考虑图像显著区域中稳定所具有的稳定特征,同时充分利用区域间相互位置关系反映图像的整体构成,并结合二者进行检索,从而克服了传统检索中不能解决的图像旋转、平移、亮度变化等缺点。实验表明,利用显著区域进行检索有利于消除图像背景对检索结果的影响,与传统基于全局的检索方法相比,本文提出的方法具有更好的检索性能。  相似文献   

19.
针对卷积神经网络在提取图像特征时所造成的特征信息损失以及降低高维度图像特征数据等问题,提出了一种改进卷积神经网络的图像检索优化方法。该方法首先利用融合的卷积层提取图像特征,并在融合的卷积层之间添加全连接层以减少特征信息的丢失;然后采用主成分分析法对高维的特征数据进行有效的降维处理;最后采用余弦相似度的方法进行相似度匹配,以实现相似图像的检索。采用当前经典的LeNet-L、LeNet-5等方法同文中方法在图像检索性能评价指标上进行对比实验。实验结果表明,所提出的检索方法比文中其他检索方法在查全率和平均查准率方面提高了3%27.3%。  相似文献   

20.
词义消歧(WSD)一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣。本文对大规模真实文本进行了词义消歧研究,采用了基于依存分析改进贝叶斯分类模型的有指导词义消歧方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号