共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
利用interMedia-Text实现基于Web的大型文档库的全文检索模块 总被引:2,自引:0,他引:2
随着电子文档的大量使用,如何建立高效的文档管理系统成为一个新的研究方向。本文就实现管理系统的一项技术难点,即大型文档的全文检索功能,提出了一种新的可行方案。其核心选用了最新的数据库技术interMedia—Text,并结合XSQL Servlet实现了基于Web的功能模块。 相似文献
3.
一般的搜索引擎仅仅能够搜索网页内容而无法检索网页内附加的文档内容,本文着重阐述了文档内容检索方法,并结合学校实际情况,完成了校园文档全文检索与管理系统的设计。 相似文献
4.
As a important application of the Full-Text retrieval system, document relevancy has powerful function. In this paper, a document relevancy method based on the Full-Text retrieval system is presented, which is deeply discussed from two aspects, content relevancy and properties relevancy. This system is proved to have good response time and precision by tests. It has great prospects in application area. 相似文献
5.
6.
一个中文全文检索系统的设计与实现 总被引:3,自引:0,他引:3
本文主要分析了中文全文检索技术中有关内容,并根据此内容设计实现了一个中文全文检索系统。在此系统中,提出了相应的数据采集方案、数据存储格式、数据压缩和信息检索机制。 相似文献
7.
Lucene是一个优秀的开源全文搜索技术框架,Lucene全文检索技术是信息检索领域广泛使用的基本技术.它能非常方便地为各种应用程序加入全文索引和搜索功能,快速有效地索引企业累积的大量信息资源.文中阐述了建立全文检索系统的必要性,介绍了全文检索系统的概念并分析了Lucene的系统结构和实现机制,最后结合实际应用背景从系统设计、文挡抽取、索引的建立及执行检索等方面介绍了全文检索系统的实现过程.实践证明,该系统的查准率、查询速度等均达到了设计要求. 相似文献
8.
基于Lucene的中文全文检索系统的研究与设计 总被引:4,自引:0,他引:4
提出了一种基于Lucene的中文全文检索系统模型.通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度.在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率.实验数据表明,该系统在检索中文网页时,在效率,精度和结果处理等方面性能明显提高. 相似文献
9.
Lucene是基于Java语言实现的开源的软件项目。全文索引和检索是非常高效的信息检索技术,可以方便快捷地融入到应用程序中以增加索引和搜索功能。在应用方面,本文主要工作是各种文档全文数据库的设计与实现。最终实现了系统对中英文资料的数据检索功能。 相似文献
10.
11.
12.
该文介绍了一个应用于结构化文本的检索系统的设计和实现。根据结构化文本的自身特点,提出了文本层次划分的思想,通过层次划分,文本被切分成有结构信息和有独立思想内容的文本单元。在此基础上,对检索词实现结构化索引,同时采用层次匹配嵌套查询的方法来实现用户自然语言的提问查询。用户查询处理中还综合运用了查询结果优化、相似查询、二次查询及反馈评分的技术。 相似文献
13.
简要介绍Web挖掘的概念、分类及其功能,重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等。最后对Web文本挖掘的应用领域作了展望。 相似文献
14.
全文检索是一种非常有效的信息检索技术,本文通过分析全文检索系统中静态索引技术的优缺点,以及影响动态性能的因素,提出一种基于互关联后继树模型的动态索引技术,该技术在不影响查询效率等性能的情况下,很好地解决了索引的更新问题,提高了索引的动态性能。 相似文献
15.
一种有效的大型资料全文检索技术 总被引:1,自引:0,他引:1
蒋云良 《计算机工程与设计》1998,19(5):25-28
针对大型资料全文检索的速度要求,在分析现有曲型算法的基础上,提出了文本一模式匹配向量的概念。 相似文献
16.
A map of text documents arranged using the Self-Organizing Map (SOM) algorithm (1) is organized in a meaningful manner so
that items with similar content appear at nearby locations of the 2-dimensional map display, and (2) clusters the data, resulting
in an approximate model of the data distribution in the high-dimensional document space. This article describes how a document
map that is automatically organized for browsing and visualization can be successfully utilized also in speeding up document
retrieval. Furthermore, experiments on the well-known CISI collection [3] show significantly improved performance compared
to Salton's vector space model, measured by average precision (AP) when retrieving a small, fixed number of best documents.
Regarding comparison with Latent Semantic Indexing the results are inconclusive.
This revised version was published online in August 2006 with corrections to the Cover Date. 相似文献
17.
18.
对于图文不符的低质量网页,现有基于文本关键词的图片搜索引擎得到的结果相关性较差。针对该问题,将图片的相似性聚类信息和网页质量因素融入文本分析过程,提出一种基于相似图片聚类的Web文本特征算法。根据网页Page Rank值、关键词HTML标签类别和关键词词性类别的不同,分别赋予其不同的权重并代入计算公式,综合计算得到整个聚类中全部关键词的文本特征值,并通过设置阈值提取高相关文本。对随机选取的15个图片聚类进行实验分析,结果表明,与百度和谷歌目前所用图片搜索算法相比,该算法能够准确地找到反映图片内容的真实文本,提高图片检索的精度。 相似文献