首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 205 毫秒
1.
The Self Organizing Map (SOM) algorithm has been utilized, with much success, in a variety of applications for the automatic organization of full-text document collections. A great advantage of the SOM method is that document collections can be ordered in such a way so that documents with similar content are positioned at nearby locations of the 2-dimensional SOM lattice. The resulting ordered map thus presents a general view of the document collection which helps the exploration of information contained in the whole document space. The most notable example of such an application is the WEBSOM method where the document collection is ordered onto a map by utilizing word category histograms for representing the documents data vectors. In this paper, we introduce the LSISOM method which resembles WEBSOM in the sense that the document maps are generated from word category histograms rather than simple histograms of the words. However, a major difference between the two methods is that in WEBSOM the word category histograms are formed using statistical information of short word contexts whereas in LSISOM these histograms are obtained from the SOM clustering of the Latent Semantic Indexing representation of document terms.  相似文献   

2.
张纯青  陈超  邵正荣  俞能海 《计算机仿真》2008,25(1):134-137,239
在信息检索领域,相似度评价模型是一个重要的研究课题.基本的评价模型有布尔模型,向量空间模型和概率模型.后两种模型在许多的信息检索系统中被采用,但是它们都没有考虑查询词在文档中的位置信息对相似性度量起到的作用.一些研究考虑了诸如HTML标签之类的信息,但是确定加权系数的方案不是太理想.针对这些问题,文中提出了一种基于加权词频的相似度评价模型(Weighted Term Frequency Model,WTFM),而引入的权重系数可以通过模拟退火算法学习得到.实验结果表明,权重系数的引入提高了系统的相关度评价质量.  相似文献   

3.
分析了潜在语义模型,研究了潜在语义空间中文本的表示方法,提出了一种大容量文本集的检索策略。检索过程由粗粒度非相关剔除和相关文本的精确检索两个步骤组成。使用潜在语义空间模型对文本集进行初步的筛选,剔除非相关文本;使用大规模文本检索方法对相关文本在段落一级进行精确检索,其中为了提高检索的执行效率,在检索算法中引入了遗传算法;输出这些候选的段落序号。实验结果证明了这种方法的有效性和高效性。  相似文献   

4.
基于概率潜在语义分析的中文信息检索   总被引:1,自引:1,他引:0       下载免费PDF全文
罗景  涂新辉 《计算机工程》2008,34(2):199-201
传统的信息检索模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象,对召回率和准确率有不利的影响。概率潜在语义模型使用统计的方法建立“文档-潜在语义-词”之间概率分布关系并利用这种关系进行检索。该文将概率潜在语义模型用于中文信息检索,实验结果表明,概率潜在语义模型相对于传统的向量空间模型能够显著地提高检索的平均精度。  相似文献   

5.
全文索引技术在办公自动化系统中的应用研究*   总被引:1,自引:0,他引:1  
基于内容的全文检索技术广泛用于全文数据库中,为解决办公自动化系统中大量文档的快速检索问题,将SQL Server全文索引技术运用于办公自动化系统开发中.首先介绍SQL Server全文检索流程,然后将其运用于办公自动化系统文档管理模块公文搜索的实现中,全文检索用户界面层采用ASP.NET开发,应用业务层采用C#语言.  相似文献   

6.
全文检索技术是智能信息管理的关键技术之一,Oracle Text作为Oracle的一个组件,提供了强大的全文检索功能,用Oracle做后台数据库,就可以充分利用其全文检索技术,构建复杂的大型文档管理系统。本文主要介绍了Oracle Text的体系结构及其在电子政务系统中的应用与实现,讨论了采用Oracle Text为组件进行电子政务全文检索应用系统的设计思想,并着重讨论了Oracle Text体系架构,在Oracle Text上如何实现全文检索做了某些研究,结合电子政务典型业务流程实例进行了具体实践的描述,对以后电子政务全文检索开发设计有一定的现实意义。  相似文献   

7.
针对传统潜在语义检索模型计算成本大、检索速度慢、不利于应用在大规模农业信息检索领域的缺陷,文中提出一种针对农业主题的改进潜在语义检索模型(ALSI)。该模型先利用全文检索生成农业信息全文倒排索引库,然后利用农业高频词库和潜在语义分析生成的语义索引库,进行语义检索。通过多组实验分析确定了该模型所采用的词条权重计算方法和语义空间维数。最后,通过实验分析对比了改进后的潜在语义检索模型(ALSI)与传统潜在语义检索模型(LSI)的检索效果。结果表明,ALSI的检索效果明显好于LSI,适合应用于较大规模农业信息检索。  相似文献   

8.
Lucene应用中Pdf文档文本数据提取方法研究   总被引:1,自引:0,他引:1  
基于Lucene的搜索已在各种应用系统中已经得到广泛应用,但是Lucene仅仅提供了全文文本搜索的函数库。本文研究了Pdf文档文本数据的提取方法,其优点在于能快速对Pdf文档文本数据进行提取,得到站内Pdf文档文本数据。  相似文献   

9.
Lucene是一款优秀的开源全文本搜索技术框架。首先介绍高性能的全文检索工具Lucene,详细分析Lucene的系统结构、程序运行逻辑和各个模块功能,以及在Lucene上的扩展;然后针对Lucene在不同类型文档解析方面的不足,提出一种通用的文档解析器框架,并给出具体的应用实例。  相似文献   

10.
The use of document clusters has been suggested as an efficient file organization for a document retrieval system. It is possible that by using this information about the relationships between documents that the effectiveness of the system (i.e. its ability to distinguish relevant from non-relevant documents) may also be improved. In this paper a probabilistic model of cluster searching based on query classification is described. This model is tested with retrieval experiments which indicate that it can be more effective than heuristic cluster searches and cluster searches based on other models. It can also be more effective than a full search in which every document is compared to the query. The efficiency aspects of the implementation of the model are discussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号