首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
随着人类社会信息化程度的提高,文本数据库的应用会迅速增长。但是,由于文本数据库包含的信息具有非常自然的特性,对它的查找和检索是相当复杂的。传统的冯·诺依曼机器仅适用于对数值进行运算,而计算机情报检索所执行的操作,如模式匹配、查找、排序或检索等。都是对存贮的内容进行判断。所以尽管目前有许多规模大小不一的文本情报检索系统在运行,但是赖以这种传统硬件结构的文本检索软件系统的实际效率却是十分低下的。为此要开发适合于非数值运算的文本检索的硬件结构。本文从系统一级描述了几种文本检索的后端处理机结构和配置,这些后端处理机都有能力完成整个情报检索过程,或至少是这种过程的一部分。最后,从部件一级描述了几种用于文本检索的具有非数值运算特定功能的硬件部件。  相似文献   

2.
周博  刘奕群  张敏  金奕江  马少平 《软件学报》2011,22(8):1714-1724
锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能.  相似文献   

3.
为了准确、快速地检索Internet上丰富的信息资源,世界各地的专家对Internet信息检索技术进行了深刻的研究。由于Internet在中国发展较晚,其信息检索方面的研究也相对薄弱,因此有必要对Internet信息资源的检索技术予以讨论。1 Internet文本信息资源检索在Internet上,为了使用户比较容易的检索到所需要的各种文本信息资源,经常使用的一些文本检索工具有Archie、Gopher、Veronica和WAIS等。1.1 文件名检索服务ArchieArchie是由加拿大麦吉尔…  相似文献   

4.
一种基于词共现的文本相似度计算   总被引:1,自引:0,他引:1       下载免费PDF全文
在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。  相似文献   

5.
基于自动分类的搜索引擎过滤系统   总被引:2,自引:0,他引:2  
随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往往很困难。利用自动分类器对搜索引擎的返回结果进行分类,以提高检索效率和准确性,方便用户使用。  相似文献   

6.
DVD影片中基于内容的镜头查询技术与实现方法   总被引:2,自引:1,他引:1  
基于内容的检索是广泛应用于多媒体系统中的一种不同于基于文本检索的方法,尤其是在图像与视频库中。当前随着DVD技术的发展,一张影碟中所包含的信息将越来越多,要查找其中用户需要的信息也变得越来越困难,尤其是对于故事情节较长的影片或容量较大的DVD影碟中所包含的几部影片,对它们进行基于内容的检索是非常必要的。该文提出一种针对DVD-VIDEO影碟的基于内容的检索方法,通过对视频镜头检测、代表帧提取以及相似镜头聚类等来形成一个影片场景浏览图,并将影片中每个镜头或场景间的前后转移关系用导航键联结,以完成对影片镜头的查找,使得用户对影片中相关镜头的检索与查找更加方便与快捷。  相似文献   

7.
分析了查询似然模型,针对传统查询似然检索模型没有考虑文本间相关性的缺点,将链接模型引入到文本检索中,提出一个计算文本间相关性的DocRank算法。该算法通过计算两两文本间的相关性,构建一个文本矩阵,利用幂迭代法得到每个文本的优先度值,将其融合到查询似然检索模型中以准确定位所检索文本,实验结果验证了改进算法在文本检索中的有效性。  相似文献   

8.
随着法律文书数据越来越多,信息过载问题日益严重,快速且准确地在海量法律文书中进行检索显得非常必要。法律文本作为一种特殊的文本形式,具有篇幅较长、结构复杂、专业性强等特点,传统基于关键字的文本检索方法不能满足用户查询法律信息的需求,容易出现答非所问、检索不全等问题。此外,基于语义的文本检索方法,大多依赖于对含有大量标注数据的法律文本进行有监督学习,而法律文本数据的人工标注则严重依赖专家知识,导致其需要高昂的人力成本。该文提出一种基于无监督学习的法律文书检索模型,分别从法律概念、词语和词组 3 个方面进行多粒度无监督文本匹配,避免了没有训练数据导致的冷启动问题。在法律裁判文书数据集上进行检索实验的结果表明,与基准模型相比,该模型在 MAP、MRR 和 NDCG@10 指标上均有显著提升,取得了优秀的检索效果,具有有效性和先进性。  相似文献   

9.
用文本检索方法实现基于内容的图像检索   总被引:2,自引:0,他引:2  
利用基于内容的文本检索这项成熟的技术来实现基于内容的图像检索。它不需要进行大量复杂的运算,不仅检索速度快、查准率高,而且能够根据用户感兴趣的区域进行交互式图像检索。主要从实现原理、算法流程和检索实现三方面讨论了这一问题,给出了以基于内容的文本检索、图像映射成文本和文本还原成图像为主要技术的解决方案,最后介绍了一个基于上述设计原理的实例系统。  相似文献   

10.
分析了潜在语义模型,研究了潜在语义空间中文本的表示方法,提出了一种大容量文本集的检索策略。检索过程由粗粒度非相关剔除和相关文本的精确检索两个步骤组成。使用潜在语义空间模型对文本集进行初步的筛选,剔除非相关文本;使用大规模文本检索方法对相关文本在段落一级进行精确检索,其中为了提高检索的执行效率,在检索算法中引入了遗传算法;输出这些候选的段落序号。实验结果证明了这种方法的有效性和高效性。  相似文献   

11.
文本知识发现:基于信息抽取的文本挖掘   总被引:11,自引:0,他引:11  
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。所以出现了从文本中发现知  相似文献   

12.
基于向量空间模型的文本过滤系统   总被引:64,自引:0,他引:64       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献   

13.
基于词典的英汉双向跨语言信息检索方法   总被引:1,自引:0,他引:1       下载免费PDF全文
杨辉  张玥杰  张涛 《计算机工程》2009,35(16):273-274
基于文本检索会议关于英汉跨语言信息检索的任务评价,分别以英汉双向查询翻译和英汉查询为主导策略与翻译对象,采用英汉电子词典作为获取翻译知识的知识源,结合构建的英汉单语信息检索系统,实现完整的英汉双向跨语言信息检索过程。实验结果验证了该系统的有效性。  相似文献   

14.
The prediction of query performance is an interesting and important issue in Information Retrieval (IR). Current predictors involve the use of relevance scores, which are time-consuming to compute. Therefore, current predictors are not very suitable for practical applications. In this paper, we study six predictors of query performance, which can be generated prior to the retrieval process without the use of relevance scores. As a consequence, the cost of computing these predictors is marginal. The linear and non-parametric correlations of the proposed predictors with query performance are thoroughly assessed on the Text REtrieval Conference (TREC) disk4 and disk5 (minus CR) collection with the 249 TREC topics that were used in the recent TREC2004 Robust Track. According to the results, some of the proposed predictors have significant correlation with query performance, showing that these predictors can be useful to infer query performance in practical applications.  相似文献   

15.
Applying EuroWordNet to Cross-Language Text Retrieval   总被引:1,自引:0,他引:1  
We discuss ways in which EuroWordNet (EWN) can be used in multilingual information retrieval activities, focusing on two approaches to Cross-Language Text Retrieval that use the EWN database as a large-scale multilingual semantic resource. The first approach indexes documents and queries in terms of the EuroWordNet Inter-Lingual-Index, thus turning term weighting and query/document matching into language-independent tasks. The second describes how the information in the EWN database could be integrated with a corpus-based technique, thus allowing retrieval of domain-specific terms that may not be present in our multilingual database. Our objective is to show the potential of EuroWordNet as a promising alternative to existing approaches to Cross-Language Text Retrieval.  相似文献   

16.
基于改进决策树算法的网络关键资源页面判定   总被引:12,自引:0,他引:12  
刘奕群  张敏  马少平 《软件学报》2005,16(11):1958-1966
关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(Text Retrieval Confefence,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径.  相似文献   

17.
Data fusion is the process of combining the output of a number of Information Retrieval (IR) algorithms into a single result set, to achieve greater retrieval performance. ProbFuse is a data fusion algorithm that uses the history of the underlying IR algorithms to estimate the probability that subsequent result sets include relevant documents in particular positions. It has been shown to out-perform CombMNZ, the standard data fusion algorithm against which to compare performance, in a number of previous experiments. This paper builds upon this previous work and applies probFuse to the much larger Web Track document collection from the 2004 Text REtreival Conference. The performance of probFuse is compared against that of CombMNZ using a number of evaluation measures and is shown to achieve substantial performance improvements.  相似文献   

18.
该文介绍了一个应用于结构化文本的检索系统的设计和实现。根据结构化文本的自身特点,提出了文本层次划分的思想,通过层次划分,文本被切分成有结构信息和有独立思想内容的文本单元。在此基础上,对检索词实现结构化索引,同时采用层次匹配嵌套查询的方法来实现用户自然语言的提问查询。用户查询处理中还综合运用了查询结果优化、相似查询、二次查询及反馈评分的技术。  相似文献   

19.
文本过滤是信息过滤的一个研究分支,信息过滤随着信息检索的发展而受到关注,它是一个寻找人们感兴趣的信息的处理过程。为了提高检索web页面的效率,把原型web页面集合预处理为有结构的页面集,然后再进行快速分类处理。  相似文献   

20.
We investigate the unique requirements of the adaptive textual document filtering problem and propose a new high‐dimensional on‐line learning framework, known as the REPGER (relevant feature pool with good training example retrieval rule) algorithm to tackle this problem. Our algorithm possesses three characteristics. First, it maintains a pool of selective features with potentially high predictive power to predict document relevance. Second, besides retrieving documents according to their predicted relevance, it also retrieves incoming documents that are considered good training examples. Third, it can dynamically adjust the dissemination threshold throughout the filtering process so as to maintain a good filtering performance in a fully interactive environment. We have conducted experiments on three document corpora, namely, Associated Press, Foreign Broadcast Information Service, and Wall Street Journal to compare the performance of our REPGER algorithm with two existing on‐line learning algorithms. The results demonstrate that our REPGER algorithm gives better performance most of the time. Comparison with the TREC (Text Retrieval Conference) adaptive text filtering track participants was also made. The result shows that our REPGER algorithm is comparable to them.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号