首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
分析了潜在语义模型,研究了潜在语义空间中文本的表示方法,提出了一种大容量文本集的检索策略。检索过程由粗粒度非相关剔除和相关文本的精确检索两个步骤组成。使用潜在语义空间模型对文本集进行初步的筛选,剔除非相关文本;使用大规模文本检索方法对相关文本在段落一级进行精确检索,其中为了提高检索的执行效率,在检索算法中引入了遗传算法;输出这些候选的段落序号。实验结果证明了这种方法的有效性和高效性。  相似文献   

2.
提出一种英文文本检索算法,从文本中提取奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量.实验结果表明,该算法在检索准确率和运算效率上都优于传统的LSA算法.  相似文献   

3.
用文本检索方法实现基于内容的图像检索   总被引:2,自引:0,他引:2  
利用基于内容的文本检索这项成熟的技术来实现基于内容的图像检索。它不需要进行大量复杂的运算,不仅检索速度快、查准率高,而且能够根据用户感兴趣的区域进行交互式图像检索。主要从实现原理、算法流程和检索实现三方面讨论了这一问题,给出了以基于内容的文本检索、图像映射成文本和文本还原成图像为主要技术的解决方案,最后介绍了一个基于上述设计原理的实例系统。  相似文献   

4.
<正> 多重并行流水线处理方式超级计算机的特点在于能高速执行向量运算。下面就来介绍本系统的运算处理机是怎样达到向量运算高速化的。系统结构如图13所示。运算处理部分的尺寸在图上相对地放大了。运算处理机从功能上分为标量部件和向量部件。两种部件的硬件结构都装在一个机柜(长1900mm×宽800mm×高185mm)里,这样便于迅速进行相互控制和数据交换。标量部件对主存中取出的指令进行译码。被译码的指令,如果是标量指令就在标量部件上执行,如果是向量指令,就在向量部件上执行。  相似文献   

5.
本文介绍了情报检索系统的有关算法和在WANG VS-80机上建立的LASIRS软件系统,该软件系统可以进行布尔表达式的各种运算,另外还设计了两项检索运算符进行原文查找,这些二次检索运算的功能有:查询优先关系,查询邻接关系,查询出现在同一句中的词等,二次检索运算是利用运行有限状态匹配自动机实现的。该软件系统已经能够实用。  相似文献   

6.
随着Internet内容及文档数据库呈指数扩充,查找所需资料越来越成为一个麻烦的问题。同笨拙的第一代文本检索工具一样,基于浏览的搜索和关键字搜索受制于两个问题:它们要求你准确知晓搜寻的东西,同时带给你的是浩如汪洋的匹配资料。几家公司一直在互不相让地采用高超的检索技术控制泛滥成灾的文本,其中包括形态语言处理(morphological languageprocessing)和语言分析(linguisticanalysis)等。  相似文献   

7.
只要多级存储体系的某一级分布在几个独立的部件中,而该存贮结构的更高级别或处理机不能同等地访问这些部件,就会出现相关问题。这些问题的传统解法可以举多处理机、多Cache 系统为例,即在被分为若干分离部件的存储层次中,通过一组高速互连总线来补偿这些部件之间的依赖程度。此方法会降低存储系统的流量并增加其成本,因此并不十分令人满意。这里提出并讨论一种新的解决方法:存在标志方法(the presence—flagsalution)。它的成本和系统开销都优于传统方法。这种方法的一个很重要的特点是在Cache-——主存子系统中能将修改主存的时间推迟到Cache 中需要一段空间时为止(非直接写入(nonstore-through)操作方式)。  相似文献   

8.
分析了查询似然模型,针对传统查询似然检索模型没有考虑文本间相关性的缺点,将链接模型引入到文本检索中,提出一个计算文本间相关性的DocRank算法。该算法通过计算两两文本间的相关性,构建一个文本矩阵,利用幂迭代法得到每个文本的优先度值,将其融合到查询似然检索模型中以准确定位所检索文本,实验结果验证了改进算法在文本检索中的有效性。  相似文献   

9.
随办公信息化、生活网络化不断推进,诸如企业产品问题描述、Web用户评论、通信文本信息等新生的非结构化文本数据也伴随着快速的增长以及其不断积累。这对于如何能准确、高效的检索到用户真实需求的文本信息提出了新的要求和挑战。检索模型对检索准确度、效率等具有决定性影响。近年来,大量新兴方法融入到文本的检索模型中,使模型本身变得纷繁复杂,同时传统模型间的界限变得模糊。本文从非结构化文本数据的检索需求出发,归纳检索模型的定义和通用框架;进而基于检索词项相似性计算采用的数学理论,对检索模型进行分类,并详细阐述各类模型的发展脉络、分析其优缺点及适用场景。最后,讨论了新环境下海量文本检索模型面临的挑战及相关研究问题思考。  相似文献   

10.
提出一种新的英文文本检索算法,该算法将英文文本映射为26阶频率矩阵,然后通过奇异值分解,对文本表示空间进行降维处理,并融合第一奇异值分量和第二奇异值分量的特征,得到既反映字母统计频率,又反映文本字符间顺序结构的复特征向量,最后利用向量间余弦相似度作为文本检索的相似度度量。数据对比表明,算法取得了较好的实验效果,且在检索准确率和运算效率上优于经典的LSA算法。  相似文献   

11.
基于链接描述文本及其上下文的Web信息检索   总被引:20,自引:0,他引:20  
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一,由此产生了基于超链接结构的检索技术。描述了链接描述文档的概念,并在此基础上研究链接文本(anchor text)及其上下文信息在检索中的作用。通过使用超过169万篇网页的大规模真实数据集以及TREC 2001提供的相关文档及评价方法进行测试,得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在已知网页定位的任务上能够使系统性能提高96%,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能;最后,把基于链接描述文本的方法与传统方法相结合,能够在检索性能上提高近16%。  相似文献   

12.
多维数据索引结构回顾   总被引:6,自引:1,他引:6  
一、引言最初,多维数据库主要用于计算机图形学、地理信息系统等。现在,多维数据库的应用扩展到医学图像处理、计算机视觉和多媒体数据库等领域。尤其是在多媒体数据库中,对多媒体对象的描述更加复杂,例如:对图像来说,常用颜色直方图、主色调、Tamura纹理等特征描述图像;对文本来说,常用矢量空间模型来描述文档;对视频来说,常用颜色、纹理、形状和运动等特征来描述视频镜头。但是,不管采用哪一种描述方法,都需要用多维空间中的点、线段或区域等来表示这些多媒体对象。很多实际应用需要从多维数据库中快速查找到特定数据,例如:在图像数据库中查找与给定图像最相似的图像;在地理信息系统中需要查找离某个城市最近的河流。为了支持这些快速查找操作,必须借助高效索引结构。由于传统数据索  相似文献   

13.
文本检索会议简介   总被引:3,自引:0,他引:3  
文本检索简介随着互联网的发展和存贮技术的提高,计算机可读的文本信息也越来越多。据估计,截止到1999年,互联网上已约有5TB的信息容量,其中文字信息约为6TB。然而,要有效地开发利用如此丰富的信息资源并不是轻而易举的事情,因为许多信息往往是规模巨大,实时性强,而且存贮分散;语言混杂,内容广泛;图文并茂,格式灵活,有时还含有一定的拼写错误或传输错误。而对于特定的用户而言,所需要的信息往往只占其中极小的一部分。要从如此规模的网络信息中抽取有用的信息资源,对信息处理的速度和精度将提出极为严格的要求,因而迫切需要对这种形式的混合语料进行更快速高效的处理。在这种情况下,人们越来越多地依靠文本检索工具来寻找自己所需要的信息。文本检索指的是给定文本方式的检索需求,在电子文档库中查找出与指定表达式相匹配的文本,并将出现和包含这些文本的原文作为检索结果返回给用户。  相似文献   

14.
中国遥感地面站为了兼容处理法国 SPOT 卫星系列的数据,正在进行扩充。本文介绍了扩充系统的设计、结构与特性。本系统将设计成一个硬件定向系统,利用若干专用的处理机来执行主要的计算任务,而主机仅仅是管理、监督各个处理机的工作。在该地面站,数据流与图象数据的处理将在两个专用的处理机上进行,即前端处理机(FEP)和后端处理机(B  相似文献   

15.
一、引言汉语主题词典是汉语文献情报检索中用以标识文献情报内容的概念(主题词)进行检索的工具。它的结构(特别是存贮结构)与查找方法直接关系到检索效率,是文献情报检索中的一个重要课题。  相似文献   

16.
分析和比较了几种适合三值光计算机实现的数值表示及其基本算法,将基于平衡三进制的数值表示及其运算方法引入了三值光计算机,为研究和实现三值光计算机的各种算术运算部件提供了数学理论基础。采用平衡三进制,正负数的表达形式具有统一性和对称性,消除了符号位,有效简化了有符号数的数值处理过程,加减法运算使用同一部件实现,可设计出各种简单、高效且具有对称性的算术运算部件,简化了三值光计算机的硬件结构和指令系统。  相似文献   

17.
针对当前几种常用文本检索方法的不足,文中基于统计模型和小波变换,提出了一种新的文本检索方法。与传统方法的主要区别在于:1)利用小波变换把输入信号引入到频域进行处理,消除了交叉比较运算的巨大计算量;2)在进行相关度计算时,同时考虑了检索词的出现次数和出现位置因素,有效提高了检索精确度。理论分析和实验结果表明该方法较传统方法在查准率和查询速度上均有所提高。  相似文献   

18.
魏彬  张军  项颖 《数字社区&智能家居》2009,5(3):1686-1687,1698
针对当前几种常用文本检索方法的不足,文中基于统计模型和小波变换,提出了一种新的文本检索方法。与传统方法的主要区别在于:1)利用小波变换把输入信号引入到频域进行处理,消除了交叉比较运算的巨大计算量;2)在进行相关度计算时,同时考虑了检索词的出现次数和出现位置因素,有效提高了检索精确度。理论分析和实验结果表明该方法较传统方法在查准率和查询速度上均有所提高。  相似文献   

19.
传统的文本检索技术主要面向一维文本,难以用于对二维结构数学表达式的检索.针对该问题,通过引入公式描述结构,实现基于运算符信息的数学表达式检索.利用公式描述结构提取算法获取LaTeX数学表达式的节点信息,从而得到公式骨架存储结构.在此基础上,选择运算符值为1的节点及其相关文档建立索引,并通过数学表达式匹配算法得到与输入相似的表达式集合.实验结果表明,该方法能够从519 588个数学表达式中快速、准确地找到相似表达式,并且不受一般运算数的影响.  相似文献   

20.
基于链接的方法进行Web信息检索的TREC实验研究   总被引:1,自引:0,他引:1  
本文通过TREC实验研究基于链接信息的检索对Web信息检索的影响,包括使用链接描述文本,链接结构以及将基于链接的方法和传统基于内容检索的方法合并。得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在网页定位的任务上能够使系统性能提高96% ,但是在信息查询任务上没有帮助;最后,将基于链 接信息的检索与传统的基于内容检索技术合并,在网页入口定位任务上总能将系统性能提高48%到124.8% ,而对特定信息查询任务也能在一定程度上改善检索效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号