首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 370 毫秒
1.
崔光范  许利杰  刘杰  叶丹  钟华 《计算机科学》2018,45(9):104-112, 145
随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Spark的数据分析工具,目前已支持TPC-DS基准,成为大数据背景下传统数据仓库的替代解决方案。全文检索作为一种文本搜索的有效方式,能够与一般的查询操作结合使用,提供更加丰富的查询和分析操作。目前,Spark SQL仅支持简单的查询操作,不支持全文检索。为了满足传统业务迁移和现有业务的使用需求,提出了分布式全文检索框架,涵盖了SQL文法、SQL翻译转换框架、全文检索并行化、检索优化4个模块,并在Spark SQL上进行了实现。实验结果表明相比于传统的数据库,在两种检索优化策略下,该框架的索引构建时间、查询时间分别减少到传统数据库的0.6%/0.5%和1%/10%,索引存储量减少为传统数据库的55.0%。  相似文献   

2.
孙志军  郑烇  袁婧  刘恒  王篙 《计算机科学》2012,39(6):107-110,146
在信息检索领域,语义检索技术较传统的关键字检索,无论在检索效果还是用户体验方面,都有诸多优势。语义检索融合了信息检索、语义分析以及信息融合等诸多方法,已成为现阶段该领域研究的一项重要技术。在Lu-cene索引技术基础之上,提出了语义检索的方法,即对语句进行语义分析,获得一种描述语句浅层语义信息的形式化表示,并对这种形式化表示建立索引;将表述语义联系的多层次相似度通过信息融合技术进行融合,并将其映射成查询语句与索引数据之间的相似度,达到语义检索的目的。  相似文献   

3.
基于WWW的多媒体信息检索   总被引:3,自引:0,他引:3  
WWW的资源作为Internet网上的资源主体,对它进行基于内容的信息检索已是必须的。但目前的信息组织和管理方式,对它进行基于内容的检索还存在一定困难。本文提出了基于WWW的多媒体信息检索的基本框架,研究了通过该框架进行多媒体信息查询和检索的方法。  相似文献   

4.
由于传统的数据处理系统的数据存储与数据处理能力有限,不能满足处理大量数据的需求。为了发挥数据的价值,高效、高性能地处理大量数据集,提出基于Spark系统结合SIMBA的思路共同建立的大数据分析处理系统,基于Spark SQL的查询方式进行检索;在Spark中嵌入索引管理机制,将其封装在RDD内,用于提高查询效率;通过建立线段树存储数据的方式提高数据检索的效率。对于数据预处理时采用Range Partitioner分区策略的方式对数据进行分区,基于全局过滤和局部索引进行查询。保证该系统在进行查询操作时能够保持高吞吐量和低延迟特性,提高查询效率。  相似文献   

5.
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的.  相似文献   

6.
当前,电网中含有海量的多源信息数据,但是由于数据体量大、种类多、维度高,难以实现高效有效的数据检索.因此本文根据实际电力运行系统的数据结构及多源数据库样本分析,提出了一种基于互信息的改进决策树算法作为数据挖掘内核,并提出适用于电力系统的并行处理架构,可实现多源数据的快速、有效信息检索,并有效处理实时数据.在搜索时根据代表性特征子集直接从多源信息原始数据提取信息,判断索引信息量并排序形成决策树模型,通过Spark MapReduce Python数据分解并行检索实现多源数据同时提取,缩短检索时间.本文以某区域电网数据库为算例进行模拟验证,结果表明:该方法可以实现配电网的多源异构信息提取,有效避免重复数据,满足在线工程决策要求.  相似文献   

7.
隐私问题受到越来越多的关注,基于计算的私有信息检索(CPIR)的隐私保护技术允许用户从服务提供商检索数据并且不会泄露查询信息。但是,对于大规模应用,隐私保护技术与可用性之间存在较大差距。针对CPIR算法计算量大、计算时间长而不适合应用于大规模数据隐私保护的问题,提出了基于Spark和Huffman编码的CPIR最近邻查询隐私保护算法(H-PCPIR-V)。H-PCPIR-V算法主要是在数据预处理阶段将最近邻矩阵使用Huffman编码进行压缩减少计算位数,然后通过压缩后矩阵中元素的最大位数对其他元素进行补位,在服务端使用Spark并行框架对查询网格进行并行计算。通过对比实验及实验结果分析发现,相比PCPIR-V算法,H-PCPIR-V算法在服务端的计算代价下降30%左右,客户端的计算代价下降10%左右,通信代价下降40%左右。  相似文献   

8.
IT运维终端用户数据查询时存在查询执行时间过长的问题,提出基于MapReduce的IT运维终端用户数据查询方法。设置终端用户数据查询关键词,获取终端用户数据特征;基于MapReduce设计运维数据查询算法;构建终端用户数据索引查询框架,从而完成IT运维终端用户数据查询。实验结果表明,设计的IT运维终端用户数据MapReduce查询方法的查询执行时间较短,查询效率较高,具有省时性,有一定的应用价值,为后续运维终端用户数据处理作出一定的贡献。  相似文献   

9.
万婵  江疆  吴穹 《微型电脑应用》2023,(1):197-200+204
针对当前电网数据集市海量信息索引未考虑排序处理数据信息,导致系统检索效率和查全率低,稳定性差的问题,提出考虑哈希索引的电网数据集市海量信息索引系统设计方法。该系统聚类融合处理数据信息,根据关联规则挖掘结果提取与检索数据,结合哈希算法排序融合电网数据信息。该系统采用B/S三层体系,将其分为表示层、功能层和数据层,从而实现了系统的功能模块的设计,完成电网数据集市海量信息索引系统设计。实验结果表明,该系统设计方法的检索效率和查全率更高,稳定性更好。  相似文献   

10.
查询扩展是提高检索性能的有效方法。为了弥补在数据集中由于词对没有直接出现而导致无法统计出词间关系进行查询扩展的缺陷,该文通过提取Markov网络中的词团信息来量化词间的混合相关性,将强化后的词间混合相关性应用于信息检索扩展模型中。实验表明 基于混合相关的Markov网络信息检索扩展模型的检索效果优于基于直接相关的查询扩展模型;此外,该文提出的模型在总体检索性能上略优于基于团的Markov网络信息检索模型,但在词团提取上大大减少了计算开销。  相似文献   

11.
互联网上大部分的数字化信息都与地球上的地点和位置关联,信息检索查询中大量地包含地理信息,传统的基于关键字匹配方法没有考虑检索中的空间关系,无法满足此类检索需求。地理信息检索根据地理范围从文档中获取空间语义匹配的地理知识文档,成为国内外信息检索和GIS领域的热点研究方向。提出了一个地理信息检索的基本系统框架,依据该框架对地理信息知识库、地理信息抽取、地理信息检索模型、混合索引和检索可视化等关键性技术进行了分类概括总结。在对已有技术进行深入对比分析的基础上,指出了该领域未来的研究工作和面临的挑战,并提供了大量的参考文献。  相似文献   

12.
基于内容的检索能使用户根据媒体特征对媒体内容进行检索和查询.由于多媒体数据中含有丰富的视频数据,并且是随时间动态变化的其特征很难用一般的静态特征来描述,为了取得视频数据的特征.对视频数据的处理非常重要,本文将介绍基于内容的视频检索中相似索引的处理技术和方法。  相似文献   

13.
随着信息检索技术的不断发展,挖掘更加有效的信息来提高检索精度成为研究热点,已有的研究表明在检索过程中有效地融合各种信息将得到更好的检索效果。对一个具体查询而言,可以充分利用与已有查询的相关性、词语相关性和文档相关性等信息进行查询扩展和重构。基于这种思路,该文分别构造查询网络、词网络和文档网络,提出了多层Markov网络的信息检索模型,模型可以融合词间关系、文档间关系和查询间关系,为了有效降低计算量,给出了基于团计算模型。在标准数据集上的实验表明该文的模型能够有效融合三类信息,并较大幅度地提高检索效果。  相似文献   

14.
为了解决肺结节图像检索中特征提取难度大、检索精度低下的问题,提出了一种深度网络模型——LMSCRnet用于提取图像特征。首先采用多种不同尺寸滤波器卷积的特征融合方法以解决肺结节大小不一引起的局部特征难以获取的问题,然后引入SE-ResNeXt块来得到更高级的语义特征同时减少网络退化,最后得到肺结节图像的高级语义特征表示。为满足现实中大数据量检索任务的需求,将距离计算及排序过程部署到Spark分布式平台上。实验结果表明,基于LMSCRnet的特征提取方法能够更好地提取图像高级语义信息,在肺结节预处理数据集LIDC上能够达到84.48%的准确率,检索精度高于其他检索方法,而且使用Spark分布式平台完成相似度匹配及排序过程使得检索方法能够满足大数据量检索任务需求。  相似文献   

15.
目前,针对嵌套式数据集上的高效查询处理已成为Web数据检索的一个重要任务.不同于传统信息检索,嵌套式数据集既要存储数据又要存储结构,导致了针对该类数据集查询的低效性,特别是对如何保证精确查询效率更是一个挑战.结合列存储结构和倒排索引技术,首先定义了表达嵌套式数据集中数据位置信息的唯一路径UPath,提出一种新的支持嵌套式数据集精确查询的索引结构——Uni Hash.在此基础上,给出了生成数据值的唯一路径UPath以及基于MapReduce框架建立Uni Hash索引的相关算法.通过将其与XPath检索进行对比,验证了Uni Hash索引结构的有效性.实验表明,将嵌套式数据集进行列式存储并建立Uni Hash索引,能够明显地提高精确查询的效率.  相似文献   

16.
针对大数据时代下图书馆文献的存储和检索难题,运用HDFS分布式文件系统实现图书馆文献资源的海量存储,釆用ElasticSearch分布式索引技术对资源进行分布式索引和检索,构建了一个高效的、分布式的数字图书馆检索系统。测试结果显示,在大数据量下,系统检索时间约为传统Oracle数据库检索时间的1/20,并带有缓存功能。  相似文献   

17.
时空数据库和基于集群计算的时间分析工具大多基于外存,将其应用在大数据处理场景下系统性能将迅速降低。为此,基于Spark构建一个易用且高可扩展的时态大数据查询分析系统。通过扩展Spark SQL解析器,使其能够支持类SQL形式的时态操作,运用SIMBA开源项目的方法,引入全局过滤和局部时态索引2种优化策略,使得系统能以高吞吐量及低延迟执行时态查询操作。基于时态查询效率的评估实验结果表明,在不同影响参数下,该系统的时态查询性能优于原生的Spark SQL查询处理方案。  相似文献   

18.
设计并实现基于分布式平台的大数据分析处理系统,基于Spark平台用以处理大规模时间序列数据.系统框架主要分为存储层、算子层和算法层.在存储层,系统基于HDFS和Hive完成对大规模时间序列数据的组织和索引.在算子层,系统为用户提供了Spark平台上时间序列数据常用的基本操作,并允许用户直接使用这些算子实现自定义的时间序...  相似文献   

19.
传统信息检索信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,导致查询精确度较低,针对这一缺陷,实现语义级的信息检索的研究成为目前研究的热点。在现有的语义信息检索方法的基础上,提出了一种新的基于语义网的语义信息检索框架,详细描述框架的三大模块,并针对该框架结构以及语义网技术对语义检索的算法进行研究,给出实现语义检索的算法。该算法对本体树进行深度优先遍历,得出准确的查询结果,提高了信息检索的查全率。  相似文献   

20.
在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到行键的索引,并将索引存储在Spark搭建的内存环境中,在查询时先通过索引获取行键,然后利用行键在HBase中快速查找对应的记录。由于列的基数大小和是否涉及范围查询决定了建立索引的类型,故针对三种不同情况构建了不同类型的索引,并利用Spark内存计算、并行化的特点来提高索引的查询效率。实验结果表明,该二级索引具有较好的查询性能,查询时间小于基于Solr的二级索引,可以解决HBase中因非行键的列缺乏索引导致查询效率较低的问题,提高基于HBase存储的大数据分析的查询效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号