共查询到19条相似文献,搜索用时 78 毫秒
1.
《计算机应用与软件》2018,(2)
由于传统的数据处理系统的数据存储与数据处理能力有限,不能满足处理大量数据的需求。为了发挥数据的价值,高效、高性能地处理大量数据集,提出基于Spark系统结合SIMBA的思路共同建立的大数据分析处理系统,基于Spark SQL的查询方式进行检索;在Spark中嵌入索引管理机制,将其封装在RDD内,用于提高查询效率;通过建立线段树存储数据的方式提高数据检索的效率。对于数据预处理时采用Range Partitioner分区策略的方式对数据进行分区,基于全局过滤和局部索引进行查询。保证该系统在进行查询操作时能够保持高吞吐量和低延迟特性,提高查询效率。 相似文献
2.
索引技术是时态数据库查询优化的重要方法之一。分析了时态数据库中的不确定时态信息以及基于不确定时态信息的索引技术,并详细讨论了能处理时间变元的改进的4R-tree索引技术的建立过程。 相似文献
3.
时态索引作为一种高效管理和检索时态数据的有效手段,一直是时态数据领域的研究热点.提出了一种基于时序分区的时态索引技术TPindex.首先将海量时态数据的时态属性映射到二维平面上,对平面上的"有效时间"点进行采样处理,通过使用自上而下,自左而右的时序分区方法将平面划分成若干个均匀的区域.其次,使用基于拟序关系的线序划分算法对每个分区中的数据构建数据结构,并建立基于"有效时间戳"的全区索引,实现"一次一集合"的数据查询操作.再次,还提出了使用分文件存储线序索引的模式将分区线序索引磁盘化,同时可以结合多线程技术并行处理数据,充分利用现代化硬件资源以满足海量数据下的高性能需求,提高索引性能.另一方面,我们还研究了海量时态数据下TPindex的增量式更新操作.最后,设计相应的仿真实验,通过与现有的代表性工作进行对比评估,验证了所提出方法的有效性和实用价值. 相似文献
4.
时态数据库中时间特征主要由有效时间和事务时间描述,论文扩充了4R索引的双时态数据,使其能处理有效时间初始值大于事务时间初始值的所有双时态数据,同时扩充了4R的查询功能使其不仅可以查询当前和历史数据,还可以查询将来的情况,并改进了相应的索引方法。 相似文献
5.
本文从DBMS的查询优化器对SQL查询语句进行性能优化的角度出发,结合数据库理论,介绍索引的合理建立和使用以及高质量SQL查询语句的书写原则,从而实现高效的查询,提高系统的可用性。 相似文献
6.
7.
提出了一种基于历史关系数据库的时态索引技术,结合时空要求和时态数据库的特征对该索引技术进行了改进和优化,并将其与数据库传统技术一起应用以适应各种时态数据操作的需要。 相似文献
8.
研究了一种基于时态编码和线序划分的时态XML索引机制.首先,提出一种基于扩展先序编码的时态编码方案,通过该编码可确定结点间的结构关系;其次,在深入分析时间区间关系的基础上引入线序划分的概念,并讨论了获取线序划分的算法;然后,建立了整合路径结构信息和时态约束信息的时态结构摘要,并在此基础上建立了时态XML索引结构—TempSumIndex,同时研究了基于TempSumlndex的时态XML查询和增量式更新算法;最后,对TempSumlndex和现有时态XML索引技术的基本性能进行了详细的实验评估.实验结果表明,TempSumlndex具有更为优越的性能. 相似文献
9.
研究了基于有效时间的时态关系索引的建立与实现.首先提出了有效时间索引模型VTIDM.VTIDM实际上是具有3层结点的树型结构,其内部结点由时态连通关系得到等价类组成,其叶结点由时态包含关系得到拟序关系类组成.对于VTIDM进行了查询和更新的算法设计和分析,同时进行数据模拟实验,实验结果表明,VTIDM是可行的和有效的. 相似文献
10.
11.
12.
介绍典型的检索过程优化方法——数据融合和基于相关度反馈的查询扩展,前者通过集成多个检索结果提高检索性能,后者执行多次查询,依据前次结果修改/扩展用户查询,以求更好地反映用户信息需求,并在此基础上提出一种新的检索过程优化方法——HQD方法,由相关度反馈结果生成多个替代查询,在检索这些替代查询后,采用求和余弦法生成最终检索结果。仿真实验结果表明,该方法是有效的。 相似文献
13.
14.
15.
16.
查询扩展作为查询优化的重要组成部分,对改善信息检索系统的性能起到了至关重要的作用.传统的伪相关反馈查询扩展方法虽然在一定程度上提高了检索性能,但选择的扩展词中会包含一部分与原查询不相关的词语,这对检索性能的提升产生了不利影响.提出了一种基于分类模型的查询扩展方法,该算法综合候选扩展词的统计信息和多种特征,采用朴素贝叶斯分类模型对初次得到的候选扩展词进行再次分类选择,进一步去除与查询词相关性小的扩展词.在TREC 2013数据集上的实验结果表明,提出的查询扩展方法能够有效提高用户查询的查准率和查全率. 相似文献
17.
针对信息检索中查询与文档集之间可能存在的“词不匹配”问题,基于兴趣模型提出一种将概念化的兴趣知识与向量空间模型相结合的查询扩展方法。该方法能根据阈值来判断查询扩展是否可行。用户的兴趣偏好是通过Agent代理实时获取的,兴趣知识采用HNC(Hierarchical Network of Concepts, 概念层次网络)理论的概念符号体系表达,这样便于计算概念之间的相似度。实验结果表明,经过查询扩展后的结果相对于未加入查询扩展的结果在性能上提高了29.1%。 相似文献
18.
随着语义Web技术的不断发展,RDF数据量增长迅速,单机RDF查询系统已经难以满足现实需要,研究和构建分布式RDF查询系统已经成为学术界与工业界的研究热点之一.现有的RDF查询系统主要是基于Hadoop或通用分布式技术.前者磁盘I/O太高;后者则可扩展性较差.且两种系统在基本图模式查询时,效率都较低.针对上述问题,本文设计了基于Spark和Redis的分布式系统架构,并改进了查询计划生成算法,最后实现了原型系统RDF-SR.该系统使用Spark减少了磁盘I/O,借助Redis提高了数据映射速率,利用改进的算法减少了数据混洗次数.实验表明,相比于现有的其他系统,RDF-SR既保持了较高可扩展性,又在基本图模式查询时,具有更高的性能. 相似文献
19.
在数据仓库的联机分析处理的查询处理中,经常会涉及到大量数据的复杂即席查询.用户通过提交联机分析处理查询对数据进行分析和决策支持,这通常需要较快的查询响应速度.因此,提高联机分析处理的查询性能就成为了数据仓库领域的关键问题.为了提高数据仓库的查询性能,结合维表层次结构的特点,提出一种将分段位图索引和位图连接索引有效结合的方法.实验证明,该方法节省了位图索引的储存空间,减少了I/O开销,有效地提高了数据仓库的查询效率. 相似文献