期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《微型机与应用》2015,(18)

地震数据处理中的数据读取具有块小量大的特点,常规磁盘所用的数据读取方式,其处理速度缓慢。设计了一种基于Fast DFS的分布式地震数据存取系统。该系统将数据分块存储在硬盘上,在Fast DFS中建立基于炮号和道号的两级索引结构,并选取Trie树作为一级索引,AVL树或红黑树作为二级索引,提高了系统读取速度。实验结果表明,该地震数据存取系统减少了相应的查询响应时间,提高了系统存取性能。相似文献

2.

基于日志结构合并树的轻量级分布式索引实现方法

崔双双王宏志《计算机应用》2021,41(3):630-635

针对现有基于日志结构合并树（LSM-Tree）实现的分布式数据库仅支持高效的主键查询,无法让用户快速地应用在自己的集群中的问题,提出了基于LSM-Tree的轻量级分布式索引实现方法SIBL。首先,通过对主键属性列建立索引来提高非主键属性的查询效率;然后,提出了分布式索引构建算法以及基于等距取样的索引区间划分算法,从而保证了索引在系统中的均匀分布,并且优化了传统索引的查询算法,将索引文件看作特殊的数据文件分布式地存储在系统中,从而保证了系统的负载均衡和可扩展性;最后,将该方法与华为二级索引方案HIndex在HBase数据库上进行实验来比较二者的索引构建的时间和空间开销、索引的查询性能和系统的负载均衡等性能,验证得出所提出的方法使查询性能提升了50~200倍。相似文献

3.

海量样本数据集中小文件的存取优化研究

下载免费PDF全文

马振哈力旦·阿布都热依木李希彤《计算机工程与应用》2018,54(22):80-84

针对Hadoop分布式文件系统（Hadoop Distributed File System,HDFS）在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。相似文献

4.

地震资料分布式存取的效率优化设计 总被引：1，自引：0，他引：1

文必龙冯翔左春雪刘雪飞汪志群《计算机与数字工程》2014,(8):1386-1389

目前,存取海量非结构化地震数据的常用方法,存在着在物理层和应用层添加了逻辑层影响访问速度,降低访问效率的弊端.为了在不增加额外成本的基础上,改善数据的存储方法、提高地震数据的访问效率,论文研究一种基于hadoop框架下地震资料分布式存取设计的思想,采用混合索引查询方法进行统一访问.采用对数据请求按操作进行预处理,通过建立基于关键字的索引、数据库索引等技术,优化因为了缩短开发周期,节约软件运行成本而增加逻辑层带来的查询速度慢的问题,提高数据的存取效率. 相似文献

5.

智能数据库学习型索引研究综述

蔡盼张少敏刘沛然孙路明李翠平陈红《计算机学报》2023,(1):51-69

建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下，传统索引结构（例如B+树）处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据分布、查询负载等特征进行建模和学习，有效的提升了索引性能，并减少了访存空间开销.本文从学习型索引技术的基础模型入手，对RMI基础模型实现原理、构造和查询过程进行了分析，并总结了基础模型的优点和存在的问题；以此为基础，按照索引结构特点对学习型索引技术进行分类，从索引创建方式和更新策略两方面对学习型索引技术进行了系统梳理，并对比分析了典型学习型索引技术的优点及不足之处.另外，本文总结了学习型索引技术的扩展研究.最后，对学习型索引的未来研究方向进行了展望. 相似文献

6.

一种面向动态连续查询的查询索引

《计算机应用与软件》2015,(12)

针对当前面向连续查询的查询索引不适应查询动态变化的问题,提出一种能承受频繁更新的动态连续查询索引。为实现该索引,设计一种基于网格和树的索引结构,该索引结构继承了网格结构的高效更新性能的优点,并通过继承树的特性,克服网格结构高空间开销的问题。实验结果表明,该连续查询索引比基于网格的连续查询索引节省空间开销约一个数量级;比基于树的连续查询索引更新效率提高约70%,查询性能提高约25%。相似文献

7.

海量教育资源中小文件的存储研究

游小容曹晟《计算机科学》2015,42(10):76-80

Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成大文件以减少文件数量,并用索引机制访问小文件及元数据缓存和关联小文件预取机制来提高文件的读取效率。实验证明,以上方法提高了Hadoop文件系统对小文件的存取效率。相似文献

8.

基于MapReduce的时间序列索引与批量查询技术

陈军晓李中升刘逸敏李秋虹汪卫《计算机工程》2019,45(11):47-53

针对基于不平衡树的时间序列索引对海量时间序列数据查询性能较差的问题,提出一种基于MapReduce的DB-DSTree索引。利用平衡的时间序列索引DHD作为路由树创建分布式的DSTree,并充分挖掘批量查询中的数据局部性,将相似的查询路由到局部节点上,以改善DSTree索引的非平衡性。实验结果表明,DB-DSTree索引的平衡性和局部性较好,可减少子树的查询范围和磁盘I/O次数,提高查询效率。相似文献

9.

基于协处理器的HBase内存索引机制的研究

下载免费PDF全文

朱松杰娄渊胜叶枫李凌陈勇《计算机工程与应用》2020,56(1):98-105

为了实现对海量数据的高效存储和查询,众多NoSQL数据库被开发出来,HBase是其中之一。但原生的HBase数据库在进行数据查询时只支持主键索引,对非主键数据只能通过全表扫描的方式进行查询,极大降低了HBase的多条件查询速度。为此,提出了基于协处理器的HBase内存索引构建方案,通过协处理器实现对二级索引的快速构建并可根据HBase表的变化自动更新索引。同时,将建立的索引进行持久化操作,在使用时通过内存计算,极大地提高了索引数据检索速度,保证了索引的可用性和容错性。实验结果表明,该方案相比原生数据库的条件检索速度有了极大提升,相比于基于Solr和HiBase的二级索引方案检索速度也有所提升。相似文献

10.

基于Hadoop的海量xml索引查询方案

危奇万立《计算机光盘软件与应用》2013,(24):69-72

XML(Extensible Markup Language,可扩展标记语言)凭借其简单、跨平台、方便阅读等优点,在当今各个领域得到了广泛的应用。然而,作为数据交换标准的XML面对当今海量数据,由于结构不易拆分等问题,其存储和查询性能并不理想。Hadoop的出现,提供了一种新的解决办法。由于Hadoop本身并不适合类似XML格式的半结构化文件处理,因此本文提出来一种基于Hadoop的海量XML查询的解决方案,充分利用Hadoop的并行性能,同时还引入了高效的索引机制,很好的解决了海量XML存储于查询性能问题,实验证明,该方案能达到良好的效果。相似文献

11.

海量活动轨迹相似查询

刘勇覃飙余萝《计算机工程与应用》2015,51(14):99-103

活动轨迹的近似查询是在带关键词信息的轨迹集中,检索与查询点集距离最近且满足查询点集关键词要求的活动轨迹的过程。因为GAT（Grid index for Activity Trajectories）不能查询海量活动轨迹,将GAT扩展到适用于海量活动轨迹的近似查询技术GATH（GAT on Hadoop）。和GAT相比,GATH使用两种新的索引结构进行剪枝;其网格索引依照海量数据的特点从底层单元格开始进行基于空间的剪枝;其倒排索引用于进行基于关键词的剪枝。实验结果证实GATH比GAT能有效缩短索引建立时间及提高剪枝效率。相似文献

12.

大数据环境下多源异构数据的访问控制模型

下载免费PDF全文

苏秋月陈兴蜀罗永刚《网络与信息安全学报》2019,5(1):78-86

大数据平台具有开放性和共享性，但随着数据量不断增加且用户访问上下文环境复杂多变，RBAC模型难以满足大数据环境下细粒度、灵活的访问控制。针对这一问题，提出了大数据平台下多源异构数据的访问控制模型。该模型根据属性动态地确定角色权限，并构建基于数据组的层次结构，实现数据属性的简单管理。对该模型进行了形式化定义，阐述了在 Hadoop 平台中的实现和工作流程，并通过实验验证了所提方案的性能开销相对较小。相似文献

13.

Handling query skew in large indexes: a view based approach

Weihuang HUANG Jeffrey Xu YU Zechao SHANG 《Frontiers of Computer Science》2018,12(1):146-162

Indexing is one of the most important techniques to facilitate query processing over a multi-dimensional dataset. A commonly used strategy for such indexing is to keep the tree-structured index balanced. This strategy reduces query processing cost in the worst case, and can handle all different queries equally well. In other words, this strategy implies that all queries are uniformly issued, which is partially because the query distribution is not possibly known and will change over time in practice. A key issue we study in this work is whether it is the best to fully rely on a balanced tree-structured index in particular when datasets become larger and larger in the big data era. This means that, when a dataset becomes very large, it becomes unreasonable to assume that all data in any subspace are equally important and are uniformly accessed by all queries at the index level. Given the existence of query skew and the possible changes of query skew, in this paper, we study how to handle such query skew and such query skew changes at the index level without sacrifice of supporting any possible queries in a wellbalanced tree index and without a high overhead. To tackle the issue, we propose index-view at the index level, where an index-view is a short-cut in a balanced tree-structured index to access objects in the subspaces that are more frequently accessed, and propose a new index-view-centric framework for query processing using index-views in a bottom-up manner. We study index-views selection problem in both static and dynamic setting, and we confirm the effectiveness of our approach using large real and synthetic datasets. 相似文献

14.

一种面向HDFS的多层索引技术

何龙陈晋川杜小勇《软件学报》2017,28(3):502-513

SOH（SQL over HDFS）系统通常将数据存储于分布式文件系统HDFS中,采用Map/Reduce或分布式查询引擎来处理查询任务。得益于HDFS以及Map/Reduce的容错能力和可扩展性,SOH系统可以很好地应对数据规模的飞速增长,完成分析型查询处理。然而,在处理选择型查询或交互式查询时,这类系统暴露出性能上的缺陷。本文提出一个通用的索引技术,可以应用于SOH系统中,以提高其查询处理的效率。分析了SOH系统访问HDFS文件的过程,指出了其中影响数据加载时间的关键因素;提出了split层和split内部双层索引机制;设计并实现了聚集索引和非聚集索引。最后,在标准数据集上进行了大量实验,并与现有基于HDFS的索引技术进行了比较。实验结果表明,所提出的索引技术可以有效地提高查询处理的效率。相似文献

15.

基于频繁序列挖掘的文件系统缓存算法设计

杜科星张小芳张晓赵小南《计算机应用研究》2022,39(3):831-835

传统缓存算法存在命中率低、交换率高等问题,且现有缓存算法在分布式大数据存储系统中并不适用,为此提出了一种基于频繁序列挖掘的自适应缓存策略。该方法使用数据挖掘算法挖掘历史访问窗口内的频繁序列,将频繁序列模糊合并后构建匹配模式集合以供查询。当新的访问来临时,将固定访问长度内的子序列与匹配模式集合进行匹配,然后根据匹配结果预取数据,同时结合修改后的S4LRU(4-segmented least recently used)数据结构进行缓存数据换出。在公开的大数据处理trace集上进行了仿真实验,实验结果表明,在不同的缓存大小下,提出算法与现有典型缓存算法相比,平均命中率提高了0.327倍,平均交换率降低了0.33倍,同时具有低开销和高时效的特点。此结果表明,该方法较传统替换算法而言是一个更为有效的缓存策略。相似文献

16.

基于云计算和物联网的网络大数据技术研究

姜迪清张丽娜《计算机测量与控制》2017,25(11)

为了使网络大数据应用的范围更广,更大程度地提高网络数据存储与管理精度,减少网络数据处理与控制的时间,需要对网络大数据进行研究。当前的网络大数据研究方法多是采用Hadoop基础架构对网络大数据进行研究,在数据存储中没有设定具体的安全存储指标,无法得到数据安全存储指标权重,存在数据存储安全性能低,网络大数据研究精度偏差大等问题。为此,提出一种基于云计算和物联网的网络大数据研究方法。该方法首先利用分级网络编码对网络数据进行传输,以传输的数据为基础,采用CRC算法实现网络数据的计算,然后依据分组存储的方式将数据进行存储,最后利用分层逆序叠加定位法对网络数据进行高精度查询,由此完成对网络大数据的研究。实验结果表明,所提方法可以全面具体地对网络大数据进行研究,提高了数据处理精度和网络数据计算速度,增加了网络数据存储空间容量和查询效率,减少了网络数据运行时的丢失率,扩展了网络数据的运作范围,为后续网络大数据的研究提供了强有力的依据。相似文献

17.

副本协作预取中文件相关性查询机制

田田罗军舟宋爱波东方《软件学报》2013,24(9):2117-2131

副本协作预取是一种网格副本复制策略,旨在通过获取隐性高价值文件进一步降低数据访问延迟.副本协作预取的关键在于隐性高价值文件的确定和获取,因此,提高隐性高价值文件获取的速度能够大幅度提升副本协作预取的性能.利用DHT(distributed hash table)组织网格节点,以快速定位隐性高价值文件查询所必需的文件相关性信息.针对隐性高价值文件的特殊查询模式,提出基于预取规则树的文件相关性信息存储结构及其查询机制,以提高查询效率.基于真实网格作业运行记录的实验,验证了所提出方法的有效性和高效性. 相似文献

18.

多路R树连接的加权处理

姜素芳陈天滋《计算机工程与应用》2006,42(31):174-178

空间连接运算是空间数据查询中最重要、最耗时的基本操作之一,其中基于R树的空间连接(RJ)被认为是一种高效的处理机制,但在空间连接的精化阶段处理复杂的空间数据时需要很大的系统开销。基于MBR及直接查询谓词,提出了一种加权处理方法,并扩展了R树结构及MRJ算法。从而优化了多路R树连接的筛选处理,能得到更加有效的候选集;同时,减少了磁盘访问次数,可节省CPU及I/O的时间开销。还通过应用实例验证了其在空间数据库查询优化方面的优势。相似文献

19.

A MapReduce-based scalable discovery and indexing of structured big data

《Future Generation Computer Systems》2017

Various methods and techniques have been proposed in past for improving performance of queries on structured and unstructured data. The paper proposes a parallel B-Tree index in the MapReduce framework for improving efficiency of random reads over the existing approaches. The benefit of using the MapReduce framework is that it encapsulates the complexity of implementing parallelism and fault tolerance from users and presents these in a user friendly way. The proposed index reduces the number of data accesses for range queries and thus improves efficiency. The B-Tree index on MapReduce is implemented in a chained-MapReduce process that reduces intermediate data access time between successive map and reduce functions, and improves efficiency. Finally, five performance metrics have been used to validate the performance of proposed index for range search query in MapReduce, such as, varying cluster size and, size of range search query coverage on execution time, the number of map tasks and size of Input/Output (I/O) data. The effect of varying Hadoop Distributed File System (HDFS) block size and, analysis of the size of heap memory and intermediate data generated during map and reduce functions also shows the superiority of the proposed index. It is observed through experimental results that the parallel B-Tree index along with a chained-MapReduce environment performs better than default non-indexed dataset of the Hadoop and B-Tree like Global Index (Zhao et al., 2012) in MapReduce. 相似文献