排序方式: 共有12条查询结果,搜索用时 15 毫秒
1.
HDFS存储和优化技术研究综述 总被引:1,自引:0,他引:1
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向. 相似文献
2.
3.
Ying-Yuan Xiao 《计算机科学技术学报》2010,25(3):523-536
In this paper, we consider skyline queries in a mobile and distributed environment, where data objects are distributed in
some sites (database servers) which are interconnected through a high-speed wired network, and queries are issued by mobile
units (laptop, cell phone, etc.) which access the data objects of database servers by wireless channels. The inherent properties
of mobile computing environment such as mobility, limited wireless bandwidth, frequent disconnection, make skyline queries
more complicated. We show how to efficiently perform distributed skyline queries in a mobile environment and propose a skyline
query processing approach, called efficient distributed skyline based on mobile computing (EDS-MC). In EDS-MC, a distributed
skyline query is decomposed into five processing phases and each phase is elaborately designed in order to reduce the network
communication, network delay and query response time. We conduct extensive experiments in a simulated mobile database system,
and the experimental results demonstrate the superiority of EDS-MC over other skyline query processing techniques on mobile
computing. 相似文献
4.
5.
在RDF数据存储方案中,现有的方法取消了元数据管理层,直接对数据进行操作,导致两个缺点的产生.首先,用户无法理解数据之间的关联,不利于下一步的数据集成.其次,缺乏元数据的描述信息,系统无法根据元信息划分数据块,使得数据的查询效率也随之下降.提出了一个基于演化聚类的、根据数据输入时抽取到的RDF数据元信息存储数据的RDF数据管理系统. 相似文献
6.
针对联机分析处理(OLAP)中事实表与多个维表之间的星形连接执行代价较高的问题,提出了一种在先进的多核中央处理器(CPU)和图形处理器(GPU)上的星形连接优化方法。首先,对于多核CPU和GPU平台的星形连接中的物化代价问题,提出了基于向量索引的CPU和GPU平台上的向量化星形连接算法;然后,通过面向CPU cache和GPU shared memory大小的向量划分来提出基于向量粒度的星形连接操作,从而优化星形连接中向量索引的物化代价;最后,提出了基于压缩向量的星形连接算法,将定长向量索引压缩为变长的二元向量索引,从而在低选择率时提高cache内向量索引的存储访问效率。实验结果表明,在CPU平台上向量化星形连接算法相对于常规的行式或列式连接性能提升了40%以上,在GPU平台上向量化星形连接算法相对于常规星形连接算法性能提升超过了15%;与当前主流的内存数据库和GPU数据库相比,优化的星形连接算法性能相对于最优内存数据库Hyper性能提升了130%,相对于最优的GPU数据库OmniSci性能提升了80%。可见基于向量索引的向量化星形连接优化技术有效地提高了多表连接性能,与传统优化技术相比,基于向量索引的向量化处理提高了较小cache上的数据存储访问效率,压缩向量进一步提升了向量索引在cache内的访问效率。 相似文献
7.
传统的RDF存储系统直接将三元组存放到含有3列的关系数据库表中.具体查询时,需扫描整张三元组表,并通过连接操作产生最后的结果.虽然存储直观、实现方便,但是由于每个子查询都需要在整个三元组表上进行,查询效率较低.同时,当实例属性比较多时,大量的连接操作也对查询效率造成影响.为了克服这些缺点,在RDF自适应模式存储系统FlexTable系统上,搭建一个SPARQL查询引擎,将SPARQL查询语句映射到SQL语句,同时根据数据字典信息,对转化后的SQL语句进行优化,提高了查询效率. 相似文献
8.
交易模型的稳健性,指的是该模型的利润率曲线的波动性较小,没有大起大落。针对一个基于支持向量回归(SVR)技术的算法交易模型的稳健性问题,提出了使用若干导出指标训练统一的交易模型的策略,以及投资组合多样化的方法。首先,介绍基于支持向量回归技术的算法交易模型;然后,基于常用指标,构造了若干导出指标,用于股票价格的短期预测。这些指标,刻画了近期价格运动的典型模式、超买/超卖市场状态,以及背离市场状态。对这些指标进行了规范化,用于训练交易模型,使得模型可以泛化到不同的股票;最后,设计了投资组合多样化方法。在投资组合里,各个股票之间的相关性,有时会导致较大的投资损失;因为具有较强相关关系的股票,其价格朝相同方向变化。如果交易模型预测的价格走势不正确,引起止损操作,那么这些具有较强相关关系的股票,将引发雪崩式的止损,于是导致损失加剧。把股票根据相似性聚类到不同类别,通过从不同聚类类别中选择若干股票来构成多样化的投资组合,其中,股票的相似性,通过交易模型在不同股票上近期的利润曲线的相似度进行计算。在900只股票10年的价格大数据上进行了实验,实验结果显示,交易模型能够获得超过定期存款的超额利润率,年化利润率为8.06%。交易模型的最大回撤由13.23%降为5.32%,夏普指数由81.23%提高到88.79%,交易模型的利润率曲线波动性降低,说明交易模型的稳健性获得了提高。 相似文献
9.
10.
数据探索(data exploration)是有别于数据服务与数据分析的第3种体现大数据价值的技术手段。数据服务强调从微观层面获取满足用户需求的精准信息;数据分析强调从宏观层面为用户提供数据洞察,进而提供决策支持;而数据探索是一种支持用户在微观层面和宏观层面进行自由切换的、深入浅出的、交互式发掘数据价值的方式。首先,简要介绍大数据价值发掘的传统技术手段和特点,并引入探索式搜索;其次,详细阐述探索式搜索的定义与模型,总结探索式搜索的特点;随后,基于组件化的思想,设计探索式搜索系统框架,并综述每个组件所涉及到的挑战与关键技术;最后简要介绍了笔者在知识库探索式搜索方面的尝试。 相似文献