期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

金国栋卞昊穹陈跃国杜小勇《软件学报》2020,31(1):137-161

HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向. 相似文献

2.

分布式实时数据处理系统的设计与实现

韩凯陈跃国王京春《计算机工程》2005,31(23):227-228,231

国家“863”计划基金资助重点课题“生产计划与实时优化调度系统研究”子课题“实时数据库系统研究”（2002AA412020）相似文献

3.

Efficient Distributed Skyline Queries for Mobile Applications 总被引：3，自引：0，他引：3

下载免费PDF全文

Ying-Yuan Xiao 《计算机科学技术学报》2010,25(3):523-536

In this paper, we consider skyline queries in a mobile and distributed environment, where data objects are distributed in some sites (database servers) which are interconnected through a high-speed wired network, and queries are issued by mobile units (laptop, cell phone, etc.) which access the data objects of database servers by wireless channels. The inherent properties of mobile computing environment such as mobility, limited wireless bandwidth, frequent disconnection, make skyline queries more complicated. We show how to efficiently perform distributed skyline queries in a mobile environment and propose a skyline query processing approach, called efficient distributed skyline based on mobile computing (EDS-MC). In EDS-MC, a distributed skyline query is decomposed into five processing phases and each phase is elaborately designed in order to reduce the network communication, network delay and query response time. We conduct extensive experiments in a simulated mobile database system, and the experimental results demonstrate the superiority of EDS-MC over other skyline query processing techniques on mobile computing. 相似文献

4.

RDF 数据查询处理技术综述 总被引：11，自引：2，他引：9

杜方陈跃国杜小勇《软件学报》2013,24(6):1222-1242

随着语义网以及信息抽取技术等研究的发展,Web上涌现出越来越多的RDF数据,海量RDF数据的管理,已经成为学术界和工业界研究的热点之一。从RDF数据集形态及RDF数据组织存储两个维度以及查询表述、查询处理、查询优化等方面,深入地分析和比较了RDF数据查询处理方法,并在此基础上提出了未来研究的方向和挑战。相似文献

5.

一个基于演化聚类的RDF数据管理系统

华雯王琰陈跃国陈晋川杜小勇《计算机研究与发展》2010,47(Z1)

在RDF数据存储方案中,现有的方法取消了元数据管理层,直接对数据进行操作,导致两个缺点的产生.首先,用户无法理解数据之间的关联,不利于下一步的数据集成.其次,缺乏元数据的描述信息,系统无法根据元信息划分数据块,使得数据的查询效率也随之下降.提出了一个基于演化聚类的、根据数据输入时抽取到的RDF数据元信息存储数据的RDF数据管理系统. 相似文献

6.

面向多核CPU和GPU平台的数据库星形连接优化

刘专韩瑞琛张延松陈跃国张宇《计算机应用》2021,41(3):611-617

针对联机分析处理（OLAP）中事实表与多个维表之间的星形连接执行代价较高的问题,提出了一种在先进的多核中央处理器（CPU）和图形处理器（GPU）上的星形连接优化方法。首先,对于多核CPU和GPU平台的星形连接中的物化代价问题,提出了基于向量索引的CPU和GPU平台上的向量化星形连接算法;然后,通过面向CPU cache和GPU shared memory大小的向量划分来提出基于向量粒度的星形连接操作,从而优化星形连接中向量索引的物化代价;最后,提出了基于压缩向量的星形连接算法,将定长向量索引压缩为变长的二元向量索引,从而在低选择率时提高cache内向量索引的存储访问效率。实验结果表明,在CPU平台上向量化星形连接算法相对于常规的行式或列式连接性能提升了40%以上,在GPU平台上向量化星形连接算法相对于常规星形连接算法性能提升超过了15%;与当前主流的内存数据库和GPU数据库相比,优化的星形连接算法性能相对于最优内存数据库Hyper性能提升了130%,相对于最优的GPU数据库OmniSci性能提升了80%。可见基于向量索引的向量化星形连接优化技术有效地提高了多表连接性能,与传统优化技术相比,基于向量索引的向量化处理提高了较小cache上的数据存储访问效率,压缩向量进一步提升了向量索引在cache内的访问效率。相似文献

7.

基于自适应模式的SPARQL查询与优化

王晓方杜小勇陈跃国王琰《计算机研究与发展》2010,47(Z1)

传统的RDF存储系统直接将三元组存放到含有3列的关系数据库表中.具体查询时,需扫描整张三元组表,并通过连接操作产生最后的结果.虽然存储直观、实现方便,但是由于每个子查询都需要在整个三元组表上进行,查询效率较低.同时,当实例属性比较多时,大量的连接操作也对查询效率造成影响.为了克服这些缺点,在RDF自适应模式存储系统FlexTable系统上,搭建一个SPARQL查询引擎,将SPARQL查询语句映射到SQL语句,同时根据数据字典信息,对转化后的SQL语句进行优化,提高了查询效率. 相似文献

8.

大数据分析的应用案例——投资模型的稳健性

覃雄派陈跃国王邦国《计算机应用》2017,37(3):660-667

交易模型的稳健性,指的是该模型的利润率曲线的波动性较小,没有大起大落。针对一个基于支持向量回归（SVR）技术的算法交易模型的稳健性问题,提出了使用若干导出指标训练统一的交易模型的策略,以及投资组合多样化的方法。首先,介绍基于支持向量回归技术的算法交易模型;然后,基于常用指标,构造了若干导出指标,用于股票价格的短期预测。这些指标,刻画了近期价格运动的典型模式、超买/超卖市场状态,以及背离市场状态。对这些指标进行了规范化,用于训练交易模型,使得模型可以泛化到不同的股票;最后,设计了投资组合多样化方法。在投资组合里,各个股票之间的相关性,有时会导致较大的投资损失;因为具有较强相关关系的股票,其价格朝相同方向变化。如果交易模型预测的价格走势不正确,引起止损操作,那么这些具有较强相关关系的股票,将引发雪崩式的止损,于是导致损失加剧。把股票根据相似性聚类到不同类别,通过从不同聚类类别中选择若干股票来构成多样化的投资组合,其中,股票的相似性,通过交易模型在不同股票上近期的利润曲线的相似度进行计算。在900只股票10年的价格大数据上进行了实验,实验结果显示,交易模型能够获得超过定期存款的超额利润率,年化利润率为8.06%。交易模型的最大回撤由13.23%降为5.32%,夏普指数由81.23%提高到88.79%,交易模型的利润率曲线波动性降低,说明交易模型的稳健性获得了提高。相似文献

9.

实体搜索综述

张香玲陈跃国马登豪陈峻杜小勇《软件学报》2017,28(6):1584-1605

与传统的以网页页面集合的方式呈现搜索结果不同,实体搜索的结果是实体或实体集合,其优点是无需用户在纷杂的网页里面进行二次查找,更能提升用户的搜索体验.实体搜索的任务可以分为相关实体搜索和相似实体搜索.本文对近年来这两类任务的实体搜索技术进行综述.首先给出了实体搜索的形式化的定义,并介绍了常用的评测指标;然后对两种不同形式的实体搜索任务在两类数据源(非结构化数据集和结构化数据集)上的主要研究方法进行详细阐述和对比;最后对未来的研究内容和发展方向进行了探讨和展望. 相似文献

10.

大数据探索式搜索研究

杜小勇陈峻陈跃国《通信学报》2015,36(12):77-88

数据探索(data exploration)是有别于数据服务与数据分析的第3种体现大数据价值的技术手段。数据服务强调从微观层面获取满足用户需求的精准信息;数据分析强调从宏观层面为用户提供数据洞察,进而提供决策支持;而数据探索是一种支持用户在微观层面和宏观层面进行自由切换的、深入浅出的、交互式发掘数据价值的方式。首先,简要介绍大数据价值发掘的传统技术手段和特点,并引入探索式搜索;其次,详细阐述探索式搜索的定义与模型,总结探索式搜索的特点;随后,基于组件化的思想,设计探索式搜索系统框架,并综述每个组件所涉及到的挑战与关键技术;最后简要介绍了笔者在知识库探索式搜索方面的尝试。相似文献