期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

金国栋卞昊穹陈跃国杜小勇《软件学报》2020,31(1):137-161

HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向. 相似文献

2.

一个基于演化聚类的RDF数据管理系统

华雯王琰陈跃国陈晋川杜小勇《计算机研究与发展》2010,47(Z1)

在RDF数据存储方案中,现有的方法取消了元数据管理层,直接对数据进行操作,导致两个缺点的产生.首先,用户无法理解数据之间的关联,不利于下一步的数据集成.其次,缺乏元数据的描述信息,系统无法根据元信息划分数据块,使得数据的查询效率也随之下降.提出了一个基于演化聚类的、根据数据输入时抽取到的RDF数据元信息存储数据的RDF数据管理系统. 相似文献

3.

分布式实时数据处理系统的设计与实现

韩凯陈跃国王京春《计算机工程》2005,31(23):227-228,231

国家“863”计划基金资助重点课题“生产计划与实时优化调度系统研究”子课题“实时数据库系统研究”（2002AA412020）相似文献

4.

Efficient Distributed Skyline Queries for Mobile Applications 总被引：3，自引：0，他引：3

下载免费PDF全文

Ying-Yuan Xiao 《计算机科学技术学报》2010,25(3):523-536

In this paper, we consider skyline queries in a mobile and distributed environment, where data objects are distributed in some sites (database servers) which are interconnected through a high-speed wired network, and queries are issued by mobile units (laptop, cell phone, etc.) which access the data objects of database servers by wireless channels. The inherent properties of mobile computing environment such as mobility, limited wireless bandwidth, frequent disconnection, make skyline queries more complicated. We show how to efficiently perform distributed skyline queries in a mobile environment and propose a skyline query processing approach, called efficient distributed skyline based on mobile computing (EDS-MC). In EDS-MC, a distributed skyline query is decomposed into five processing phases and each phase is elaborately designed in order to reduce the network communication, network delay and query response time. We conduct extensive experiments in a simulated mobile database system, and the experimental results demonstrate the superiority of EDS-MC over other skyline query processing techniques on mobile computing. 相似文献

5.

RDF 数据查询处理技术综述 总被引：9，自引：2，他引：9

杜方陈跃国杜小勇《软件学报》2013,24(6):1222-1242

随着语义网以及信息抽取技术等研究的发展,Web上涌现出越来越多的RDF数据,海量RDF数据的管理,已经成为学术界和工业界研究的热点之一。从RDF数据集形态及RDF数据组织存储两个维度以及查询表述、查询处理、查询优化等方面,深入地分析和比较了RDF数据查询处理方法,并在此基础上提出了未来研究的方向和挑战。相似文献

6.

面向多核CPU和GPU平台的数据库星形连接优化

刘专韩瑞琛张延松陈跃国张宇《计算机应用》2021,41(3):611-617

针对联机分析处理(OLAP)中事实表与多个维表之间的星形连接执行代价较高的问题,提出了一种在先进的多核中央处理器(CPU)和图形处理器(GPU)上的星形连接优化方法.首先,对于多核CPU和GPU平台的星形连接中的物化代价问题,提出了基于向量索引的CPU和GPU平台上的向量化星形连接算法;然后,通过面向CPU cache... 相似文献

7.

大数据分析的应用案例——投资模型的稳健性

覃雄派陈跃国王邦国《计算机应用》2017,37(3):660-667

交易模型的稳健性,指的是该模型的利润率曲线的波动性较小,没有大起大落。针对一个基于支持向量回归（SVR）技术的算法交易模型的稳健性问题,提出了使用若干导出指标训练统一的交易模型的策略,以及投资组合多样化的方法。首先,介绍基于支持向量回归技术的算法交易模型;然后,基于常用指标,构造了若干导出指标,用于股票价格的短期预测。这些指标,刻画了近期价格运动的典型模式、超买/超卖市场状态,以及背离市场状态。对这些指标进行了规范化,用于训练交易模型,使得模型可以泛化到不同的股票;最后,设计了投资组合多样化方法。在投资组合里,各个股票之间的相关性,有时会导致较大的投资损失;因为具有较强相关关系的股票,其价格朝相同方向变化。如果交易模型预测的价格走势不正确,引起止损操作,那么这些具有较强相关关系的股票,将引发雪崩式的止损,于是导致损失加剧。把股票根据相似性聚类到不同类别,通过从不同聚类类别中选择若干股票来构成多样化的投资组合,其中,股票的相似性,通过交易模型在不同股票上近期的利润曲线的相似度进行计算。在900只股票10年的价格大数据上进行了实验,实验结果显示,交易模型能够获得超过定期存款的超额利润率,年化利润率为8.06%。交易模型的最大回撤由13.23%降为5.32%,夏普指数由81.23%提高到88.79%,交易模型的利润率曲线波动性降低,说明交易模型的稳健性获得了提高。相似文献

8.

基于自适应模式的SPARQL查询与优化

王晓方杜小勇陈跃国王琰《计算机研究与发展》2010,47(Z1)

传统的RDF存储系统直接将三元组存放到含有3列的关系数据库表中.具体查询时,需扫描整张三元组表,并通过连接操作产生最后的结果.虽然存储直观、实现方便,但是由于每个子查询都需要在整个三元组表上进行,查询效率较低.同时,当实例属性比较多时,大量的连接操作也对查询效率造成影响.为了克服这些缺点,在RDF自适应模式存储系统FlexTable系统上,搭建一个SPARQL查询引擎,将SPARQL查询语句映射到SQL语句,同时根据数据字典信息,对转化后的SQL语句进行优化,提高了查询效率. 相似文献

9.

实体搜索综述

张香玲陈跃国马登豪陈峻杜小勇《软件学报》2017,28(6):1584-1605

与传统的以网页页面集合的方式呈现搜索结果不同,实体搜索的结果是实体或实体集合,其优点是无需用户在纷杂的网页里面进行二次查找,更能提升用户的搜索体验.实体搜索的任务可以分为相关实体搜索和相似实体搜索.本文对近年来这两类任务的实体搜索技术进行综述.首先给出了实体搜索的形式化的定义,并介绍了常用的评测指标;然后对两种不同形式的实体搜索任务在两类数据源(非结构化数据集和结构化数据集)上的主要研究方法进行详细阐述和对比;最后对未来的研究内容和发展方向进行了探讨和展望. 相似文献

10.

数据科学导论课程建设与反思

覃雄派陈跃国范举《计算机教育》2023,(2):64-67+73

针对数据科学导论课程建设中的若干问题,包括该课程内容和后续其他课程内容的切割与衔接以及如何实现培养学生动手能力的教学目标等,提出在数据科学导论课程中对教学内容进行选讲和精讲,同时设计一系列示例、小练习和2个大作业,并给出大作业的评价标准,旨在提高学生动手能力。相似文献