面向大规模流数据的可扩展分布式实时处理方法 A Scalable and Distributed Method for Processing Large-Scale Data Streams in Real-Time期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向大规模流数据的可扩展分布式实时处理方法

作者单位：	;1.山东省科学院情报研究所;2.济南大学泉城学院;3.燕山大学信息科学与工程学院

摘要：	MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力。实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性。
关键词：	大数据分布式计算流数据处理 MapReduce
A Scalable and Distributed Method for Processing Large-Scale Data Streams in Real-Time

Abstract:

Keywords:
本文献已被 CNKI 等数据库收录！