首页 | 本学科首页   官方微博 | 高级检索  
     

面向分布式环境的分层数据采集技术研究
作者单位:;1.杭州市保密技术测评中心;2.浙江工业大学计算机科学与技术学院
摘    要:目的:研究使用基于Flume的流式数据分层采集技术,以提高数据采集的可靠性与有效性,为流计算引擎提供稳定的数据流。方法:使用基于Flume的流式数据分层采集模型,并在此基础上提出分层采集进程监控方法和基于分组的双层哈希负载均衡方法。结果:从数据迁移率、吞吐量、节点平均耗时三个指标进行评价,实验结果表明,运用基于分组的双层哈希负载均衡方法能有效地均衡节点间的负载,提高数据采集效率。结论:分布式环境下,运用基于Flume的流式数据分层采集模型,所提的分层采集进程监控方法和双层哈希负载均衡方法可有效提高数据采集的稳定性与可靠性,因而可为流计算引擎提供实时、稳定的数据流。

关 键 词:Flume架构  数据采集  数据流  负载均衡

Research on the hierarchical data collection technology for a distributed environment
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号