首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 156 毫秒
1.
基于Spark Streaming计算框架的分布式Top-K关键字查询是统计流数据中所有关键字的热点研究问题。多数研究通过限定存储空间来实现Top-K关键字查询,并假设关键字集合已知。针对这个问题,提出一种可应用于关键字集合未知情况的分布式Top-K关键字查询算法,根据监测到的关键字动态地调整存储空间,通过更新策略的优化提升其精度。实验结果表明,该算法的性能在关键字集合未知的情况下比现有算法更优。  相似文献   

2.
郑诗敏  秦小麟  刘亮  周倩 《计算机科学》2017,44(3):10-15, 35
基于Spark Streaming计算框架下的分布式突发关键字查询是监测流数据中关键字突发时间的热点研究问题。多数研究方法存储统计所有的关键字,并未考虑热点关键字。在数据呈爆炸式增长的背景下,获取热点关键字的突发时间更具有价值。针对这个问题,提出一种分布式突发关键字查询算法,该算法采用动态的更新策略,通过设置检查点的方法提取热点关键字,并在线性的时间内查询突发的时间范围。实验结果表明,该算法的性能比现有算法更优。  相似文献   

3.
由于电力调度网出现任何网络故障都可能发生极度严重的事故,因此具有的极高可靠性及安全性的要求.而当前传统的网络监测系统在面对大数据量时,其实时处理能力和扩展能力都无法满足需求.因此对实时产生的大规模各类型数据的分析处理则需要一种专门的实时数据分析平台完成.本文结合电力调度信息网络的特点以及监测准确性及实时性的需求,构建出一个基于流计算的数据处理分析平台,以Apache Spark中的Spark Streaming为代表的开源流计算框架,加入如Kafka分布式消息队列、Redis内存数据库等组件,为数据分析平台提供稳定高效的数据来源和数据服务接口,从而实现适用于电力调度网的各类海量数据的实时分析处理完成流量异常监测场景.  相似文献   

4.
针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据,Spark Streaming对数据进行流式处理并存储到HBase数据库中,并设计Spark框架下的自动站数据流式入库处理算法和要素极值的实时统计算法,在Cloudera平台下实现了一个高速可靠的实时采集、处理、统计的应用系统。通过对比分析和性能监测,验证了该系统具有低延迟和高吞吐量的优势,运行状况良好,负载均衡。实验结果表明,Spark Streaming用于气象自动站的实时业务处理,数据并行写入HBase、基于HBase的查询和各类要素统计均能达到毫秒级响应,完全能满足自动站数据的应用需求,有效地支撑天气预报业务。  相似文献   

5.
付眸  杨贺昆  吴唐美  何润  冯朝胜  康胜 《计算机应用》2018,38(12):3500-3508
针对单机视频转码方法转码速度较慢和面向批处理的并行转码方法效率提升有限的问题,基于Spark Streaming分布式流处理框架,提出了一种面向流处理的快速视频转码方法。首先,使用开源多媒体处理工具FFmpeg,构建了自动化的视频切片模型,提出编程算法;然后,针对并行视频转码的特点,对弹性分布式数据集(RDD)进行研究,构建了视频转码的流处理模型;最后,设计视频合并方案,将合并后的视频文件进行有效储存。根据所提出的快速视频转码方法设计与实现了基于Spark Streaming的快速视频转码系统。实验结果表明,与面向批处理Hadoop视频转码方法相比,所提方法转码效率提升了26.7%;与基于Hadoop平台的视频并行转码方法相比,该方法转码效率提升了20.1%。  相似文献   

6.
沈洪 《Internet》2014,(3):110-112
Spark Streaming是建立在Spark上的实时计算框架,通过它提供的API和基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景及目前在阿里生产环境中的应用实践。  相似文献   

7.
陈连栋  张蕾  曲武  孔明 《计算机科学》2016,43(3):127-136, 162
僵尸网络通过控制的主机实现多类恶意行为,使得当前的检测方法失效,其中窃取敏感数据已经成为主流。鉴于僵尸网络实现的恶意行为,检测和减轻方法的研究已经势在必行。提出了一种新颖的分布式实时僵尸网络检测方法,该方法通过将Netflow组织成主机Netflow图谱和主机关系链,并提取隐含的C&C通信特征来检测僵尸网络。同时,基于Spark Streaming分布式实时流处理引擎,使用该算法实现了BotScanner分布式检测系统。为了验证该系统的有效性,采用5个主流的僵尸网络家族进行训练,并分别使用模拟网络流量和真实网络流量进行测试。实验结果表明,在无需深度包解析的情况下,BotScanner分布式检测系统能够实时检测指定的僵尸网络,并获得了较高的检测率和较低的误报率。而且,在真实的网络环境中,BotScanner分布式检测系统能够进行实时检测,加速比接近线性,验证了Spark Streaming引擎在分布式流处理方面的优势,以及用于僵尸网络检测方面的可行性。  相似文献   

8.
项目数据来源于互联网电商网站的用户行为数据,包括访问行为、购物行为、广告点击行为等数据,对上述行为数据采用离线计算和实时计算方式,以期通过大数据技术提升公司效益,并根据行为数据分析结果改进产品设计,涉及的大数据技术包括Spark技术生态栈中的Spark Core、Spark SQL、Spark Streaming 3大技术框架,业务模块主要包括用户分析、转化率统计、热门商品离线统计、广告流量实时统计,提出了系统性能调优、troubleshooting以及数据倾斜处理的解决思路。  相似文献   

9.
崔光范  许利杰  刘杰  叶丹  钟华 《计算机科学》2018,45(9):104-112, 145
随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Spark的数据分析工具,目前已支持TPC-DS基准,成为大数据背景下传统数据仓库的替代解决方案。全文检索作为一种文本搜索的有效方式,能够与一般的查询操作结合使用,提供更加丰富的查询和分析操作。目前,Spark SQL仅支持简单的查询操作,不支持全文检索。为了满足传统业务迁移和现有业务的使用需求,提出了分布式全文检索框架,涵盖了SQL文法、SQL翻译转换框架、全文检索并行化、检索优化4个模块,并在Spark SQL上进行了实现。实验结果表明相比于传统的数据库,在两种检索优化策略下,该框架的索引构建时间、查询时间分别减少到传统数据库的0.6%/0.5%和1%/10%,索引存储量减少为传统数据库的55.0%。  相似文献   

10.
随着大数据云计算的发展,流数据管理越来越被重视,从早期的流数据管理系统(DSMS, Data Stream Management System)发展到现在的分布式流数据管理系统。但这些系统重点在于系统功能的实现,系统与用户的交互层面较为薄弱。本论文针对流数据管理系统与用户交互层面,选取了流系统持续查询语言CQL (Continues Query Language) 中支持监控的查询语句,结合SQL (Struct Query Language) 的语法规则做了相应的简化,设计了结构化持续查询语言CSQL,并通过ANTLR开发了词法和语法分析工具。另外,论文设计实现了可远程与系统交互的SDK(Software Development Kit)及客户端,提供登陆、查询、监控、删除和异步返回结果等功能,使分布式流查询系统的访问使用更为方便。  相似文献   

11.
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。  相似文献   

12.
分布式集群环境使得数据实时计算更为复杂,流式大数据处理系统的正确性难以保障.现有的大数据基准测试框架可以测试流式大数据处理系统的性能表现,但是普遍存在应用场景设计简单、评价指标不充分等不足.针对这一挑战,本文构造了一个面向股票交易场景的流式大数据基准测试框架,通过生成股票高频交易数据,测试系统在高流速场景下的延迟、吞吐量、GC时间、CPU资源等的性能表现.同时,通过横向测试验证流式大数据系统的扩展性.本文以Apache Spark Streaming为待测系统进行测试,实验结果表明,高流速场景下出现延迟增加、GC时间提高等性能下降问题,原因是系统输入速率的提高及并行度的增加.  相似文献   

13.
视频监控技术在交通管理、公共安全、智慧城市等方面有着广泛的应用前景,且向着智能识别、实时处理、大数据分析的方向发展. 本文针对大规模实时视频监控提出了新的解决方案. 基于Spark streaming流式计算、分布式存储及OLAP框架,使多路视频处理在可扩展性、容错性及数据多维聚合分析上具有明显的优势. 系统根据视频处理算法划分为单机处理与分布式处理. 并将视频图像处理与数据分析耦合,利用Kafka消息队列与Spark streaming完成对多路视频输出数据的进一步操作. 结合分布式存储方案,并利用OLAP框架实现对海量数据实时多维聚合分析与高效实时查询.  相似文献   

14.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号