首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
气象数据生产过程中秒级数据流量达到6万次/秒,为了对海量气象数据进行实时监控,快速定位数据观测、传输、处理、服务全流程中各环节故障,研发了对监视数据的采集和处理框架.基于REST接口和Flume框架实时采集原始监视信息,采用Kafka实现监视数据流的缓冲和持久化存储,在Spark Streaming流式计算平台上实现对监视数据的预处理、指标计算,并对告警事件进行归并、压缩等处理,最终生成面向运维人员的告警.同时、上述系统采用故障仿真压测技术,对系统可能出现的故障进行了模拟压力测试.实验结果表明,上述框架能有效地解决海量监视数据的高效采集和处理,能够实时捕捉故障并进行有效分析与排除,其处理时效和准确性满足气象综合业务实时监控的需求.  相似文献   

2.
气象自动站数据准确度高、时间和空间分辨率强,但在当前预报应用中表现形式相对单一,传统气象数据处理手段无法有效、实时直观展示气象数据的时间与空间特性,导致自动站数据的利用受到了一定的限制。为发挥自动站数据的时空优势,通过使用GIS在空间数据管理和分析上的强大功能,实现自动站数据实时显示、气象要素查询结果 GIS可视化表达等功能,为自动站数据提供一个稳定、方便、快捷的数据平台,提高气象业务工作效率。该系统已在上海市嘉定区气象局业务中得到应用,明显提升了气象数据的运用水平。  相似文献   

3.
依据气象业务的需求,针对以往自动站系统存在的不足,设计并实现了用于中小尺度的自动站监测和气象预警系统。使用SQLite作为缓存数据库,提高了系统执行效率,使用二三维联动GIS平台展示、分析数据,重点介绍缓存数据库的使用和对复杂表达式的支持与GIS技术相结合的设计原理,实例表明,该系统可以实时显示自动站气象数据,并且可以进行可靠地预警分析。  相似文献   

4.
沈洪 《Internet》2014,(3):110-112
Spark Streaming是建立在Spark上的实时计算框架,通过它提供的API和基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景及目前在阿里生产环境中的应用实践。  相似文献   

5.
肇庆市气象自动站要素统计查询系统是针对肇庆市37个气象自动站和该市气象台相关业务而通过VisualC#设计实现的,系统可以实现查询、统计各个气象自动站的要素数据。通过举例介绍VisualC#在肇庆市气象站要素统计查询系统中局部放大、控件数组和抓屏三个关键模块的应用,说明了如何利用VisualC#的强大功能,快速开发软件。对使用VisualC#的编程人员有一定的参考价值。  相似文献   

6.
肇庆市气象自动站要素统计查询系统是针对肇庆市37个气象自动站和该市气象台相关业务而通过Visual C#设计实现的.系统可以实现查询、统计各个气象自动站的要素数据。通过举例介绍Visual C#在肇庆市气象站要素统计查询系统中局部放大、控件数组和抓屏三个关键模块的应用,说明了如何利用Visual C#的强大功能,快速开发软件。对使用Visual C#的编程人员有一定的参考价值。  相似文献   

7.
自动站数据的WebGIS信息发布及关键算法实现   总被引:1,自引:0,他引:1  
为了更好地实现气象科学数据共享,给出自动气象站采集气象要素的WebGIS信息发布系统的功能实现和展示。系统完成了自动站观测数据的实时查询显示及数据事件机制,实现自动站周边下垫面空间查询分析,并结合WebService完成自动站观测要素值空间插值算法等关键功能接口。总之,WebGIS确实是实现气象数据共享的较佳实现方案,而在WebGIS系统的基础上使用和建立WebService服务,实现空间插值及分析等一系列过程复杂、计算量较大的功能性Web接口,可提升共享数据的加工质量和服务标准。  相似文献   

8.
武志学 《计算机应用》2017,37(4):928-935
能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生快、实时性强、数据量大,所以很难统一采集并入库存储后再作处理,这便导致传统的数据处理架构不能满足需求。为此,提出基于Spark Streaming大数据流式技术构建一个实时能耗分项计量系统,对实时能耗分项计量的系统架构和内部结构进行了详细介绍,并通过实验数据分析了系统的实时数据处理能力。与传统架构不同,实时能耗分项计量系统在数据流动的过程中实时地进行捕捉和处理,一方面把捕捉到的异常信息及时报警到前端,同时把分类分项统计处理的结果保存到数据库,以便进行离线分析和数据挖掘,能有效地解决上述数据处理过程中遇到的问题。  相似文献   

9.
陈凯  陈斌 《数字社区&智能家居》2011,(31):7572-7573,7578
该文主要运用Delphi技术和SQL Server 2005数据库,对全省上千个自动气象站和中尺度加密站的气象资料进行运算和处理,建立实时气象资料数据库,并在此基础上进行统计,充分利用计算机的自动及快捷查询功能,为气象业务和服务提供先进、及时的气象数据.  相似文献   

10.
自动站观测数据在气象业务和科研工作中具有重要的价值,经过多年的发展,气象部门积累了大量的自动站观测数据,现有的传统关系型数据库无法满足对历史自动站数据的快速查询与分析.基于对HBase分布式数据库的研究,建立了自动站数据在HBase数据库中的表结构,完成了自动站历史数据的批量入库,实现了历史数据的快速查询和导出功能,满足了科研人员的业务需求.  相似文献   

11.
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。  相似文献   

12.
易佳  薛晨  王树鹏 《计算机科学》2017,44(5):172-177
分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。  相似文献   

13.
基于HBase的气象地面分钟数据分布式存储系统   总被引:1,自引:0,他引:1  
针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。  相似文献   

14.
物联网感知流数据多以时序数据为主,具有数据量大、连续到达、多来源等特点。现有的基于HBase的交通流数据存储系统在数据写入并发量大时,仍然存在存储效率低与系统可用性不高的问题。针对该问题,设计并实现了基于负载均衡的多源流数据实时存储系统。该系统将数据代理扩展为集群架构,提出了一种基于负载均衡的任务调度算法,实现了任务与数据代理之间的按序匹配,使数据代理集群负载均衡地处理任务,实现数据并行存储到HBase数据库中。实验对比结果表明:该系统使各数据代理的数据分配比例维持在0.3~0.4,同时以约1.5倍于单数据代理的速度将数据写入HBase数据库。  相似文献   

15.
由于电力调度网出现任何网络故障都可能发生极度严重的事故,因此具有的极高可靠性及安全性的要求.而当前传统的网络监测系统在面对大数据量时,其实时处理能力和扩展能力都无法满足需求.因此对实时产生的大规模各类型数据的分析处理则需要一种专门的实时数据分析平台完成.本文结合电力调度信息网络的特点以及监测准确性及实时性的需求,构建出一个基于流计算的数据处理分析平台,以Apache Spark中的Spark Streaming为代表的开源流计算框架,加入如Kafka分布式消息队列、Redis内存数据库等组件,为数据分析平台提供稳定高效的数据来源和数据服务接口,从而实现适用于电力调度网的各类海量数据的实时分析处理完成流量异常监测场景.  相似文献   

16.
Energy efficiency of data analysis systems has become a very important issue in recent times because of the increasing costs of data center operations. Although distributed streaming workloads have increasingly been present in modern data centers, energy‐efficient scheduling of such applications remains as a significant challenge. In this paper, we conduct an energy consumption analysis of data stream processing systems in order to identify their energy consumption patterns. We follow stream system benchmarking approach to solve this issue. Specifically, we implement Linear Road benchmark on six stream processing environments (S4, Storm, ActiveMQ, Esper, Kafka, and Spark Streaming) and characterize these systems' performance on a real‐world data center. We study the energy consumption characteristics of each system with varying number of roads as well as with different types of component layouts. We also use a microbenchmark to capture raw energy consumption characteristics. We observed that S4, Esper, and Spark Streaming environments had highest average energy consumption efficiencies compared with the other systems. Using a neural networkbased technique with the power/performance information gathered from our experiments, we developed a model for the power consumption behavior of a streaming environment. We observed that energy‐efficient execution of streaming application cannot be specifically attributed to the system CPU usage. We observed that communication between compute nodes with moderate tuple sizes and scheduling plans with balanced system overhead produces better power consumption behaviors in the context of data stream processing systems. Copyright © 2016 John Wiley & Sons, Ltd.  相似文献   

17.
视频监控技术在交通管理、公共安全、智慧城市等方面有着广泛的应用前景,且向着智能识别、实时处理、大数据分析的方向发展. 本文针对大规模实时视频监控提出了新的解决方案. 基于Spark streaming流式计算、分布式存储及OLAP框架,使多路视频处理在可扩展性、容错性及数据多维聚合分析上具有明显的优势. 系统根据视频处理算法划分为单机处理与分布式处理. 并将视频图像处理与数据分析耦合,利用Kafka消息队列与Spark streaming完成对多路视频输出数据的进一步操作. 结合分布式存储方案,并利用OLAP框架实现对海量数据实时多维聚合分析与高效实时查询.  相似文献   

18.
谭亮  周静 《计算机系统应用》2018,27(10):133-139
交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了一个实时交通数据处理平台,用于处理通过双基基站采集的数据,采用时间窗口机制从持续的Kafka分布式消息队列中获取数据,并按照规则将数据分类处理后保存到数据库.本文对平台的系统架构和内部结构进行了详细的介绍,并通过实验验证了系统的实时处理能力,完全可以在大规模高并发的数据流下进行应用.  相似文献   

19.
分布式集群环境使得数据实时计算更为复杂,流式大数据处理系统的正确性难以保障.现有的大数据基准测试框架可以测试流式大数据处理系统的性能表现,但是普遍存在应用场景设计简单、评价指标不充分等不足.针对这一挑战,本文构造了一个面向股票交易场景的流式大数据基准测试框架,通过生成股票高频交易数据,测试系统在高流速场景下的延迟、吞吐量、GC时间、CPU资源等的性能表现.同时,通过横向测试验证流式大数据系统的扩展性.本文以Apache Spark Streaming为待测系统进行测试,实验结果表明,高流速场景下出现延迟增加、GC时间提高等性能下降问题,原因是系统输入速率的提高及并行度的增加.  相似文献   

20.
陈连栋  张蕾  曲武  孔明 《计算机科学》2016,43(3):127-136, 162
僵尸网络通过控制的主机实现多类恶意行为,使得当前的检测方法失效,其中窃取敏感数据已经成为主流。鉴于僵尸网络实现的恶意行为,检测和减轻方法的研究已经势在必行。提出了一种新颖的分布式实时僵尸网络检测方法,该方法通过将Netflow组织成主机Netflow图谱和主机关系链,并提取隐含的C&C通信特征来检测僵尸网络。同时,基于Spark Streaming分布式实时流处理引擎,使用该算法实现了BotScanner分布式检测系统。为了验证该系统的有效性,采用5个主流的僵尸网络家族进行训练,并分别使用模拟网络流量和真实网络流量进行测试。实验结果表明,在无需深度包解析的情况下,BotScanner分布式检测系统能够实时检测指定的僵尸网络,并获得了较高的检测率和较低的误报率。而且,在真实的网络环境中,BotScanner分布式检测系统能够进行实时检测,加速比接近线性,验证了Spark Streaming引擎在分布式流处理方面的优势,以及用于僵尸网络检测方面的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号