首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于Storm的海量数据实时聚类   总被引:1,自引:0,他引:1  
针对现有平台处理海量数据实时响应能力普遍较差的问题,引入Storm分布式实时计算平台进行大规模数据的聚类分析,设计了基于Storm框架的DBSCAN算法。该算法将整个过程分为数据接入、聚类分析、结果输出等阶段,在框架预定义的组件中分别编程实现,各组件通过数据流连通形成任务实体,提交到集群运行完成。通过对比分析和性能监测,验证了所提方案具有低延迟和高吞吐量的优势,集群运行状况良好,负载均衡。实验结果表明Storm平台处理海量数据实时性较高,能够胜任大数据背景下的数据挖掘任务。  相似文献   

2.
根据煤矿安全生产业务需求及智慧矿山发展要求,新型的煤矿数据中心需满足对同一时空坐标体系下煤矿海量、多元数据的高效处理、缓存、计算、存储与发布。针对传统煤矿数据中心各类数据离散存储,数据集成、业务应用及数据分析难度大等问题,设计了一种基于Hadoop的煤矿数据中心架构。采用Storm实时数据流引擎进行数据实时计算,并应用MapReduce,Spark实现批处理计算和内存计算,解决高频时序数据存储与海量数据计算问题;采用Hadoop分布式文件系统(HDFS)实现文件的可靠存储,并采用HBase分布式存储数据库实现历史数据的持久化存储,利用其无模式稀疏设计满足同一时空坐标体系下的数据分析需求;采用Redis作为实时数据库存储数据快照进行最新数据检索。基于Hadoop的煤矿数据中心充分利用大数据技术的高速数据存取和压缩性能,通过统一的云计算数据中心,有效降低了煤炭企业数据应用的复杂度及数据中心日常运维难度,可为智慧矿山建设奠定数据基础。  相似文献   

3.
针对传统的电力网络流量检测安全预警系统在面对海量高维度数据时,其在精度、实时性、扩展性以及效率上都无法满足需求的问题,建立出一种基于Spark的电网工控系统流量异常检测平台.该平台以Spark为计算框架,主要由数据采集与网络流量深度包检测协议解析模块,实时计算数据分析处理模块,安全预警预测模块和数据存储模块组成,为流量异常检测提出了一套完整的流程.实验结果表明,该平台能够有效地检测出异常流量,做出安全预警,方便工作人员及时做出决策,这充分说明该平台非常适用于电力控制系统,能够应对海量高维复杂数据做出实时分析以及安全预警,极大地提高了电网工控系统的安全性能.  相似文献   

4.
随着教学资源的飞速增长,海量数据的存储已经成为高校研究的一个新难题。针对传统存储架构已突显管理数据资源效率不高和存储能力不足的问题。本文提出基于Hadoop的海量数据存储模型,并在此模型的基础上设计并实现了基于Hadoop的大规模分布式存储管理平台。事实证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据处理的效率。  相似文献   

5.
针对目前云计算平台监控手段实时性差的问题,提出一种基于大数据流处理技术的云计算平台实时监控方案。该方案采用实时计算系统Storm作为核心,使用iostat、mpstat等工具获取服务器性能信息,使用Flume和Libvirt获取全方位的日志信息以及云主机状态信息。获取到的信息以数据流的形式传至Storm,然后进行数据清洗、关键词匹配等实时分析。在模拟生产环境下对该方案进行测试,结果表明:该方案能够实现对大规模云计算平台进行实时监控,而且具有高可靠性、高扩展性的的优点,达到研究效果。  相似文献   

6.
严元  王海婴 《软件》2012,33(12)
在雷电信息综合处理平台中,高速数据的实时接收处理对于系统平台的性能以及数据的完整性具有很重要的影响.系统设计中探讨了一种在系统主控端如何在内存中进行数据的拆分存储,同时对原始数据和定位信息的实时显示的方案.在硬件系统中采用合适的板卡以满足数据的采集要求,同时利用磁盘阵列以满足数据的存储要求;在软件系统中采用Qt完成定位信息的显示以及整个软件平台,同时利用Qwt数据的动态显示;算法上针对数据流的格式在内存中进行相应的拆分存储.  相似文献   

7.
气象数据生产过程中秒级数据流量达到6万次/秒,为了对海量气象数据进行实时监控,快速定位数据观测、传输、处理、服务全流程中各环节故障,研发了对监视数据的采集和处理框架.基于REST接口和Flume框架实时采集原始监视信息,采用Kafka实现监视数据流的缓冲和持久化存储,在Spark Streaming流式计算平台上实现对监视数据的预处理、指标计算,并对告警事件进行归并、压缩等处理,最终生成面向运维人员的告警.同时、上述系统采用故障仿真压测技术,对系统可能出现的故障进行了模拟压力测试.实验结果表明,上述框架能有效地解决海量监视数据的高效采集和处理,能够实时捕捉故障并进行有效分析与排除,其处理时效和准确性满足气象综合业务实时监控的需求.  相似文献   

8.
现有的金融行业的数据管理模式主要依赖于传统关系型数据库,然而传统架构受到拓展能力和存储性能的限制,难以满足大数据时代快速增长的海量数据量处理的需要。针对金融数据规模大、跨地域、跨系统存储、数据多样化等特点,提出了HiETL大数据迁移管理平台,实现了异构关系型数据库业务系统向Hadoop大数据平台的统一迁移,以及海量数据的集中整合、拓展存储、高效分析查询等一站式管理平台,在保证迁移准确的情况下,其速度可达到3?MB/s。  相似文献   

9.
很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。  相似文献   

10.
针对医用气体传统监测方式存在的巡检周期长、安全隐患大、工作效率低等问题,设计并开发医用气体实时监测平台,实现气体设备管理、数据采集与云端存储、远程实时监控、报警联动及基于历史数据统计分析的设备后维护等功能。与现有同类平台相比,该平台为应对高频次海量数据的有效接入及高效存储与访问,通过业务解耦实现基于缓存的高并发处理机制。引入WebSocket和SockJS技术实现全双工通信,实现平台数据实时可视化。基于配置表的数据接入方式开放灵活,设备和用户接入便捷,设备易扩展。实际部署结果表明,该平台具有良好的稳定性、实时性和高效性。  相似文献   

11.
基于流式计算的空间科学卫星数据实时处理   总被引:1,自引:0,他引:1  
针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基于流计算框架Storm设计数据流处理并行结构,以适应大规模数据并行处理和分布式计算的要求。对应用该方法开发的空间科学卫星数据处理系统进行测试分析,测试结果显示,在相同条件下数据处理时间比原有系统缩短了一半;数据局部性策略比轮询策略具有更高的吞吐率,数据元组吞吐率平均提高29%。可见采用流式计算框架能够大幅缩短数据处理延迟,提高空间科学卫星数据处理系统的实时性。  相似文献   

12.
为了解决车辆端计算能力不足、任务处理时延大、能源消耗多、无线资源缺乏等问题,该文考虑利用非正交多址技术进行任务上传和数据包下载的车辆边缘计算系统,对系统的卸载决策、缓存决策、计算和缓存资源的分配进行联合优化.由于车辆需要在动态网络环境下实时确定任务卸载和缓存策略,提出了一个以移动边缘计算服务器平均能耗最小化为目标的随机...  相似文献   

13.
随着电商平台的快速发展,物流行业增长迅猛,其中物流服务平台的访问日志能够反映用户的行为规律,从而挖掘潜藏信息助力物流服务平台优化业务已至关重要.目前,针对于此类大规模日志数据处理提出了更高的实时性需求,本文综合考量多种实时计算的流处理框架、大规模存储数据库以及日志采集工具等,选取Flume及Kafka作为日志采集工具与消息队列,并利用Flink及HBase进行流数据实时计算以及大规模数据存储.同时,对平台设计了数据去重、异常告警、容错策略以及负载调度的功能.经实验测试证明,本处理平台可以有效处理物流服务平台的日志数据,具有较强的创新思路以及实际价值.  相似文献   

14.
李梓杨  于炯  卞琛  鲁亮  蒲勇霖 《计算机应用》2018,38(9):2560-2567
针对大数据流式计算平台中输入数据流速急剧上升所导致的计算延迟升高问题,提出了基于流网络模型的动态调度策略,并将其应用于Flink数据流计算平台。首先,通过定义有向无环图(DAG)中每条边的容量和流量将其转化为流网络模型,并通过容量检测算法确定每条边的容量值;然后,通过最大流算法计算对应的增进网络和优化路径,从而在输入速率上升阶段提升集群的吞吐量,并通过评估时空代价论证了算法的可行性;最后,讨论了重要参数对算法执行效果的影响,并通过实验得出了在不同类型的作业中推荐的参数取值。经实验验证得出:所提算法与Flink平台现有的任务调度策略相比,在输入速率上升阶段对不同作业类型中集群吞吐量的优化比均高于16.12%。实验结果表明动态调度策略在满足任务延迟约束的前提下有效提高了集群的吞吐量。  相似文献   

15.
对于高访问量网站,Web服务器端经常面临大并发量和海量数据流请求的问题,导致用户访问延时,利用负载均衡和内存缓存相结合技术可以解决这一问题。在服务器端采用集群下的负载均衡策略,将工作任务相对均衡地分配到各个节点上执行;采用内存缓存机制,通过优先读取内存中的缓存数据以减少对数据库的访问次数,进而减轻数据库负载。性能测试结果和用户体验反馈信息显示,该方法在大并发量访问时能极大地提高系统的吞吐量。  相似文献   

16.
王侃  陈志奎 《计算机工程》2010,36(15):80-82,85
针对分布式环境下高频率异地数据访问造成的系统性能下降的问题,对SBM模型进行改进,提出分布式缓存系统D-Cache,给出基于最优价值度的缓存文件替换算法——OCV。数字模拟实验结果证明,与DartCache系统相比,D-Cache系统能更有效地减少系统访问延迟,增加吞吐量,提高分布式环境下系统的性能。  相似文献   

17.
电力系统是一个由多个子系统构成的综合性系统,作为一个能够实现海量数据处理同时具有高实时性、高可靠性的管理控制平台,需要电力系统能够实现对所辖多个子系统进行复杂、细密、大范围的访问控制,这些条件要求能够设计出合理有效的访问控制模型;为了实现安全、可靠、高效的电力系统访问控制提出了将传统电力系统同云存储平台相结合的访问控制方案,通过云存储平台对数据进行存取可以达到大数据量、均衡负载、安全可靠的目的;通过添加可信度因子构建访问控制模型,根据不同用户的可行度计算值分配给以不同的权限,匹配其可操作的资源,实现了对于用户操作对象的细化识别。  相似文献   

18.
针对高速数据流的大规模数据实时处理方法   总被引:9,自引:0,他引:9  
以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算的实时要求.文中结合城市车辆数据的实时采集与处理应用,在理论和实践分析的基础上,提出了一种针对高速数据流的大规模数据实时处理方法,并对方法中的本地阶段化流水线、中间结果缓存等关键技术瓶颈进行了改进.其中,根据系统参数控制阶段化流水线,使CPU得到了充分、有效利用;通过改造内外存数据结构、读写策略和替换算法,优化了本地中间结果的高并发读写性能.实验表明,上述方法可以显著提升大规模历史数据上数据流处理的实时性和可伸缩性.  相似文献   

19.
王春凯    庄福振  史忠植 《智能系统学报》2019,14(6):1278-1285
大规模数据流管理系统往往由上层的关系查询系统和下层的流处理系统组成。当用户提交查询请求时,往往需要根据数据流的流速和分布情况动态配置系统参数。然而,由于数据流的易变性,频繁改变参数配置会降低系统性能。针对该问题,提出了OrientStream+框架。设定以用户自定义查询延迟阈值为间隔片段的微批量数据流传输机制;并利用多级别管道缓存,对相同配置的数据流进行批量处理;然后按照数据流的时间戳计算出精准查询结果;引入基于异常检测的增量学习模型,用于提高OrientStream+的预测精度。最后,在Storm上实现了该资源配置框架,并进行了大量的实验。实验结果表明,OrientStream+框架可进一步降低系统的处理延迟并提高系统的吞吐率。  相似文献   

20.
为解决单机多线程有效载荷实时参数解析处理方法存在的吞吐率低、扩展能力弱问题,提出一种基于Spark集群的有效载荷实时参数解析处理方法。采用Kafka和Spark相结合的处理方式,利用Kafka将有效载荷实时数据转换为消息队列流,Spark通过Kafka获取消息队列流的数据,利用内存对数据进行迭代运算,提高数据运算速度,实现实时的、高吞吐率的有效载荷参数解析。仿真结果表明,使用该方法在实时吞吐率上较单机多线程处理方法有较高提升,能有效满足实时参数解析的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号