首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 231 毫秒
1.
《软件工程师》2019,(12):44-46
由于数据流的不稳定性,将数据流查询安排在固定节点上就会造成分布式数据流处理技术很难对计算资源实现较高的处理效率,基于此,提出大数据分析下分布式数据流处理技术研究。具体流程是数据收集、历史数据的存储和查询、Storm实时处理、智能索引、数据模型的建立。根据实验结果可知,本文提出的大数据分析下分布式数据流处理技术与传统技术相比,在数据流的处理效率上占有较大优势,一般维持在75%以上,能够大大节省处理时间。  相似文献   

2.
为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一种动态采样的K-Means并行算法,与DRDAS结合能实时有效地检测大数据环境下的各种分布式拒绝服务(DDoS)攻击。实验结果显示:DRDAS具有好的可扩展性、容错性和实时处理能力,与动态采样的K-Means并行算法结合能实时地检测各种DDoS攻击,缩短了攻击的检测时间。  相似文献   

3.
何小东  尹海波 《计算机工程与设计》2012,33(11):4398-4401,4406
为解决数据流处理应用程序依赖数据流传输,分布式环境部署困难,应用开发难度大等问题,设计了一种基于共享缓冲区的数据流处理框架。该框架利用共享缓冲区为应用提供数据代理接口,实现数据流推动和分布式处理,并引入可自定义的负载均衡,解决了应用对数据流的依赖度和开发部署的难度系数,使其专注数据分析处理,无需关心数据的地理位置,提高了应用系统的稳定性和扩展性。通过在互联网病毒监控系统中应用,验证了该框架在分布式环境下的实时性和灵活性,使其可移植到云计算环境中。  相似文献   

4.
介绍了在大集中环境下税务行业面临的各种数据灾难,结合税务行业的应用特点提出税务行业数据容灾系统设计目标。通过使用数据异地磁盘镜像、数据克隆和数据恢复等技术,规划出数据容灾系统模型,并描述数据容灾系统的组成部分和基础运行环境,重点介绍了数据容灾系统的三个组成部分:数据同步子系统、数据备份子系统和数据恢复子系统。  相似文献   

5.
谭亮  周静 《计算机系统应用》2018,27(10):133-139
交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了一个实时交通数据处理平台,用于处理通过双基基站采集的数据,采用时间窗口机制从持续的Kafka分布式消息队列中获取数据,并按照规则将数据分类处理后保存到数据库.本文对平台的系统架构和内部结构进行了详细的介绍,并通过实验验证了系统的实时处理能力,完全可以在大规模高并发的数据流下进行应用.  相似文献   

6.
王峰 《计算机测量与控制》2017,25(5):173-175, 179
近年来,随着经济领域蓬勃发展,我国加快了现代化建设进程,交通设施建设不断推进;受互联网大数据技术变革的影响,传统地铁售检票系统无法满足高客流量、大数据流处理的高强度工作要求;在日常实践应用中,传统地铁售检票系统经常出现检票识别率低、售票信息运算处理响应速度慢、多人员、多任务操作执行准确率差的问题;针对上述问题,结合大数据资源运算能力,提出大数据环境下地铁自动售检票系统设计;采用大数据实名高检处理引擎(VBDKG)、多路分处运算模组(ICGRU)与动态身份比对算法(DBTDE),针对传统地铁自动售检票系统存在的问题进行解决;通过仿真实验测试证明,提出的大数据环境下地铁自动售检票系统设计具有较强的实施性与可操作性;同时,运行处理准确性高,运行稳定。  相似文献   

7.
数据的组成结构和存储管理方法是影响软件的运行效率和安全性、维护和扩展性以及通用性优劣的关键因素。本文介绍的分布式网络视觉监控系统是在分析归纳视觉监控系统数据的种类和操作处理特点的前提下,确定了分布式存储和管理数据的基础上所开发的软件。该系统在确保运行安全性的前提下较好地解决了监控系统处理数据量大、实时性要求高和网络运行效率的矛盾,同时软件的三层结构保证了系统组成配置的灵活性和通用性。  相似文献   

8.
分布式大数据控制受到信道数量影响易产生不同步现象,导致信道控制性能较差,设计一种云计算环境下分布式大数据多信道并行控制系统。系统硬件:节点处理模块由FPGA芯片以及抗干扰器组成;无线通信模块主要由射频芯片与无线收发器组成;USB模块由接口芯片、寄存器、存储芯片以及周边电路构成。系统软件:分布式大数据多信道数据存储与处理模块的构成为同步存储数据单元与数据多路实时处理单元;多信道并行控制模块主要由多信道并行管理单元、多信道状态扫查单元以及生成数据流单元构成。通过硬件与软件相结合实现了分布式大数据多信道并行控制。实验结果证明,分布式大数据信道平均传输速率数据则分布、保持的较为均匀,实现了性能提升。  相似文献   

9.
网络信息技术的高速发展产生了新的数据模型,即数据流模型,并且越来越多的领域出现了对数据流实时处理的需求,庞大且高速的数据以及应用场景的实时性需求均推进了数据流挖掘技术的发展。首先介绍了常见的数据流模型;然后根据数据流模型的特点总结数据流挖掘的支撑技术;最后,分析了分布式数据流挖掘的重要性和有效性,给出了算法并行化的数学模型,并介绍了几种具有代表性的分布式数据流处理系统。  相似文献   

10.
随着科学数据库中的资源迅速增加,对这些资源的共享使用和管理提出了新的要求。iRODS(i Rule Oriented Data Systems)是美国圣地亚哥超算中心(SDSC)开发的一个数据网格中间件及其相关的工具系统,介绍了iRODS的体系结构和主要特点,并基于iRODS设计开发了一个分布式文件管理与共享系统GDocument,它能有效管理分布式异构数据,并提供统一的访问和集成共享。  相似文献   

11.
基于流式计算的空间科学卫星数据实时处理   总被引:1,自引:0,他引:1  
针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基于流计算框架Storm设计数据流处理并行结构,以适应大规模数据并行处理和分布式计算的要求。对应用该方法开发的空间科学卫星数据处理系统进行测试分析,测试结果显示,在相同条件下数据处理时间比原有系统缩短了一半;数据局部性策略比轮询策略具有更高的吞吐率,数据元组吞吐率平均提高29%。可见采用流式计算框架能够大幅缩短数据处理延迟,提高空间科学卫星数据处理系统的实时性。  相似文献   

12.
针对高速数据流的大规模数据实时处理方法   总被引:9,自引:0,他引:9  
以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算的实时要求.文中结合城市车辆数据的实时采集与处理应用,在理论和实践分析的基础上,提出了一种针对高速数据流的大规模数据实时处理方法,并对方法中的本地阶段化流水线、中间结果缓存等关键技术瓶颈进行了改进.其中,根据系统参数控制阶段化流水线,使CPU得到了充分、有效利用;通过改造内外存数据结构、读写策略和替换算法,优化了本地中间结果的高并发读写性能.实验表明,上述方法可以显著提升大规模历史数据上数据流处理的实时性和可伸缩性.  相似文献   

13.
大数据时代,面对爆发式增长的海量异构大数据,企业指标数据的实时供给能力亟待全面提升.基于流处理技术的大数据指标实时计算方法,主要由日志采集、消息管理、协调管理、实时处理等部分构成,使用Hadoop、Zookeeper、Storm、Kafka、Redis等开源软件,综合应用了数据库日志分析,流处理、内存计算等技术.本文详细论述了采用Storm技术的大数据指标实时计算方法的技术架构,实现方法及路径,同时给出了算法验证的过程和结果分析.  相似文献   

14.
分布式集群环境使得数据实时计算更为复杂,流式大数据处理系统的正确性难以保障.现有的大数据基准测试框架可以测试流式大数据处理系统的性能表现,但是普遍存在应用场景设计简单、评价指标不充分等不足.针对这一挑战,本文构造了一个面向股票交易场景的流式大数据基准测试框架,通过生成股票高频交易数据,测试系统在高流速场景下的延迟、吞吐量、GC时间、CPU资源等的性能表现.同时,通过横向测试验证流式大数据系统的扩展性.本文以Apache Spark Streaming为待测系统进行测试,实验结果表明,高流速场景下出现延迟增加、GC时间提高等性能下降问题,原因是系统输入速率的提高及并行度的增加.  相似文献   

15.
李敏  倪少权  邱小平  黄强 《计算机应用》2015,35(5):1267-1272
针对物联网环境下异构大数据处理实时性低的问题,探讨了基于Hadoop框架实现数据处理与持久化的方法,提出了一种基于"上下文"的Hadoop大数据处理系统模型HDS,HDS利用Hadoop框架完成数据并行处理与持久化,将物联网环境下异构数据抽象为"上下文"作为HDS处理对象;并提出了"上下文距离"上下文邻域系统(CNS)"的定义;对于Hadoop框架本身数据处理实时性不高的问题,HDS在设计上增加了"上下文队列(CQ)"作为辅助存储来提高数据处理实时性;利用"上下文"的时空特性,建立了用户请求"上下文邻域系统"对任务进行重组.以成品油配送车辆调度问题为例,利用MapReduce并行实验对HDS的数据处理与实时性能进行了验证与分析.实验结果表明,在物联网环境下,HDS不仅在大数据处理性能上较传统单点处理模型(SDS)具有明显优势,在实验环境中10台服务器的情况下,其计算性能能够超过SDS 200倍以上;同时也验证了CQ作为辅助存储能够有效提高数据处理实时性,在10台服务器环境下,其数据处理实时性能够提高270倍以上.  相似文献   

16.
针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据,Spark Streaming对数据进行流式处理并存储到HBase数据库中,并设计Spark框架下的自动站数据流式入库处理算法和要素极值的实时统计算法,在Cloudera平台下实现了一个高速可靠的实时采集、处理、统计的应用系统。通过对比分析和性能监测,验证了该系统具有低延迟和高吞吐量的优势,运行状况良好,负载均衡。实验结果表明,Spark Streaming用于气象自动站的实时业务处理,数据并行写入HBase、基于HBase的查询和各类要素统计均能达到毫秒级响应,完全能满足自动站数据的应用需求,有效地支撑天气预报业务。  相似文献   

17.
基于近邻传播与密度相融合的进化数据流聚类算法   总被引:3,自引:0,他引:3  
邢长征  刘剑 《计算机应用》2015,35(7):1927-1932
针对目前数据流离群点不能很好地被处理、数据流聚类效率较低以及对数据流的动态变化不能实时检测等问题,提出一种基于近邻传播与密度相融合的进化数据流聚类算法(I-APDenStream)。此算法使用传统的两阶段处理模型,即在线与离线聚类两部分。不仅引进了能够体现数据流动态变化的微簇衰减密度以及在线动态维护微簇的删减机制,而且在对模型采用扩展的加权近邻传播(WAP)聚类进行模型重建时,还引进了异常点检测删除机制。通过在两种类型数据集上的实验结果表明,所提算法的聚类准确率基本能保持在95%以上,其纯度对比实验等其他相关测试都有较好结果,能够高实效、高质量、高效率地处理数据流数据聚类。  相似文献   

18.
As the huge number of mobile devices (e.g., smart phones, tablets and netbooks) increases, more and more people choose to use the Internet services financed by mobile Internet service providers (MISPs). To provide better services, it is quite necessary for MISPs to analyze the information hidden in the big data stream generated by users. Therefore, processing the real-time big data stream efficiently has become increasingly important. However, traditional static data storage technology fails to meet the demands of real-time data processing. To improve processing capacity, many parallel processing structures are proposed, which brings up the problem about how the parallel devices can be scheduled to maximize their efficiency. Accordingly, a dynamic assignment scheduling algorithm for big data stream processing in mobile Internet services is proposed, and a stream query graph is built to calculate the weight of every edge. The edge with the minimum weight is selected to send tuples. Simulation results show that the proper number of the logic devices can dramatically reduce system response time. Furthermore, system context switching is reduced by increasing the number of tuples sent each time.  相似文献   

19.
柏滢  林都  鲜浩 《传感器世界》2014,20(10):27-31
针对数据采集系统的大数据量处理要求,以及系统的实时性问题,提出了一种克服各自劣势,FPGA和DSP相结合的实时数据采集和处理系统。阐述了系统的工作原理及各功能模块的构成,该系统由FPGA模块、DSP模块、采集模块、数据传输模块、电源模块组成,通过对此系统的调试分析,实现了数据的实时采集与处理。该数据采集和处理系统结构灵活、控制简单、可靠性高,具有较大的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号