首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
基于流式计算的空间科学卫星数据实时处理   总被引:1,自引:0,他引:1  
针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基于流计算框架Storm设计数据流处理并行结构,以适应大规模数据并行处理和分布式计算的要求。对应用该方法开发的空间科学卫星数据处理系统进行测试分析,测试结果显示,在相同条件下数据处理时间比原有系统缩短了一半;数据局部性策略比轮询策略具有更高的吞吐率,数据元组吞吐率平均提高29%。可见采用流式计算框架能够大幅缩短数据处理延迟,提高空间科学卫星数据处理系统的实时性。  相似文献   

2.
随着大数据技术的发展,流式处理系统渐渐成为了研究的热点。相对于Hadoop等传统的批处理系统,流式处理系统具有更好的实时性特点。在已有的流式处理系统中,Storm系统具有良好的稳定性、高可扩展性以及高容错性等特点,使它在流式数据处理系统中脱颖而出。但是在任务调度方面,Storm系统并没有做过多的考虑,默认采用相对简单的轮询调度法,导致系统在性能上存在瓶颈。近年来针对Storm系统的调度问题,研究提出了各种优化方案。本文从实时流处理系统Storm的调度优化出发,将这些优化方法分为四类,并详细阐述各类中具有一定代表性的方法,分析其优缺点以及适用的场景。最后,讨论了在日益发展的新环境下,Storm系统的调度优化相关研究未来可能存在的方向。  相似文献   

3.
提出一种面向电网流式数据处理的性能测试平台的系统架构及关键技术.针对电网流式数据的业务场景特点,测试平台支持基于浏览器的测试脚本设计和测试场景设计,并支持测试任务的全生命周期管理和高可用保障.为了满足大规模负载测试需求,测试平台提供基于Linux容器的虚拟化测试资源池,实现了测试资源的轻量化、弹性管理.  相似文献   

4.
大数据流式计算:关键技术及系统实例   总被引:5,自引:0,他引:5  
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.  相似文献   

5.
作为深度学习领域中最具有影响力的网络结构之一,卷积神经网络朝着更深更复杂的方向发展,对硬件计算能力提出了更高的要求,随之出现了神经网络专用处理器.为了对这类处理器进行客观比较,并指导软硬件优化设计,本文针对卷积神经网络提出了宏基准测试程序和微基准测试程序.其中,宏基准测试程序包含主流的卷积神经网络模型,用于处理器性能的多方位评估和对比;微基准测试程序包含卷积神经网络中的核心网络层,用于细粒度定位性能瓶颈并指导优化.为了准确描述这套基准测试程序在真实硬件平台上的性能表现,本文选取了I/O等待延迟、跨节点通信延迟和CPU利用率3大系统性能评测指标以及IPC、分支预测、资源竞争和访存表现等微架构性能评测指标.基于评测结果,本文为处理器的硬件设计与架构改进提出了可靠建议.  相似文献   

6.
本文针对实时数据处理系统人工测试验证模式中存在的效率低下、工作强度高、测试验证不充分等问题,提出了基于偏差模型的测量数据模拟方法,设计了基于经典误差分析方法的测试验证评估模型,构建了实时数据处理系统自主闭环测试验证体系,实现了实时数据处理系统测试验证的自动化.以航天测控实际应用场景开展实验,发现本文所提出的自主闭环测试...  相似文献   

7.
为帮助商家实时了解客户对自家商品的关注度,以便及时做出正确的营销策略,本文设计了一个流式计算商品关注度系统。系统通过socket算法实现模拟客户信息的生成,使用SparkStreaming流式计算框架构建实时数据处理系统。数据包括客户在每件商品上浏览的次数、停留的时间、是否收藏该件商品和购买商品数。测试结果表明,该系统能够同时展示出不同终端商品浏览、商场用户地域分布、地区排名、累计浏览分析和商品关注度分析,便于用户作进一步分析。  相似文献   

8.
《计算机工程》2017,(11):8-15
为实现大数据环境下大规模动态分区信息的高效处理,结合流式计算框架,提出一种实时数据库分区系统。采用大数据环境下的流式计算技术处理大规模动态的工作负载,设计实时数据分区算法实现数据分区的自动与即时生成,并利用流式计算框架的水平扩展机制提高系统扩展性和吞吐量。实验结果表明,该系统可在大数据环境下实现高效、实时的数据库分区,与传统分区算法相比,具有更高的分区质量和更少的分区时间。  相似文献   

9.
在流式大数据系统测试过程中,测试数据集越真实,得到的测试报告越可信。然而真实大量的流式数据并不容易获取,因此需要一种方法能够产生大量符合真实场景特征的数据。这些特征包括数据属性相关性、数据时序相关性、数据流的流速变化等等。在流式大数据环境下,数据的时序相关性与流速变化尤为重要。本文提出了一种适用于流式大数据系统测试的数据生成方法,以真实场景的数据集作为种子数据,对种子数据采用最大互信息系数描述数据属性间的相关性,改进了Prim算法对属性列集合进行分组,在尽量保证属性列强相关的前提下提高生成效率,接着提出了一种时序模型选择策略,保证生成的数据在时序上的相关性,提出了双层滑动窗口的方法控制流数据输出速度。最后,本文比较了提出的方法与其他流数据生成方法的生成效率。  相似文献   

10.
近年来,随着互联网和物联网的快速发展,海量的数据在很多应用中都会出现,而这其中有很大一部分数据是以流数据的形式存在的. 流数据的特点是快速、大量、无序,并且要求快速的响应. 研究表明,传统的关系型数据库并不适用于这种流式数据的应用场景,因此如何开发出一套新型的数据查询系统来满足流式数据的处理需求就成为当前研究的一个热点课题. 本文借鉴当前几个有代表性的流式数据管理系统的优点,分析流式数据查询系统的关键问题,综合考虑流数据接口定义、数据预处理,查询语言定义、查询执行过程,系统监控、系统界面等问题,设计并实现一个可用的流式数据查询系统. 最后,通过采集具体的新闻流式数据验证系统的各项功能和性能,实验结果表明,该流式数据查询系统具有良好的数据查询性能.  相似文献   

11.
高速连续数据流记录系统中并行处理接口的研究   总被引:4,自引:0,他引:4  
为了解决高速数据流的连续记录/读取与存储介质速度慢之间的矛盾,文中用FPGA设计了基于RAID结构的并行处理接口,实现了高速数据的分割降速、合并/恢复、纠错重构,解决了高速数据流连续存储中的I/O瓶颈问题。并行处理接口采用了流水线的设计方式及动态的逻辑配置,使得系统性能得到很大的优化,解决了高速数据处理中的延迟、数据错误、工作时序不同步等问题。并行处理接口最终在实验系统中实现了对高达160MB/S连续实时数据流的处理。  相似文献   

12.
基于FPGA的高速采样缓存系统的设计与实现   总被引:1,自引:0,他引:1  
郑争兵 《计算机应用》2012,32(11):3259-3261
为了提高高速数据采集系统的实时性,提出一种基于FPGA+DSP的嵌入式通用硬件结构。在该结构中,利用FPGA设计一种新型的高速采样缓存器作为高速A/D和高性能DSP之间数据通道,实现高速数据流的分流和降速。高速采样缓存器采用QuartusⅡ9.0 软件提供的软核双时钟FIFO构成乒乓操作结构,在DSP的外部存储器接口(EMIFA)接口的控制下,完成高速A/D的数据流的写入和读出。测试结果表明:在读写时钟相差较大的情况下,高速采样缓存器可以节省读取A/D采样数据时间,为DSP提供充足的信号处理时间,提高了整个系统的实时性能。  相似文献   

13.
Multiple FOREX time series forecasting is a hot research topic in the literature of portfolio trading. To this end, a large variety of machine learning algorithms have been examined. However, it is now widely understood that, in real-world trading settings, no single machine learning model can consistently outperform the alternatives. In this work, we examine the efficacy and the feasibility of developing a stacked generalization system, intelligently combining the predictions of diverse machine learning models. Our approach establishes a novel inferential framework that comprises the following levels of data processing: (i) We model the dependence patterns between major currency pairs via a diverse set of commonly used machine learning algorithms, namely support vector machines (SVMs), random forests (RFs), Bayesian autoregressive trees (BART), dense-layer neural networks (NNs), and naïve Bayes (NB) classifiers. (ii) We generate implied signals of exchange rate fluctuation, based on the output of these models, as well as appropriate side information obtained by analyzing the correlations across currency pairs in our training datasets. (iii) We finally combine these implied signals into an aggregate predictive waveform, by leveraging majority voting, genetic algorithm optimization, and regression weighting techniques. We thoroughly test our framework in real-world trading scenarios; we show that our system leads to significantly better trading performance than the considered benchmarks. Thus, it represents an attractive solution for financial firms and corporations that perform foreign exchange portfolio management and daily trading. Our system can be used as an integrated part in international commercial trade activities or in a quantitative investing framework for algorithmic trading and carry-trade speculation.  相似文献   

14.
曲武  王莉军  韩晓光 《计算机科学》2014,41(11):195-202
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流聚类分析是当前数据流挖掘研究的热点问题。单遍扫描算法虽然满足数据流高速、数据规模较大和实时分析的需求,但因缺乏有效的聚类算法来识别和区分模式而限制了其有效性和可扩展性。为了解决以上问题,提出云环境下基于LSH的分布式数据流聚类算法DLCStream,通过引入Map-Reduce框架和位置敏感哈希机制,DLCStream算法能够快速找到数据流中的聚类模式。通过详细的理论分析和实验验证表明,与传统的数据流聚类框架CluStream算法相比,DLCStream算法在高效并行处理、可扩展性和聚类结果质量方面更有优势。  相似文献   

15.
近年来随着高速网络技术的发展与高频交易需求的增加,提升交易速度成为电子商务交易提供者的重要关 切。当前交易系统通常采用基于共享存储的主备机复制方法来保证高可用性与数据持久性,但因其存在持久化的性 能瓶颈而无法进一步降低延迟。为此,提出一种基于Paxos算法的内存数据复制方法,即通过消息传递完成主备机复 制,以保证结点间数据的一致性,容忍可能发生的良性故障;并以证券交易系统场景为例对其进行分析。实验结果表 明,相比基于共享存储的主备机复制,该方法在万兆以太网环境下可将交易系统订单处理延迟由毫秒级降至百微秒 级,并在主机故障时正确地完成热备切换。  相似文献   

16.
The portfolio management for trading in the stock market poses a challenging stochastic control problem of significant commercial interests to finance industry. To date, many researchers have proposed various methods to build an intelligent portfolio management system that can recommend financial decisions for daily stock trading. Many promising results have been reported from the supervised learning community on the possibility of building a profitable trading system. More recently, several studies have shown that even the problem of integrating stock price prediction results with trading strategies can be successfully addressed by applying reinforcement learning algorithms. Motivated by this, we present a new stock trading framework that attempts to further enhance the performance of reinforcement learning-based systems. The proposed approach incorporates multiple Q-learning agents, allowing them to effectively divide and conquer the stock trading problem by defining necessary roles for cooperatively carrying out stock pricing and selection decisions. Furthermore, in an attempt to address the complexity issue when considering a large amount of data to obtain long-term dependence among the stock prices, we present a representation scheme that can succinctly summarize the history of price changes. Experimental results on a Korean stock market show that the proposed trading framework outperforms those trained by other alternative approaches both in terms of profit and risk management.  相似文献   

17.
The data stream processing framework processes the stream data based on event-time to ensure that the request can be responded to in real-time. In reality, streaming data usually arrives out-of-order due to factors such as network delay. The data stream processing framework commonly adopts the watermark mechanism to address the data disorderedness. Watermark is a special kind of data inserted into the data stream with a timestamp, which helps the framework to decide whether the data received is late and thus be discarded. Traditional watermark generation strategies are periodic; they cannot dynamically adjust the watermark distribution to balance the responsiveness and accuracy. This paper proposes an adaptive watermark generation mechanism based on the time series prediction model to address the above limitation. This mechanism dynamically adjusts the frequency and timing of watermark distribution using the disordered data ratio and other lateness properties of the data stream to improve the system responsiveness while ensuring acceptable result accuracy. We implement the proposed mechanism on top of Flink and evaluate it with realworld datasets. The experiment results show that our mechanism is superior to the existing watermark distribution strategies in terms of both system responsiveness and result accuracy.  相似文献   

18.
数据流上连续动态skyline查询研究   总被引:2,自引:0,他引:2  
skyline查询能够从大规模数据集上计算满足多个标准的最优点.数据流上的skyline计算是数据流上最基本的查询操作之一,对于很多在线应用具有非常重要的意义,尤其在移动计算环境、网络监控、通信网络以及传感器网络等领域.不同于大部分传统的skyline研究,主要研究数据流上约束skvline和动态skyline计算问题.采用网格索引存储元组,提出了GBDS算法用于计算和维护动态skvline.通过为每个查询定义影响区域,使得在元组到达和失效时需要处理的元组个数最小化.理论分析和实验结果证明了提出方法的有效性.  相似文献   

19.
High-performance stream processing is critical in many sense-and-respond application domains—from environmental monitoring to algorithmic trading. In this paper, we focus on language and runtime support for improving the performance of sense-and-respond applications in processing data from high-rate live streams. The central tenets of this work are the programming model, the workload splitting mechanisms, the code generation framework, and the underlying System S middleware and Spade programming model. We demonstrate considerable scalability behavior coupled with low processing latency in a real-world financial trading application.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号