首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
大数据流式计算:关键技术及系统实例   总被引:5,自引:0,他引:5  
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.  相似文献   

2.
《计算机科学与探索》2016,(11):1512-1523
在车联网的应用实践中,人们将分析车辆数据的任务运行在流式计算系统中。在运行分析中发现,这些任务具有运行周期长,处理延迟低,任务有状态等需求和特点,并且计算过程中需要在内存中保存大量计算参数和中间状态等数据对象,其中大量的数据对象并不活跃,任由其占用内存造成了系统资源的浪费。针对该问题开展研究,给出了流式任务的数据对象管理方法,优化了内存的使用。为流式数据对象建立生命周期模型,采用应用驱动、数据驱动的模型参数确定方法为流式数据对象设置合适的过期参数,设计车联网测试用例,验证该生命周期管理方法的有效性。实验结果表明,该方法在用户可接受的处理延迟范围内,能够有效地减少流式系统中不活跃对象的数目,达到了优化内存,降低资源开销的目的。  相似文献   

3.
当前高校大数据应用面临数据集成困难、成果难以应用、知识难以管理等问题,急需加以解决.本文结合知识管理与软件工程方法,首先设计了基于CRISP-DM的高校大数据挖掘流程;在此基础上,设计了高校知识管理系统的总体架构和功能模型;然后对主要功能模型进行了详细设计,并对其关键技术——数据集成方法、大数据挖掘技术进行了分析和设计;最后给出了该系统的开发环境及测试情况.该系统设计方案对高校大数据应用提供了参考和借鉴.  相似文献   

4.
分析了对辅机设备进行状态监测和分析研究的必要性,创新地将大数据技术应用于该领域,解决了该研究领域中的关键技术难题,设计并实现了一个辅机设备振动噪声大数据监测分析研究平台。平台采用流式数据实时分析技术和实时批处理技术相结合的方式,采用Storm+Hadoop大数据处理架构。一方面,利用Storm以流计算的方式,对噪音、振动、电流、电压、谐波等海量原始数据进行快速计算和处理,并将处理后的数据传输至实时监测中心;另一方面,采用批计算技术,将海量原始数据存储到基于Hadoop的分布式文件系统中,建立大数据库,再采用基于MapReduce的大数据分析技术对海量数据进行数据挖掘和建模。该平台的研究不仅实现了对辅机设备的运行管理的监测和分析,还可以作为辅机设备振动噪声大数据建模和研究的基础。  相似文献   

5.
全面论述了大数据分析技术的概念、现状、技术及应用,包括大数据基本概念及特点、大数据分析产生的时代背景、关键技术以及大数据带来的变革和挑战,在大数据分析的关键技术中重点对大数据的清洗与融合、大数据处理框架、大数据的建模与分析进行了介绍。  相似文献   

6.
大数据计算环境下的隐私保护技术研究进展   总被引:2,自引:0,他引:2  
批处理、流式计算和机器学习等分布式的大数据计算环境在云上的广泛部署与应用,为云用户带来了极大的便利,但随之带来的隐私数据泄露事件愈演愈烈.如何在这种云上部署的大数据计算环境下保护数据隐私成为一个研究热点,本文对近些年国内外在该领域的最新隐私保护研究成果及进展进行了全面综述.针对上述大数据计算环境下的参与角色及应用场景,...  相似文献   

7.
针对日益增长的民用航空巨量数据,借助大数据存储和分析技术,构建民用航空运行大数据分析平台,可更有效支撑快速响应、航材管理、健康管理等各项民机运行业务。结合目前国内外民用航空领域大数据技术的应用现状,梳理民机运行的业务模式及数据类别,设计并构建民用航空大数据分析平台的整体架构。根据目前民用航空运行业务需求,对民用航空大数据平台的硬件平台的管理节点、数据节点的计算能力等功能性能进行设计,并对民用航空大数据平台的轻量级计算、离线数据计算、实时在线数据处理分析等计算需求进行研究,针对不同的计算方式,提供具体解决途径。最后对民机运行大数据分析平台的业务应用集成及接口技术进行研究。分析表明研究成果有助于提高我国民机运行效率,为民用飞机运行大数据平台提供支撑。  相似文献   

8.
作为电网企业对外服务窗口,电网客户服务中心需要整合企业内部各种异构数据资源、存贮和分析海量的客户服务语音信息和 WEB 服务信息。如何对电网企业各类数据进行高效、可靠、低廉地存储,并快速访问和分析,是当前重要的研究课题。首先分析了大数据的特征和大数据的关键技术,其后,设计了大数据时代下的电力客户服务数据分析系统,提出了系统的数据体系架构,设计了系统功能,总结了系统的关键技术和算法,该系统利用大数据技术和数据仓库技术集中存储、管理和应用电网数据,通过元数据管理实现统一的数据服务平台,使用Hadoop数据库作为非结构数据的存贮平台和数据分析与挖掘的支撑平台,基于CDC数据仓库ETL模型设计数据仓库 ETL 构件,在数据展示层使用多维数据分析技术。最后,综述了系统应用案例,实践表明,系统具有成本低、扩展性较好、可靠性高、并行分析等特点,可以大大提高电网企业的客户服务水平。  相似文献   

9.
大数据技术成为驱动石油化工服务类企业数字化转型的有效手段,基于大数据技术的石油数字化工作平台建设是石油化工服务类企业的大数据应用实践,该技术整合了企业营销、生产、经营等多个板块的多种业务,串联了企业数据采集、存储、治理、挖掘、分析及应用的整个数据生命周期;从石油化工服务类企业数字化发展现状及遇到的问题出发,结合大数据技术的发展及优势,提出了基于大数据技术的石油化工服务类企业石油数字化工作平台建设方案,通过对大数据故障信息进行提取,应用DBN大数据学习算法模型实现石油全寿命周期管理的数据计算和处理;通过实验,文章研究的方法数据处理准确度大于90%。  相似文献   

10.
为解决大数据处理的瓶颈,分析了大数据及云计算的关键技术,论述了大数据和云计算之间的关系,利用云计算在数据存储、数据管理和虚拟化等方面的技术优势,构建了基于云计算的大数据管理和处理模式,为大数据的研究及应用提供了新的思路和技术基础。  相似文献   

11.
杜小勇  卢卫  张峰 《软件学报》2019,30(1):127-141
大数据管理技术正在经历以软件为中心到以数据为中心的计算平台的变迁,传统的关系型数据库管理系统无法满足现在以数据为中心的大数据管理的需求,设计新型大数据管理系统迫在眉睫.首先回顾了数据管理技术的发展历史;之后,从大数据管理的存储、数据模型、计算模式、查询引擎等方面分析了大数据管理系统的现状,指出目前大数据管理系统具有模块化和松耦合的特点,并进一步介绍了大数据管理系统应具备的数据特征、系统特征和应用特征,指出大数据管理系统技术还在快速进化之中,预测未来的大数据管理系统应具备多数据模型并存、多计算模式融合、可伸缩调整、新硬件驱动、自适应调优等特点.  相似文献   

12.
【目的】本文主要分析人工智能和大数据应用随着迅速增大的数据规模,给计算机系统带来的主要挑战,并针对计算机系统的发展趋势给出了一些面向人工智能和大数据亟待解决的高效能计算的若干研究方向。【文献范围】本文广泛查阅国内外在超级计算和高性能计算平台进行大数据和人工智能计算的最新研究成果及解决的挑战性问题。【方法】大数据既为人工智能提供了日益丰富的训练数据集合,但也给计算机系统的算力提出了更高的要求。近年来我国超级计算机处于世界的前列,为大数据和人工智能的大规模应用提供了强有力的计算平台支撑。【结果】而目前以超级计算机为代表的高性能计算平台大多采用CPU+加速器构成的异构并行计算系统,其数量众多的计算核心能够为人工智能和大数据应用提供强大的计算能力。【局限性】由于体系结构复杂,在充分发挥计算能力和提高计算效率方面存在较大挑战。尤其针对有别于科学计算的人工智能和大数据领域,其并行计算效率的提升更为困难。【结论】因此需要从底层的资源管理、任务调度、以及基础算法设计、通信优化,到上层的模型并行化和并行编程等方面展开高效能计算的研究,全面提升人工智能和大数据应用在高性能计算平台上的计算能效。  相似文献   

13.
大数据时代,面对爆发式增长的海量异构大数据,企业指标数据的实时供给能力亟待全面提升.基于流处理技术的大数据指标实时计算方法,主要由日志采集、消息管理、协调管理、实时处理等部分构成,使用Hadoop、Zookeeper、Storm、Kafka、Redis等开源软件,综合应用了数据库日志分析,流处理、内存计算等技术.本文详细论述了采用Storm技术的大数据指标实时计算方法的技术架构,实现方法及路径,同时给出了算法验证的过程和结果分析.  相似文献   

14.
作为目前主流的大数据流式计算平台之一,Storm在设计之初以性能为目的进行研究而忽视了高能耗的问题,但是其高能耗问题已经开始制约着平台的发展.针对这一问题,分别建立了任务分配模型、拓扑信息监控模型、数据恢复模型以及能耗模型,并进一步提出了基于Storm平台的数据恢复节能策略(energy-efficient strat...  相似文献   

15.
云计算及其关键技术   总被引:98,自引:2,他引:98  
陈全  邓倩妮 《计算机应用》2009,29(9):2562-2567
云计算是一种新兴的计算模型,它是在网格计算的基础上发展而来的。介绍了云计算的发展历史和应用场景,比较了现有的云计算的定义并给出了新的定义,以谷歌的云计算技术为例,总结了云计算的关键技术:数据存储技术(Google File System)、数据管理技术(BigTable)、编程模型和任务调度模型(Map-Reduce)等,分析了云计算和网格计算以及传统超级计算的区别,并指出了云计算的广阔发展前景。  相似文献   

16.
云数据管理索引技术研究   总被引:7,自引:3,他引:4  
马友忠  孟小峰 《软件学报》2015,26(1):145-166
数据的爆炸式增长给传统的关系型数据库带来了巨大的挑战,使其在扩展性、容错性等方面遇到了瓶颈.而云计算技术依靠其高扩展性、高可用性、容错性等特点,成为大规模数据管理的有效方案.然而现有的云数据管理系统也存在不足之处,其只能支持基于主键的快速查询,因缺乏索引、视图等机制,所以不能提供高效的多维查询、join等操作,这限制了云计算在很多方面的应用.主要对云数据管理中的索引技术的相关工作进行了深入调研,并作了对比分析,指出了其各自的优点和不足;对在云计算环境下针对海量物联网数据的多维索引技术研究工作进行了简单介绍;最后指出了在云计算环境下针对大数据索引技术的若干挑战性问题.  相似文献   

17.
随着大数据时代的到来,图作为一种表示和分析大数据的有效方法,正成为学术界和工业界广泛关注的焦点.图数据具有规模巨大、耦合性强、动态变化等特点,需要新的计算模型支持高效的图计算系统对大规模图数据进行处理.对图计算系统计算模型的研究现状进行了调研和综述,首先介绍图计算系统的产生和发展,然后将主流图计算系统中的计算模型按照计算对象分为:结点中心计算模型、边中心计算模型、路径中心计算模型和子图计算模型四类,重点介绍结点中心模型的应用和性能,最后对图计算模型的发展过程进行总结,并展望图计算模型未来发展方向.  相似文献   

18.
With computing systems undergone a fundamental transformation from single-processor devices at the turn of the century to the ubiquitous and networked devices and the warehouse-scale computing via the cloud, the parallelism has become ubiquitous at many levels. At micro level, parallelisms are being explored from the underlying circuits, to pipelining and instruction level parallelism on multi-cores or many cores on a chip as well as in a machine. From macro level, parallelisms are being promoted from multiple machines on a rack, many racks in a data center, to the globally shared infrastructure of the Internet. With the push of big data, we are entering a new era of parallel computing driven by novel and ground breaking research innovation on elastic parallelism and scalability. In this paper, we will give an overview of computing infrastructure for big data processing, focusing on architectural, storage and networking challenges of supporting big data paper. We will briefly discuss emerging computing infrastructure and technologies that are promising for improving data parallelism, task parallelism and encouraging vertical and horizontal computation parallelism.  相似文献   

19.
边缘计算可以通过将计算转移至边缘设备,以提高大型物联网流数据的处理质量并降低网络运行成本。然而,实现大型流数据云计算和边缘计算的集成面临两个挑战。首先,边缘设备的计算能力和存储能力有限,不能支持大规模流数据的实时处理。其次,流数据的不可预测性导致边缘端的协作不断地发生变化。因此,有必要实现边缘服务和云服务之间的灵活划分。提出一种面向服务的云端与边缘端的无缝集成方法,用于实现大规模流数据云计算和边缘计算的协作。该方法将云服务分成两部分,分别在云端和边缘端上运行。同时,提出了一种基于改进的二分图动态服务调度机制。当产生事件时,可以在适当的时间将云服务部署到边缘节点。基于真实的电能质量监控数据对提出的方法进行了有效性验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号