首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
陈梓浩  徐辰  钱卫宁  周傲英 《软件学报》2023,34(3):1236-1258
在大数据治理应用中,数据分析是必不可少的一环,且具有耗时长、计算资源需求大的特点,因此,优化其执行效率至关重要.早期由于数据规模不大,数据分析师可以利用传统的矩阵计算工具执行分析算法,然而随着数据量的爆炸式增长,诸如MATLAB等传统工具已无法满足应用需求的执行效率,进而涌现出了一批面向大数据分析的分布式矩阵计算系统.从技术、系统等角度综述了分布式矩阵计算系统的研究进展.首先,从发展成熟的数据管理领域的视角出发,剖析分布式矩阵计算系统在编程接口、编译优化、执行引擎、数据存储这4个层面面临的挑战;其次,分别就这4个层面展开,探讨、总结相关技术;最后,总体分析了典型的分布式矩阵计算系统,并展望了未来研究的发展方向.  相似文献   

2.
工业大数据是在工业领域信息化应用中所产生的海量数据,作为决策问题服务的大数据集、大数据技术和大数据应用的总称。首先分析工业大数据4V特性与工业数据的特有特征,以及工业大数据来源;从多源异构工业数据集成与数据融合方法、工业大数据计算架构、大数据带来的信息安全等三方面论述工业大数据面临的挑战与潜在价值。探讨了工业大数据分析与挖掘方法,提出了工业大数据平台的计算架构与大数据处理平台,构建轮胎企业大数据资源中心、大数据分析与决策应用系统。从销售数据分析和宏观数据趋势两个层面进行轮胎销售大数据分析与预测。采用多个不同领域的销售数据源来解决销售预测历史数据特征空间稀疏的问题,使用LASSO(The Least Absolute Shrinkage and Selectionator Operator)方法的多任务学习方法来解决高维样本空间的缺点,实验数据验证能够提升轮胎销售预测的准确率。  相似文献   

3.
大数据流式计算:关键技术及系统实例   总被引:5,自引:0,他引:5  
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.  相似文献   

4.
信息系统在进行知识的挖掘和管理时,需要处理各种形式的数据,流数据便是其中之一.流数据具有数据规模大、产生速度快且蕴含的知识具有较强时效性等特点,因而发展支持实时处理应用的流计算技术对于信息系统的知识管理十分重要.流计算系统可以追溯到29世纪90年代,至今已经经历了长足的发展.然而,当前多样化的知识管理需求和新一代的硬件架构为流计算系统带来了全新的挑战和机遇,催生出了一系列流计算领域的技术研究.首先介绍流计算系统的基本需求以及发展脉络,再按照编程接口、执行计划、资源调度和故障容错4个层次分别分析流计算系统领域的相关技术;最后,展望流计算技术在未来可能的研究方向和发展趋势.  相似文献   

5.
大数据分析中的计算智能研究现状与展望   总被引:2,自引:0,他引:2  
郭平  王可  罗阿理  薛明志 《软件学报》2015,26(11):3010-3025
随着产业界和科学界数据量的爆炸式增长,大数据技术和应用吸引了众多的关注.如何分析大数据,充分挖掘大数据的潜在价值,成为需要深入探讨的科学问题.计算智能是科学研究和工程实践中解决复杂问题的有效手段,是人工智能和信息科学的重要研究方向,应用计算智能方法进行大数据分析具有巨大的潜力.对大数据分析中的计算智能方法进行综述,结合大数据的特征,讨论了大数据分析中计算智能研究存在的问题和进一步的研究方向,阐述了数据源共享问题,并建议利用以天文学为代表的数据密集型基础科研领域的数据开展大数据分析研究.  相似文献   

6.
随着科学技术的发展,大数据技术逐渐出现,其可以对数据规模存储、运算问题进行有效解决,大数据时代的到来促使大数据逐渐从数据找应用变为应用找数据,这也是大数据时代主要技术特点之一.大数据具有一定的复杂性,可以通过数据分析技术进行处理,需要对大数据时代下数据分析理念进行辨析,以便更好地对大数据进行科学管理.  相似文献   

7.
数据是天文学发展的重要驱动。分布式存储和高性能计算(High Performance Computing,HPC)为应对海量天文数据的复杂性、不规则的存储和计算起到推动作用。天文学研究中多信息和多学科交叉融合成为必然,天文大数据已进入大规模计算时代。高性能计算为天文大数据处理和分析提供了新的手段,针对一些传统手段无法解决的问题给出了新的方案。文中根据天文数据分类和特征,以高性能计算为支撑,对天文大数据的数据融合、高效存取、分析及后续处理、可视化等问题进行了研究,总结了现阶段的技术特点,提出了处理天文大数据的研究策略和技术方法,并对天文大数据处理面对的问题和发展趋势进行了探讨。  相似文献   

8.
在省级环境监测系统中随着时间的累积有大量数据,并且监测数据种类繁多,不同环境指标的描述信息也有很大差别,同时监测数据又是每分每秒不断增加的,这样就增加了数据的复杂性.而数据融合技术则是大数据技术中处理数据的一种方式,可以将来自多传感器的数据通过数据转换、数据相关和融合计算过程,对数据处理、分析并进行态势分析.同时利用到了大数据ETL技术、MapReduce处理,使用D-S证据推理算法进行融合推理,这样就可以增加数据的相关性,降低数据的规模.  相似文献   

9.
随着人工智能、大数据等技术的发展,数据采集、数据分析等应用日渐普及,隐私泄露问题越来越严重.数据保护技术的缺乏限制了企业之间数据的互通,导致形成"数据孤岛".安全多方计算(securemultiparty computation,MPC)技术能够在不泄露明文的情况下实现多方参与的数据协同计算,实现安全的数据流通,达到数据"可用不可见".隐私保护机器学习是当前MPC技术最典型也是最受关注的应用与研究领域,MPC技术的应用可以保证在不泄露用户数据隐私和服务商模型参数隐私的情况下进行训练和推理.针对MPC及其在隐私保护机器学习领域的应用进行全面的分析与总结,首先介绍了MPC的安全模型和安全目标;梳理MPC基础技术的发展脉络,包括混淆电路、不经意传输、秘密分享和同态加密;并对MPC基础技术的优缺点进行分析,提出不同技术方案的适用场景;进一步对基于MPC技术实现的隐私保护机器学习方案进行了介绍与分析;最后进行总结和展望.  相似文献   

10.
大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计算时不仅增加了计算资源的密度,而且提高节点间和节点内的通信复杂度。为了从理论上研究GPU与多核CPU协同计算问题,面向多种计算模式建立一个多阶段的协同计算模型(p-DCOT)。p-DCOT以BSP大同步并行模型为核心,将协同计算过程分成数据层、计算层和通信层三个层次,并且延用DOT模型的矩阵来形式化描述计算和通信行为。通过扩展p-DOT模型描述节点内和节点间的协同计算行为,细化了负载均衡的参数并证明时间成本函数,最后用典型计算作业验证模型及参数分析的有效性。该协同计算模型可成为揭示大数据分析处理中协同计算行为的工具。  相似文献   

11.
随着大数据分析处理需求日益复杂,分析处理过程的表达需要转变为依据任务以及任务间依赖关系构建的大数据工作流的形式,以实现其结构化、可重复、可控制、可扩展以及自动化执行,大数据工作流的编排管理成为重要的研究课题,云计算环境下资源的异构性使得该问题变得更为复杂。本文首先将云环境下大数据工作流编排管理研究划分为大数据工作流构建、工作流划分、任务调度与执行以及容错处理4个方面,并在此基础上进行综述,列举并介绍各个方面近年来经典的、关注度较高的研究;然后,针对研究中的主流技术进行分类与梳理,对各项研究中提出的方法及其特性、优势、待改进项等方面进行分析;最后,将视角回归至大数据分析处理系统,分类分析各项研究给系统带来的收益。  相似文献   

12.
With computing systems undergone a fundamental transformation from single-processor devices at the turn of the century to the ubiquitous and networked devices and the warehouse-scale computing via the cloud, the parallelism has become ubiquitous at many levels. At micro level, parallelisms are being explored from the underlying circuits, to pipelining and instruction level parallelism on multi-cores or many cores on a chip as well as in a machine. From macro level, parallelisms are being promoted from multiple machines on a rack, many racks in a data center, to the globally shared infrastructure of the Internet. With the push of big data, we are entering a new era of parallel computing driven by novel and ground breaking research innovation on elastic parallelism and scalability. In this paper, we will give an overview of computing infrastructure for big data processing, focusing on architectural, storage and networking challenges of supporting big data paper. We will briefly discuss emerging computing infrastructure and technologies that are promising for improving data parallelism, task parallelism and encouraging vertical and horizontal computation parallelism.  相似文献   

13.
面向服务的云数据挖掘引擎的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
数据挖掘算法处理海量数据时,扩展性受到制约。在商业和科学研究的各个领域,知识发现的过程和需求差异较大,需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架,CloudDM利用开源云计算平台Hadoop处理海量数据的能力,以面向服务的形式支持分布式数据挖掘应用的设计和运行,并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎,可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。  相似文献   

14.
大数据时代的到来,对数据的管理和存储带来了挑战。为了更好地管理和利用大数据,对大数据的基本特征进行了剖析,从大数据和分析技术平台的视角,分析了海量并行处理架构、云计算、网格计算和MapReduce这几种重要的技术,比较了其技术特点,对运用不同的技术对大数据时代数据管理产生的作用进行了分析,讨论了大数据分析工作所需要的混合环境,整合环境资源以使能够协同工作,使得每一项技术变得更加强大有效。  相似文献   

15.
为解决大数据处理的瓶颈,分析了大数据及云计算的关键技术,论述了大数据和云计算之间的关系,利用云计算在数据存储、数据管理和虚拟化等方面的技术优势,构建了基于云计算的大数据管理和处理模式,为大数据的研究及应用提供了新的思路和技术基础。  相似文献   

16.
阐述了物联网、大数据及云计算技术的研究现状,指出3种技术之间的关系,即物联网产生大数据,大数据助力物联网;大数据需要云计算,云计算增值大数据。结合煤矿综合自动化的建设发展历程,研究了3种技术在煤矿安全生产保障中的作用和地位,提出了3种技术在煤矿生产安全保障中的关系:物联网是煤矿各个子系统建设的技术框架和路线图,大数据是矿山物联网建设的产物,云计算则是对大数据处理利用的技术手段,并指出基于物联网、大数据及云计算技术的煤矿安全生产监测监控系统将是主动式、多参数融合、具备预警功能的监测监控系统,可有效提升煤矿安全生产水平。  相似文献   

17.
遥感大数据研究现状与发展趋势   总被引:2,自引:0,他引:2       下载免费PDF全文
目的 遥感数据空间分辨率、时间分辨率、光谱分辨率以及辐射分辨率不断提高,数据类型也不断增加,从航天、航空、临近空间等遥感平台所获取的遥感数据量急剧增加,遥感数据已经具有明显的大数据特征。本文旨在从系统应用的角度分析遥感大数据处理中涉及的关键技术与问题,为相关研究人员提供有价值的参考。方法 在参考大量文献的基础上,首先阐明遥感大数据的特点。其次,从GPU硬件加速、集群、网格、云计算、云格、复杂高性能计算等角度介绍了遥感大数据处理系统。再次,从分布式集群化存储技术等,分析了遥感大数据处理的关键技术。最后,从遥感大数据的多类不确定性、信息融合、机器学习、分析平台等出发,说明了目前研究存在的问题;从遥感大数据多类不确定性建模,面向遥感大数据的机器学习方法等角度说明了遥感大数据发展的趋势。结果 本文详细梳理了遥感大数据的特点、典型的处理系统、核心技术,力图总结出在实际应用与学术研究中该领域需要解决的关键问题以及未来的发展趋势。结论 大数据技术为遥感数据挖掘与知识获取带来了机遇与挑战,面向大数据的机器学习、数据统一分析框架、面向大数据的信息深度融合等问题的突破,将促进遥感知识挖掘的进一步发展。  相似文献   

18.
车联网技术是物联网技术在交通领域的延伸及应用,是中国"十二五"规划的重点应用领域之一。文章首先介绍了车联网的基本概念,接着对车联网中的RFID、传感器、无线传输、信息安全、标准化、数据融合、异构网络融合、大数据处理、云计算、移动计算等关键技术进行了剖析。与此同时,也对部分关键技术的发展趋势进行了总结和展望。  相似文献   

19.
SDPG: Spatial data processing grid   总被引:11,自引:0,他引:11       下载免费PDF全文
Spatial applications will gain high complexity as the volume of spatial data in-creases rapidly. A suitable data processing and computing infrastructure for spatial applications needs to be established. Over the past decade, grid has become a powerful computing environment for data intensive and computing intensive applications. Integrating grid computing with spatial data processing technology, the authors designed a spatial data processing grid (called SDPG) to address the related problems. Requirements of spatial applications are examined and the architec-ture of SDPG is described in this paper. Key technologies for implementing SDPG are discussed with emuhasis.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号