首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
针对供应链环境下制造企业基于海量感知数据的业务处理存在语义异构,同时难以进行集成和高效应用的难题,提出一种本体驱动的分布式信息处理方法.构建基于海量感知数据的供应链事件本体,完善定义和表达企业业务处理粒度,通过本体映射实现异构信息源到统一描述事实组的转换.定义并构建基于事件本体的语义规则语言(SWRL)处理规则,实现企业决策应用.提出一种规则分解和事实分发策略,采用基于MapReduce和Rete算法相结合的分布式处理架构,实现大规模数据的高效处理.通过企业实例对比分析,结果表明,以推理结果准确性和处理效率为指标,验证了该方法的可行性.  相似文献   

2.
逻辑回归中的批量梯度下降算法需要访问全部数据样本,在单节点环境下计算耗时较长。针对大批量数据集的训练问题,提出了一种基于MapReduce框架的并行化算法。首先利用HDFS文件系统存储训练数据集,MapReduce框架会对输入数据集进行分片处理,每一个分片交由一个Map节点进行处理;Map过程的输出结果会传给Combiner节点,进行各个分片内部的数据归并;所有分片的归并结果会通过Shuffle过程,进行各个分片间的数据合并,汇总成一个输出文件;输出文件会传给Reduce节点进行运算,最后将计算结果用于参数更新。实验结果表明,集群环境下的参数训练结果正确,随着数据集的扩大,并行化计算的优势逐渐显现。  相似文献   

3.
决策树算法是数据挖掘中重要的分类算法,但目前多数针对决策树的改进方法都基于传统的串行算法,不能满足大数据环境下对海量数据挖掘的需要.针对大数据集中串行挖掘算法效率低下的问题,采用MapReduce对决策树算法进行了并行化实现,同时引入修正参数来改进ID3算法倾向于多值属性选取的问题.实验结果表明,该算法具有较好的并行性和扩展性,能有效处理大数据集的分类问题.  相似文献   

4.
采用一种属性约简算法,将待分类的数据样本进行两次约简处理--初次决策表属性约简和基于核属性值的二次约简。通过属性约简方法来删除数据集中的冗余数据,进而提高KNN算法的分类精度。在此基础上应用MapReduce并行编程模型,在Hadoop集群环境上实现并行化分类计算实验。实验结果表明,改进后的算法在集群环境下执行的效率得到很大提升,能够高效处理实验数据。实验执行的加速比也有明显提高。  相似文献   

5.
直方图能够直观的表示数据分布状况,在数据库查询优化中起着重要作用。为了更高效的利用计算集群中计算资源构建直方图,基于关系型云数据库提出一种直方图的分布式并行构造方法。集群中应用请求节点通过对经RPC协议传输的工作节点最值数据比较得到数据库表的全局最大值、最小值,依次将全局最值信息传送至集群中相关工作节点,使各工作节点能够在本地构建范围相同的等宽直方图,最后应用请求节点依据多个工作节点的直方图信息数据进行合并。算法利用分布式并行思想实现了关系型云数据库中直方图的构建,将计算任务划分成多个小任务并行执行,与基于MapReduce架构的直方图构建方法相比,该方法中不需要传输数据库表数据,解决了大数据环境下直方图构建过程中的网络传输量问题。  相似文献   

6.
随着卫星遥感数据的增加,单机环境下完成海量影像的Sobel边缘检测将比较耗时,如何提高效率已成为时下遥感领域所面临的一个新的挑战.传统方法通过获得遥感影像的数学形态变化特征(即二值化图像),进而提取其边缘二值化影像.鉴于MapReduce是运行在Hadoop集群环境下的并行分布式计算模型,在处理海量数据时的效率之高,故本文将其应用到遥感领域,并行实现海量影像的Sobel边缘检测.实验结果表明较传统的方法而言,集群环境下实现海量影像边缘检测的用时显著减少,并且该用时随着Hadoop集群中节点数目的增加而线性递减.  相似文献   

7.
面对传统医疗健康管理系统在存储和管理海量数据方面表现欠佳的问题,提出基于Hadoop对医疗健康数据进行高效管理和快速处理的方法。根据医疗健康数据特点,将HBase与Solr相结合实现多条件查询从而提高查询效率。设计医疗健康数据HBase数据库、医疗健康数据写入HBase过程和医疗健康数据MapReduce查询分析三个组成部分,搭建Hadoop集群环境,对HBase和MapReduce的性能进行测试对比。经测试,当数据量逐渐增大到一定规模时,该模型表现出明显的优势,可满足海量的医疗健康数据管理要求,缩短了计算时间,提高了处理效率。  相似文献   

8.
基于分布式内存计算的深度学习方法   总被引:1,自引:0,他引:1  
为了提升深度学习技术并行化学习效率,设计了一种面向计算机集群的分布式内存计算方法。构建分布式内存环境,建立数据分片处理和多任务调度机制,使模型参数和神经元节点的计算和存储并行运行于该环境中,避免了磁盘I/O对训练速率的影响;采用深度信念网络模型,以多个副本异步并行计算的方式进行模型训练,并使用dropout方法防止模型训练过拟合。对CIFAR-10图像数据集进行分类训练,试验结果表明,该方法可以明显提高深度神经网络的训练效率,并具备良好的可扩展性。  相似文献   

9.
微博作为信息发布和获取的重要手段,已成为最重要的媒体之一。用户每天在微博上发言,其内容隐含着许多重要话题。在话题检测过程中,话题网络构建是一项最基本的内容。将微博发言作为节点,将节点间包含共同的词汇作为边,应用MapReduce编程模型作为海量数据处理的平台,研究了微博信息中大规模话题网络的构建方法。实验表明,基于MapReduce构建的话题网络符合社会网络的相关性质,并且其话题预测的准确性也高于基于LDA模型的话题检测。  相似文献   

10.
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析   总被引:1,自引:0,他引:1  
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引.采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能.实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强.可见,网络通信带宽对Ha...  相似文献   

11.
面向Hadoop的云计算核心技术分析   总被引:2,自引:2,他引:0  
在企业以海量数据处理能力为核心竞争力之一的时代,云计算技术的出现为此提供了良好的解决方案。首先,研究分析了云计算技术的开源实现Hadoop的核心内容:分布式系统文件HDFS和MapReduce算法模型;然后,通过实例阐述了面向Hadoop的分布式云计算平台的构建,证实了Hadoop是一个更容易开发和并行处理大规模数据的分布式云计算平台;最后,对如何实现Hadoop的高可用性和高效性进行了展望。  相似文献   

12.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

13.
为了降低连续交通流模型并行计算的实现难度,参考离散交通流模型并行计算的框架,提出了一套连续交通流模型并行计算的框架.该框架包括同步机制、基于网格的区域分解方法和边界缓冲模型,其中同步机制采用与离散交通流模型并行计算相同的主从结构的同步机制,基于网格的区域分解方法和边界缓冲模型分别用来实现任务的分解和提供仿真计算时所需的交互数据.实验中,选用了一个大规模路网进行验证,结果表明应用这一框架,可以方便地实现连续交通流模型的并行计算,提高连续交通流模型运算的速度,从而满足了智能交通系统中大规模交通路网实时、高效和动态仿真的需求.  相似文献   

14.
基于MapReduce的频繁项集挖掘方法   总被引:2,自引:0,他引:2  
为了改进关联规则挖掘的经典Apriori算法,设计一种基于Map/Reduce的频繁项集挖掘方法。通过搭建Hadoop平台,可使该方法得以实现,并籍此对该方法与Apriori算法的性能进行比较研究。实验结果表明该方法在对大数据集进行频繁项集挖掘时,可充分利用云计算的优势,从而能获得更好的时效性。  相似文献   

15.
为实现卷积神经网络数据的高度并行传输与计算,生成高效的硬件加速器设计方案,提出了一种基于数据对齐并行处理、多卷积核并行计算的硬件架构设计和探索方法. 该方法首先根据输入图像尺寸对数据进行对齐预处理,实现数据层面的高度并行传输与计算,以提高加速器的数据传输和计算速度,并适应多种尺寸的输入图像;采用多卷积核并行计算方法,使不同的卷积核可同时对输入图片进行卷积,以实现卷积核层面的并行计算;基于该方法建立硬件资源与性能的数学模型,通过数值求解,获得性能与资源协同优化的高效卷积神经网络硬件架构方案. 实验结果表明: 所提出的方法,在Xilinx Zynq XC7Z045上实现的基于16位定点数的SSD网络(single shot multibox detector network)模型在175 MHz的时钟频率下,吞吐量可以达到44.59帧/s,整板功耗为9.72 W,能效为31.54 GOP/(s·W);与实现同一网络的中央处理器(CPU)和图形处理器(GPU)相比,功耗分别降低85.1%与93.9%;与现有的其他卷积神经网络硬件加速器设计相比,能效提升20%~60%,更适用于低功耗嵌入式应用场合.  相似文献   

16.
DBSCAN算法是一种典型的基于密度的聚类算法,具有速度快、可以发现噪声的优点,但在处理大规模数据时出现聚类效率低、内存和I/O消耗大、聚类精度降低的问题,集群式计算机技术特别是云计算技术的发展提供了解决DBSCAN算法缺陷的方案.文中提出了数据预分区的并行PMDBSCAN算法,该算法在聚类之前对数据分区预处理,利用并行编程模型MapReduce实现DBSCAN算法并行化,结合重叠分区思想,减少I/O消耗.实验结果表明,在大规模数据集上,PMDBSCAN算法聚类有效提高了聚类的速度、减少了I/O消耗、改善了聚类的质量.  相似文献   

17.
高分辨率遥感影像并行处理数据分配策略研究   总被引:8,自引:0,他引:8  
在高分辨率遥感影像信息提取过程中,为提高信息提取的精度,采用基于特征基元的尺度分割方法;为提高信息提取的速度,采用并行计算机制实现遥感影像的信息提取.在采用并行计算实现遥感影像特征提取过程中,提出非均匀数据分配策略,并对其进行基于MPI的实现及效率的分析.结果表明,非均匀的遥感数据划分策略在针对特定图像的并行处理时能够得到比常规均匀划分策略更高的效率.  相似文献   

18.
针对飞机载荷谱数以万亿计的实测数据,为了提高统计处理运行效率,提出了飞机载荷谱实测数据处理的并行算法。本文对载荷谱实测数据处理模型进行了多级并行化分析,在此基础上论述了粗粒度、中粒度、细粒度级并行处理方式,建立了两种并行处理算法——基于机型数据流的粗粒度与中粒度并行数据处理算法和基于某起落数据流的中粒度与细粒度并行数据处理算法。在小规模对称多处理器(Symmetrical multi-processors,SMP)集群运算平台下进行比较测试表明,可大幅地提高载荷谱数据处理运行效率,在8核运算环境下,最高能获得5.82的加速比,为飞机载荷谱实测数据处理研究领域进行大规模科学计算和提高数据处理效率提供了新的技术途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号