期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李铖瀚何利力刘淳猛《工业控制计算机》2015,(2):90-91

Hadoop是一个开源分布式计算平台。具有高容错性,高伸缩性等优点,允许用户将Hadoop部署在低廉的PC上,充分利用集群的计算和存储能力,完成海量数据的处理。结合国内烟草企业面对不断剧增的业务数据,而现有的业务数据处理能力明显不足的现状,分析烟草企业构建Hadoop分布式数据处理平台的可行性,并详细介绍了Hadoop平台技术及其项目结构和体系结构。相似文献

2.

基于高性能EPC网络的物流追溯信息系统设计与实现

王渭刘子建《计算技术与自动化》2017,(1):128-135

物流行业数据具有访问高并发、大数据处理、数据逆向追踪等特征,为了实现物流企业物品智能化识别定位、跟踪监控与管理,本文建立了基于高性能EPC网络架构的物流追溯信息系统。首先,根据EPC体系规范,分析了基于EPC体系结构的物流数据流向。其次,给出了对物流信息系统基础服务进行分层设计、采用分布式部署和集群化处理等设计方法,提出了基于EPC的物流信息系统架构。最后,对以EPCIS为内核的物流追溯信息系统进行详细设计,运行效果表明了系统设计方法的有效性。相似文献

3.

一种基于Hadoop的云运维监控模型设计与实现

张建耿焕同路有兵《计算机与现代化》2012,(6):191-194,199

随着企业信息化在生产实时监测、海量存储和科学分析决策等方面的需求不断提升,运维监控系统已逐渐成为主要的管理手段。采用最新的云计算技术,设计及搭建一个数据规模易扩展、处理速度快、安全性高、成本低的云运维监控系统;针对运维控制系统中海量监控历史数据实时提取响应速度慢的缺点,设计并实现一种基于Hadoop的分布式海量数据处理模型。仿真实验证明,Hadoop在对云监控系统中的海量数据提取效率优于传统方法,随着数据量的快速增长,优势越明显。相似文献

4.

基于Hadoop的城市交通碳排放数据挖掘研究*

朱钥贾思奇张俊魁李琦《计算机应用研究》2011,28(11):4213-4215

针对交通数据大吞吐量及时效性等特点,为了更高效地处理该类型数据,探索了一种基于云计算服务模式的、利用Hadoop技术架构可扩展的交通数据处理、发布、服务实现方法,并实现了原型系统。该方法的主要思想是利用Hadoop所提供的分布式文件处理能力对海量的交通数据进行并行处理,该过程效率较高,且运行可靠性强,与传统方法相比具有较为突出的优势。相关实验测试结果显示,该方法大大提高了该类型数据处理时效,取得了较为理想的实验效果,进一步论证了此方法对于处理该类数据的可靠性和有效性。相似文献

5.

基于Hadoop的海量电费数据处理模型

谌章义毕伟向万红王国安吴爱国《计算机系统应用》2014,23(5):37-42

随着电费数据量的快速增长,某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈. Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于海量数据处理领域. 本文在对电费业务和Hadoop进行分析和研究的基础上,提出了电费数据新的处理模型,建立了基于Hadoop和Hive的电费明细数据处理平台. 实验证明该模型可以有效解决目前海量电费数据处理面临的性能瓶颈,提高电费数据处理的速度和效率,并且可以提供高性能的明细数据查询功能. 相似文献

6.

基于Hadoop框架的MapReduce计算模式的优化设计

孙彦超王兴芬《计算机科学》2014,41(Z2)

对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。相似文献

7.

基于Hadoop集群的海量数据处理系统

张遥蒋春娟《网络安全技术与应用》2014,(10):8-9

近年来,随着各个领域中大规模、海量数据存储和处理需求的不断增加,集群作为一种廉价的可以提供强大计算能力的并行计算技术得到越来越广泛的应用,其具有大型机的超级计算能力和较低成本投入.从而成为各种高性能计算的主流方向,如科学计算与其他需要大规模并行计算的应用服务等.本文在分析现有分布式储存和计算等关键技术基础上,结合对Hadoop的集群技术的研究以及自身的业务需求和实际软硬件实力,提出了一种基于Hadoop的海量数据处理模型. 相似文献

8.

基于分布式压缩感知的无线传感器网络异常数据处理

侯明星亓慧黄斌科《计算机科学》2020,47(1):276-280

无线传感器网络的海量数据采集、传输和处理,对传感器节点的处理能力和功耗提出了严峻挑战,而且现实环境中传感器故障或者环境因素的突变会导致部分采集数据异常,而传统的数据处理方法无法对包含异常的数据进行有效的处理。针对上述问题,文中提出了两类无线传感器网络的异常数据模型,以及相应的基于分布式压缩感知的异常数据处理方法。通过协同的多个传感器进行数据压缩采样,当多个传感器采集的数据包含异常成分时,分布式压缩感知技术对数据中相同的正常分量进行一次统一重构,仅对不同的异常分量进行单独重构,从而避免了对相同数据分量的重复处理,提高了对包含异常成分数据处理的效率。另外,分布式压缩感知技术充分利用数据间的相关性,可有效减少传感器网络的数据采集量,加强其对抗异常数据的鲁棒性。对两类异常数据模型的数值仿真结果表明:相比于传统的基于单组测量值的压缩感知技术,基于分布式压缩感知技术的数据处理方法在提高异常数据重构准确率的同时,将采样数据量减少了约33%,证明了该方法的有效性。相似文献

9.

基于Storm的实时计算框架的研究与应用

李川鄂海红宋美娜《软件》2014,(10):16-20

互联网数据的增长,催生了一大批新的数据处理技术,Map Reduce,Hadoop及相关技术使得我们能够处理的数据量比以前要大得多,但这些技术的设计目的都不是为了实时计算。然而随着社交网络服务的流行,大规模的实时数据处理已经越来越成为一种业务需求。Twitter Storm的出现弥补了Hadoop在实时处理方面的不足。本文就Storm的组成、运行机制以及计算模型进行研究,并设计与实现了基于Storm的社交网络中热门话题的实时计算问题。相似文献

10.

基于蚁群算法的Hadoop资源感知调度器研究

张海燕吴凡王建新《计算机工程与应用》2014,50(15):65-71

通过研究蚁群算法,针对现有Hadoop调度器的不足,提出一个基于蚁群算法的Hadoop资源感知调度器及其具体实现方案。从而使Hadoop作业调度器可以更有效地对任务进行分配,提高整体架构的作业性能。通过实验证明,利用蚁群算法实现的资源感知调度器在同构环境中虽没有明显改善系统计算速度,但是在异构环境中可以很好提高系统处理任务的性能,降低了运算时间。相似文献

11.

基于决策树挖掘算法的气象大数据云平台设计

下载免费PDF全文

杜建华王立俊刘骥超王双双谢寒生赵冰《计算机测量与控制》2022,30(11):140-146

大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。相似文献

12.

面向大规模数据的快速并行聚类划分算法研究 总被引：1，自引：0，他引：1

牛新征佘堑《计算机科学》2012,39(1):134-137,151

随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。相似文献

13.

基于并行Apriori的物流路径频繁模式研究

下载免费PDF全文

曹菁菁任欣欣徐贤浩《计算机工程与应用》2019,55(11):257-264

传统的频繁路径挖掘分析主要通过关联规则算法实现，但其在处理大型数据集时，会产生占用内存过多，数据处理速度慢等问题，对此提出一种基于Fuzzy [c]-means聚类算法的并行Apriori算法模型。该模型通过Fuzzy [c]-means算法完成对原始数据集的聚类分析，将同一区域的物流路径数据划分到内部相似度较高的数据类，并利用Apriori算法对各数据类中的频繁模式进行挖掘分析，进而获得各区域的物流频繁路径。同时通过Hadoop平台实现算法的并行化，有效提高算法运行效率和质量。通过对物流频繁路径的挖掘分析，使管理者更清楚货物流向，可为配送路径优化等决策提供支持。相似文献

14.

一种基于Hadoop的高效[K]-Medoids并行算法

王永贵戴伟武超《计算机工程与应用》2015,51(16):47-54

针对传统[K]-Medoids算法对初始聚类中心敏感、收敛速度慢,以及在大数据环境下所面临的内存容量和CPU处理速度的瓶颈问题,从改进初始中心选择方案和中心替换策略入手,利用Hadoop分布式计算平台结合基于Top [K]的并行随机采样策略,实现了一种高效稳定的[K]-Medoids并行算法,并且通过调整Hadoop平台,实现算法的进一步优化。实验证明,改进的K-Medoids算法不仅有良好的加速比,其收敛性和聚类精度均得到了改善。相似文献

15.

基于Hadoop的车辆调度算法优化及应用

陈燕于放田月刘璐《计算机系统应用》2018,27(10):268-272

随着互联网技术的快速发展,各行各业所产生的信息数据也在以指数级的速度增长.传统的车辆调度算法已经不能够很好地解决车辆调度问题中出现的实时性,大规模等问题.因此,本文构建了一种基于Hadoop的动态车辆调度并行智能优化算法.该算法以传统遗传算法为基础,通过改善遗传算法全局优化能力弱和收敛于局部次优解的问题,并利用Hadoop平台的并行计算机制对传统遗传算法进行改进,使其能够有效应对大规模、快速响应的车辆调度.数值计算结果表明：基于Hadoop的车辆调度算法能够有效提升传统调度算法的优化性能,在处理大规模车辆调度问题时具有良好的加速比. 相似文献

16.

基于云计算异构环境的Hadoop性能分析

姚晔常广炎《广东电脑与电讯》2016,1(10):27-29

针对当前云服务发展中遇到的数据量急速增加为后台数据中心带来的数据处理问题,本文实施了Hadoop 的性能测试。首先对云计算异构环境的Hadoop 性能进行了描述,其次对Hadoop 集群中两种节点的性能差别进行了分析,并给出了实验异构的平台的设计和实验结果。相似文献

17.

两种中文分词算法在云计算平台上的实现及比较

孟帮杰王占刚《网络安全技术与应用》2014,(12):67-67

当前IKAnalyzer（IK）和ICTCLAS（IC）是主流的中文分词算法。文中首先通过理论对比二者在单机环境下的性能,然后使用Hadoop集群、Hadoop分布式文件管理系统（HDFS）和并行处理大数据集的Map Reduce组成的框架,利用优化后的算法,通过大量的实验对二者在分布式环境下处理大数据集的表现做出比较。相似文献

18.

基于Hadoop的Web日志挖掘 总被引：3，自引：0，他引：3

下载免费PDF全文

程苗陈华平《计算机工程》2011,37(11):37-39

基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。相似文献

19.

Investigating the performance of Hadoop and Spark platforms on machine learning algorithms

Mostafaeipour Ali Jahangard Rafsanjani Amir Ahmadi Mohammad Arockia Dhanraj Joshuva 《The Journal of supercomputing》2021,77(2):1273-1300

One of the most challenging issues in the big data research area is the inability to process a large volume of information in a reasonable time. Hadoop and Spark are two frameworks for distributed data processing. Hadoop is a very popular and general platform for big data processing. Because of the in-memory programming model, Spark as an open-source framework is suitable for processing iterative algorithms. In this paper, Hadoop and Spark frameworks, the big data processing platforms, are evaluated and compared in terms of runtime, memory and network usage, and central processor efficiency. Hence, the K-nearest neighbor (KNN) algorithm is implemented on datasets with different sizes within both Hadoop and Spark frameworks. The results show that the runtime of the KNN algorithm implemented on Spark is 4 to 4.5 times faster than Hadoop. Evaluations show that Hadoop uses more sources, including central processor and network. It is concluded that the CPU in Spark is more effective than Hadoop. On the other hand, the memory usage in Hadoop is less than Spark.

相似文献

20.

基于MapReduce的Web日志挖掘

李彬刘莉莉《计算机工程与应用》2012,48(22):95-98

针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。相似文献