首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
网络日志分析对网络安全管理具有重要意义,但现有的网络日志分析系统具有无法处理海量日志数据、采用离线模式、处理时延较长等弊端。因此,提出网络日志数据的分级归档机制,实现海量数据的分级优化存储功能。通过将传统的网络日志分析模式和基于Hadoop的离线处理模式相结合,设计基于Hadoop的在线网络日志分析系统,并深入分析系统的功能架构和业务处理流程。实验结果表明:该系统具有良好的可扩展性,可以有效存储处理海量日志数据,具有较快的请求响应速度,并能够满足在线处理的要求。从而验证了系统设计的可行性和有效性。  相似文献   

2.
应毅  任凯  刘亚军 《计算机科学》2018,45(Z11):353-355
传统的日志分析技术在处理海量数据时存在计算瓶颈。针对该问题,研究了基于大数据技术的日志分析方案:由多台计算机完成日志文件的存储、分析、挖掘工作,建立了一个基于Hadoop开源框架的并行网络日志分析引擎,在MapReduce模型下重新实现了IP统计算法和异常检测算法。实验证明,在数据密集型计算中使用大数据技术可以明显提高算法的执行效率和增加系统的可扩展性。  相似文献   

3.
对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。  相似文献   

4.
庞俊  于戈  许嘉  谷峪 《计算机科学》2015,42(1):1-5,27
海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用.另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易用性,被广泛地应用于海量数据处理.因此,基于MapReduce框架的海量数据相似性连接查询技术成为海量数据处理领域的热点问题之一.首先,概括了海量数据固有特点和MapReduce编程框架的缺陷给现有相似性连接查询技术带来的巨大挑战;其次,提出了海量数据相似性连接的定义,按3种不同的分类标准对其进行了分类;接着,重点分析了集合、字符串和向量数据类型的海量相似性连接查询最新技术,并从效率和适用范围等方面分别对这些技术进行了比较;最后,讨论了海量数据相似性连接查询技术亟待解决的关键问题,并提出了一些有前景的解决方案.  相似文献   

5.
MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理.然而,MapReduce欠缺对多数据源、组件复用以及数据可视化支持,这些缺点使用户在运用MapReduce框架进行数据挖掘时暴露出开发效率低下,重复开发等问题.提出了一种基于MapReduce的数据挖掘平台的设计与实现,该设计思想为Hadoop作为大规模数据计算平台在数据挖掘、数据可视化以及商业智能应用方面的不足提供了参考与弥补.同时,基于该方法实现了一个大规模数据挖掘工具.  相似文献   

6.
通过研究各种决策树分类算法的并行方案后,并行设计C4.5算法.同时根据Hadoop云平台的MapReduce编程模型,详细描述C4.5并行算法在MapReduce编程模型下的实现及其执行流程.最后,对输入的海量文本数据进行分类,验证了算法的高效性和扩展性.  相似文献   

7.
张智  龚宇 《现代计算机》2014,(11):33-37
HBase是一个面向列的非关系型的开源分布式存储系统,它基于Hadoop HDFS文件存储系统,使用MapReduce来处理海量数据,利用Zookeeper作为协同服务,它使用简单的键值对映像关系为超大规模和高并发的海量数据实时响应系统提供一个很好的解决方案。对HBase的体系结构、数据模型、MapReduce算法设计等几个方面进行详细阐述,并对HBase的未来发展做出展望。  相似文献   

8.
网络视频监控系统对海量视频数据存储和智能视频分析服务的需求日益突出,针对系统硬件计算能力有限,不能满足用户需求的多样性,系统扩展性受到存储设备容量的限制等问题,通过虚拟化技术构建云计算基础资源池,以Hadoop分布式文件系统存储海量视频数据,使用MapReduce编程模型实现大规模并行计算,提高了系统的可扩展性和可靠性,为用户提供实时视频监控和智能视频分析服务.  相似文献   

9.
唐兵  贺海武 《计算机科学》2015,42(11):65-67, 89
MapReduce是Google提出的一种分布式计算模型,已在海量数据处理领域得到了广泛的应用。提出一种基于树型结构的新型MapReduce并行模型。该模型适合于利用Internet或Intranet环境下不可靠的桌面PC资源进行海量科学数据分析。该模型以P2P的形式将计算节点进行组织,模型的底层采用了P2P-MPI框架,采用基于消息传递的模式来实现MapReduce应用层。在MapReduce应用层的实现中,在Map阶段采用广播的形式来分发数据块,在Reduce阶段建立反向二叉树来实现有效的结果合并和化简。将提出的MapReduce模型与现有主流MapReduce模型进行了比较,结果表明,基于树型结构的MapReduce并行模型在容错性能方面具有较优的性能,且系统简单,易于应用开发。  相似文献   

10.
针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——M DETL(MapReduce Distributed ETL).该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执行ETL流程,从而提高了整个ETL系统的灵活性和吞吐率,并具有较好的可扩展性和负载平衡性能,提高了执行效率.  相似文献   

11.
彭超 《软件》2012,33(12)
Google在2004年提出了MapReduce框架,MapReduce支持海量数据的并行计算[1].单词贡献度算法是文本挖掘中一种比较新颖的用于非监督聚类的特征词提取算法.本文基于MapReduce框架设计并实现了一种并行的单词贡献度算法.通过对比试验可以得出结论,本文所提出的并行算法较普通的单词贡献度算法性能有大幅度提升.  相似文献   

12.
基于消息传递机制的MapReduce图算法研究   总被引:5,自引:0,他引:5  
潘巍  李战怀  伍赛  陈群 《计算机学报》2011,34(10):1768-1784
单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapReduce基于易并行计算的假设,增强了MapReduce既有的编程规范,新的大同步(...  相似文献   

13.
随着网络技术的飞速发展,网络流量数据呈指数级增长,目前常用的集中式网络测量方法已经很难满足要求.论文提出一种基于云计算的网络测量系统,设计了基于数据报文的往返时延计算和Netflow流聚合的MapReduce算法,用于解决海量测量数据处理,实验结果表明该算法具有较好的正确性和可扩展性.  相似文献   

14.
Hadoop云平台下的基于用户协同过滤算法研究   总被引:1,自引:0,他引:1  
随着互联网的高速发展,海量新闻的个性化推荐成为一个重要课题,针对海量新闻的个性化推荐算法进行研究,以MapReduce的并行方法设计了基于Hadoop云平台下的协同过滤算法,利用MapReduce的并行方法,将传统的协同过滤算法并行化,并详细说明了并行化步骤和实现细节;最后用实验结果验证了改进的并行化的协同过滤算法在运行速度和执行效率方面有明显的提高,更适合处理大数据.  相似文献   

15.
Hadoop 是一个实现 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop,程序员可以轻松编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算。本文介绍了基于Hadoop架构的系统的设计与实现,介绍如何提高Hadoop的分布式文件管理系统(HDFS)和MapReduce的执行效率与速度,以及 Hadoop 的安装部署和基本运行方法。  相似文献   

16.
MapReduce框架下的Skyline计算   总被引:2,自引:0,他引:2  
由于Skyline查询广泛应用于多目标决策、数据可视化等领域,近年来成为数据库领域的一个研究热点。针对云计算环境,在MapReduce框架下设计并实现了Skyline算法。MapReduce是一个运行在大型集群上处理海量数据的并行计算框架,其主要思想是任务的分解与结果的汇总。基于不同的数据划分思想,实施了三种Skyline并行算法,分别是基于MapReduce的块嵌套循环算法(MapReduce based block-nested-loops,MR-BNL)、基于MapReduce的排序过滤算法(MapReduce based sort-filter-skyline,MR-SFS)以及基于MapReduce的位图算法(MapReduce based bitmap,MR-Bitmap),并针对这三种算法进行了系统的实验比较,得出了不同数据分布、维数、缓存等因素对算法性能的影响结果。  相似文献   

17.
传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤MapReduce模型,优化邮件的训练和过滤过程。实验结果表明,与传统分布式计算模型相比,该模型在召回率、查准率和精确率方面性能较好,同时可降低邮件过滤成本,提高系统执行效率。  相似文献   

18.
大数据下不完备信息系统近似空间的并行算法   总被引:1,自引:0,他引:1  
上、下近似空间是粗糙理论的重要概念,解决上、下近似问题是海量数据挖掘的基础。经典的近似空间算法不适合处理海量数据,更不适合处理带缺失信息的海量数据问题。为此,通过深度分析带缺失信息的海量数据特征,结合MapReduce编程模型,提出了基于MapReduce框架下近似空间的并行算法,以处理带缺失信息的海量数据,实验结果表明了该并行算法的有效性。  相似文献   

19.
基于 MapReduce 的关联规则增量更新算法   总被引:1,自引:0,他引:1  
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径.经典的关联规则增量更新算法FUP 需要频繁扫描原数据集,不适用于海量数据的处理.文中以提高海量数据上关联规则增量更新效率为目标,将 FUP算法与云计算的 MapReduce 编程模式相结合,提出了一种基于 MapReduce 的关联规则增量更新算法 MRFUP.该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力.基于 Hadoop 的实验结果表明,MRFUP 算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘  相似文献   

20.
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,海量数据的实时处理需求日益增多,传统的日志分析技术在处理海量数据时存在计算瓶颈。大数据时代下,随着开放式处理平台的发展,能够处理大规模且多样化数据的大数据处理系统应运而生。为了让原有的业务能够充分利用Hadoop的优势,本文首先研究了基于大数据技术的网络日志分析方法,构建了网络日志分析平台以实现万亿级日志采集、解析、存储和高效、灵活的查询与计算。对比分析了Hive、Impala和Spark SQL这3种具有代表性的SQL-on-Hadoop查询系统实例,并展示了这类系统的性能特点。采用TPC-H测试基准对它们的决策支持能力进行测试及评估,通过对实验数据的分析和解释得到了若干有益的结论。实现了海量日志数据计算与分析在证券领域的几种典型应用,为进一步的研究工作奠定了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号