首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
应毅  任凯  刘亚军 《计算机科学》2018,45(Z11):353-355
传统的日志分析技术在处理海量数据时存在计算瓶颈。针对该问题,研究了基于大数据技术的日志分析方案:由多台计算机完成日志文件的存储、分析、挖掘工作,建立了一个基于Hadoop开源框架的并行网络日志分析引擎,在MapReduce模型下重新实现了IP统计算法和异常检测算法。实验证明,在数据密集型计算中使用大数据技术可以明显提高算法的执行效率和增加系统的可扩展性。  相似文献   

2.
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,海量数据的实时处理需求日益增多,传统的日志分析技术在处理海量数据时存在计算瓶颈。大数据时代下,随着开放式处理平台的发展,能够处理大规模且多样化数据的大数据处理系统应运而生。为了让原有的业务能够充分利用Hadoop的优势,本文首先研究了基于大数据技术的网络日志分析方法,构建了网络日志分析平台以实现万亿级日志采集、解析、存储和高效、灵活的查询与计算。对比分析了Hive、Impala和Spark SQL这3种具有代表性的SQL-on-Hadoop查询系统实例,并展示了这类系统的性能特点。采用TPC-H测试基准对它们的决策支持能力进行测试及评估,通过对实验数据的分析和解释得到了若干有益的结论。实现了海量日志数据计算与分析在证券领域的几种典型应用,为进一步的研究工作奠定了基础。  相似文献   

3.
随着商业和互联网的高速发展,海量网络日志呈现爆炸趋势,传统的日志分析系统无法满足用户的需求.MapReduce编程模型由于其强大的数据处理能力成为本系统的设计基础,利用MapReduce实现了海量数据的分级收集、统一存储和分析管理,设计了有效的网络日志分析系统.  相似文献   

4.
通过研究基于HBase的数据存储模式,开展基于Hadoop的数据应用研究,并探索Hadoop的集群配置、任务调度配置和优化技术。通过研究成果的应用,构建基于云计算技术的海量日志信息存储访问架构,改进监控数据存储与应用的关联度,极大地提升海量监控数据存储与访问的时效,为实时监视与业务分析人员提供更快捷、高效的访问体验,从而进一步提高对业务系统运行及性能的监视与评估能力。  相似文献   

5.
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题,提出了基于数据仓库的海量搜索日志分析系统架构.利用Hadoop分布式文件系统(HDFS)存储海量搜索日志,并对搜索日志进行清洗处理,采用impala对数据进行高速的处理,将处理后的统计结果导入到数据仓库中,使用Penta-hoBI对数据进行多维分析和统计报表.获取了关键词分析、查询频率、热词排行、查询词和时间分布、网站排名、用户统计等6个分析主题.分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义.  相似文献   

6.
智能电网需要收集海量设备状态监测数据,这对数据存储与查询提出了更高的要求。为处理这些海量数据,设计并实现了基于Hadoop技术的数据存储系统,包括Hadoop集群、存储客户端和查询客户端。通过基准测试、存储结果验证和查询性能分析,验证了该系统具有分布式海量存储及高效查询的优势,适合智能电网环境下设备状态监测数据的存储。  相似文献   

7.
UniPay支付SDK是联通沃商店为了给开发者提供手机话费和第三方支付能力而推出的一站式应用内统一支付插件,支付SDK日志记录海量的用户终端信息、用户使用手机应用的行为记录等数据。针对传统数据仓库难于满足海量日志数据存储及处理等问题,设计一种基于Hive的支付SDK日志分析系统。测试结果表明,使用Hadoop框架及Hive数据仓库对海量支付SDK日志进行存储和处理,能很好地满足业务需求,对手机应用的设备激活量、日活跃用户数(DAU)、分时日志量以及用户支付转化率等指标的分析结果,对应用开发者升级优化其应用及运营人员的营销策略调整具有重要的参考价值。  相似文献   

8.
当前Internet上存在着海量的日志数据,他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务,单一主机已经无法满足要求,使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟,被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集群的构建与实现过程。介绍了日志分析的现状,使用vmware虚拟机搭建了Hadoop集群和日志分析系统的构建方法,并对实验结果进行了分析。  相似文献   

9.
现有存储的网络流量日志信息数据量庞大,访问效率很低。为了从海量的网络日志信息中提取所需要的数据,提出了利用内存映像技术解决日志访问的方法。该方法利用网络流量日志自身的特点建立访问路径,通过对网络日志建立内存映像来访问日志信息,并通过C 程序实现日志处理。  相似文献   

10.
安全管理平台(SMP)是实现安全管理工作常态化运行的技术支撑平台,在实际应用中需要实时处理来自安全设备所产生的海量日志信息。为解决现有SMP中海量日志查询效率低下的问题,设计基于云计算的SMP日志存储分析系统。基于Hive的任务转化模式,利用Hadoop架构的分布式文件系统和MapReduce并行编程模型,实现海量SMP日志的有效存储与查询。实验结果表明,与基于关系数据的多表关联查询方法相比,该系统使得SMP日志的平均查询效率提高约90%,并能加快SMP集中管控的整体响应速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号