首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
通过深入研究日志的类型和特点,设计并实现了一套基于并行计算的海量日志文件分析系统.该系统采用集群方式并行地收集日志文件,采用分布式文件系统存储,最终利用并行计算对日志进行分析处理.该系统实现了日志采集、分析的完全自动化处理,在系统部署之后能够有效地进行系统安全的维护、系统性能的优化、系统故障的排查.该系统结合云计算提高了日志分析的效率,解决了海量日志处理过程中存在的问题,为海量日志分析提供了一个完整有效的解决方案.  相似文献   

2.
现有的海量日志统计分析方法速度慢,且对硬件配置的要求高。为此,提出一种基于文本策略和SMCS的海量日志分析方法。根据文件的软件设计策略,采用日志文件索引方法,将日志文件与日志时间关联,以加快日志提取。SMCS算法采用哈希表、文件归并、堆操作方法对海量日志进行统计分析和内存损耗控制。通过对真实软件进行对比实验,结果表明,该方法的分析速度比传统方法提高4倍。  相似文献   

3.
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈.针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件.实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法.  相似文献   

4.
针对高速网络环境下现有入侵防御系统(intrusion prevention system,IPS)日志采集速度和处理速度的不匹配、日志文件规模大而难以存储的问题,提出了采用循环缓冲队列的缓存机制,同步日志采集和处理操作方法.设计了预处理算法,删除冗余的日志记录,并使用极大文件集的日志存储策略,保存海量日志文件.实验结果表明,该方法适用于千兆网络环境,能够精简日志文件规模,保存更多的日志记录.  相似文献   

5.
应毅  任凯  刘亚军 《计算机科学》2018,45(Z11):353-355
传统的日志分析技术在处理海量数据时存在计算瓶颈。针对该问题,研究了基于大数据技术的日志分析方案:由多台计算机完成日志文件的存储、分析、挖掘工作,建立了一个基于Hadoop开源框架的并行网络日志分析引擎,在MapReduce模型下重新实现了IP统计算法和异常检测算法。实验证明,在数据密集型计算中使用大数据技术可以明显提高算法的执行效率和增加系统的可扩展性。  相似文献   

6.
网络日志分析对网络安全管理具有重要意义,但现有的网络日志分析系统具有无法处理海量日志数据、采用离线模式、处理时延较长等弊端。因此,提出网络日志数据的分级归档机制,实现海量数据的分级优化存储功能。通过将传统的网络日志分析模式和基于Hadoop的离线处理模式相结合,设计基于Hadoop的在线网络日志分析系统,并深入分析系统的功能架构和业务处理流程。实验结果表明:该系统具有良好的可扩展性,可以有效存储处理海量日志数据,具有较快的请求响应速度,并能够满足在线处理的要求。从而验证了系统设计的可行性和有效性。  相似文献   

7.
基于微过滤驱动的文件监控系统   总被引:2,自引:0,他引:2  
孙莹莹  郑扣根 《计算机应用》2010,30(11):3115-3117
文件安全访问控制,是银行自动柜员机安全的核心部分。采用微过滤模型的文件监控系统,将用户、进程和访问控制权限结合,实时监控文件,实现文件安全访问。同时,基于互斥锁的日志文件的操作,实现日志事件生成和写入日志文件的同步,提高了写日志的效率。该文件监控系统,增强了文件的安全性,提高了系统的稳定性。  相似文献   

8.
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题,提出了基于数据仓库的海量搜索日志分析系统架构.利用Hadoop分布式文件系统(HDFS)存储海量搜索日志,并对搜索日志进行清洗处理,采用impala对数据进行高速的处理,将处理后的统计结果导入到数据仓库中,使用Penta-hoBI对数据进行多维分析和统计报表.获取了关键词分析、查询频率、热词排行、查询词和时间分布、网站排名、用户统计等6个分析主题.分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义.  相似文献   

9.
以某网站所需的日志分析需求为背景,设计并实现了一种Web日志分析系统的前端日志采集框架.该日志采集方案没有采用传统的写日志文件然后轮训的方式进行日志收集,而是采用客户端/服务器的模式进行"自定义"格式的日志采集.该框架同样完全兼容传统的日志记录格式和记录方式.  相似文献   

10.
针对传统分布式计算模型和日志监控收集在编程实现上的困难、实际应用扩展性低和数据处理阶段耦合度高的问题,提出基于Chukwa的大规模日志智能监测和收集方法.在利用MapReduce并行计算模型以提高日志采集效率的基础上,提出数据监测收集阶段的细分方法和解耦过程,弥补MapReduce只能处理大文件数据的缺陷,进一步提高日志处理的灵活性和扩展性.该方法主要包括日志监测、日志收集、数据转存、数据应用几个步骤.实验验证了该方法能提高日志监测采集的效率,具备良好的实际使用价值.  相似文献   

11.
LARGE框架是部署在中国科学院超级计算环境中的日志分析系统,通过日志收集、集中分析、结果反馈等步骤对环境中的各种日志文件进行监控和分析。在对环境中系统日志的监控过程中,系统维护人员需要通过日志模式提炼算法将大量的过往系统日志记录缩减为少量的日志模式集合。然而随着日志规模的增长以及messages日志文件的特殊性,原有的日志模式提炼算法已经难以满足对大规模日志快速处理的需要。介绍了一种对于日志模式提炼算法的优化方法,通过引入MapReduce机制实现在存在多个日志输入文件的情况下对日志处理和模式提炼的流程进行加速。实验表明,当输入文件较多时,该优化方法能够显著提高词汇一致率算法的运行速度,大幅减少运行时间。此外,还对使用词汇转换函数时的算法运行时间和提炼效果进行了验证。  相似文献   

12.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

13.
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,海量数据的实时处理需求日益增多,传统的日志分析技术在处理海量数据时存在计算瓶颈。大数据时代下,随着开放式处理平台的发展,能够处理大规模且多样化数据的大数据处理系统应运而生。为了让原有的业务能够充分利用Hadoop的优势,本文首先研究了基于大数据技术的网络日志分析方法,构建了网络日志分析平台以实现万亿级日志采集、解析、存储和高效、灵活的查询与计算。对比分析了Hive、Impala和Spark SQL这3种具有代表性的SQL-on-Hadoop查询系统实例,并展示了这类系统的性能特点。采用TPC-H测试基准对它们的决策支持能力进行测试及评估,通过对实验数据的分析和解释得到了若干有益的结论。实现了海量日志数据计算与分析在证券领域的几种典型应用,为进一步的研究工作奠定了基础。  相似文献   

14.
针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。  相似文献   

15.
尹慧  花嵘  郭宁  尹韬 《软件》2020,(3):272-277
为了提高日志分析是当前进行入侵检测和安全防御的重要手段。针对传统基于规则的分析方法中误报、漏报较高,应对海量日志分析效率过低的问题,该文章提出了一种基于深度学习的分布式安全日志分析方法,通过将深度学习算法与现有黑白名单、规则匹配以及统计策略等技术结合,进行日志分析,检测网络中的安全威胁。系统采用分布式的存储和计算平台,能够进行离线和实时两种日志分析模式,可以满足大多数场景下海量的日志数据分析需求。  相似文献   

16.
传统的聚类算法不适用于处理海量和高维数据。针对云计算环境下,利用集群系统的并行计算能力,实现海量数据的聚类问题,给出了云计算环境下基于分形维数的聚类融合算法。该算法首先对基于分形维数的聚类算法进行改进,使之更适用于并行计算,其产生聚类作为初始聚类成员;再结合投票算法的融合策略实现融合。最后,对基于分形维数的聚类融合算法在云计算环境下实现并行计算。通过在UCI数据集上的对比实验来验证该算法的有效性。  相似文献   

17.
将自组织映射神经网络(SOM)与FCM结合,利用SOM的并行计算能够减少模糊C均值算法在处理海量数据时的聚类时间,可以提高聚类算法的速度和效果,同时使用该算法对校园网Web日志进行数据挖掘,能够对用户行为进行分析,从而提出相应的方法,更好地提高服务效率和管理质量。  相似文献   

18.
分布式日志服务关键技术研究   总被引:2,自引:0,他引:2  
在分析大型分布式系统对日志服务需求的基础上,设计并实现了一种分布式环境下的日志服务。文章从分布式系统的特点出发,介绍了该分布式日志服务中用到的关键技术,包括:体系结构设计、文件缓冲与传输、时钟同步、运行时调试、日志报警等。实际应用表明,采用以上关键技术实现的分布式日志服务有效地简化了分布式应用系统的开发、调试和维护,可广泛应用于各种分布式应用系统中。  相似文献   

19.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。  相似文献   

20.
为了使企业从已有的信息化分布式应用实例中沉淀公共的日志处理方法,实现日志的快速管理与分析,提出一套日志从生产到消费的全流程解析方法。梳理应用业务并分解出日志种类;确定不同种类日志中的行字段内容与字段类型,在此基础上设计日志统一模型,将日志内容分别写到不同的日志文件;结合开源组件,建立日志的分布式监测、过滤与存储分析系统,实现日志的统一管理与准实时挖掘分析。通过铁路人脸识别系统的日志应用表明,该模型具有很好的可读性、稳定性和扩展性,能快速实现分布式应用日志的统一管理与分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号