首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
Web挖掘是数据挖掘的重要研究分支之一。Web日志文件为Web挖掘提供了数据源,日志信息的孤立点检测是数据预处理的重要环节。介绍Web日志文件的构成,提出一种基于Web日志文件的孤立点检测算法,通过实验对算法进行进一步分析,并对其应用领域做简单概括。  相似文献   

2.
针对传统SOD孤立点检测算法在处理高维数据时存在的问题,提出一种改进算法。通过对每一维的聚集度进行量化,确定各维的参考价值,从而降低算法结果对参数设定的敏感度,利用相对距离表示各点到中心值的偏离度,使其更利于不同密度子空间的孤立点检测。仿真实验结果表明,改进算法的检测精度优于传统SOD算法。  相似文献   

3.
Web日志文件的异常数据挖掘算法及其应用   总被引:8,自引:0,他引:8  
赵泽茂  何坤金  陈鹏  景雪琴  蒋霞东 《计算机工程》2003,29(17):195-196,F003
从数量化角度给出了异常数据的一般性定义,以Web服务器日志文件数据为依据,讨论了挖掘异常数据的方法和途径;给出了基于距离的单指标的离散统计法和综合统计法,并结合校园网作了实际的分析处理。结果表明,该方法是可行的。  相似文献   

4.
随着网络技术的迅速发展,新类型的入侵行为层出不穷,人们迫切需要能检测出新类型入侵行为的技术.将数据挖掘与入侵检测相结合,能够增强入侵检测系统对海量数据的处理能力,使得入侵检测系统具有可扩展性和自学习能力,增强人侵检测系统的检测功能.从数据的观点来看,入侵检测本身是一个数据分析过程,在数量上远少于正常行为的入侵行为可看作孤立点.于是将数据挖掘中的孤立点挖掘技术作为一种网络安全检测手段,用来识别变种或未知入侵行为,对于改善入侵检测系统的性能有着重大的研究意义.文中着重通过对LPCL孤立点算法进行介绍,并提出改进算法,从而有效减少计算量,快速挖掘数据更新后的新孤立点,具有较高的实用价值.  相似文献   

5.
移动网络运营商拥有用户全面的上网日志,这些信息蕴含着巨大的价值。通过对用户上网日志的挖掘,运营商不仅能够对网络设施进行维护,辅助进行网络建设,也能为运营商自身和其他行业营销提供依据。对上网日志信息的构成进行了阐述,以网购用户为目标,介绍了数据预处理的方法,利用兴趣模型对用户行为进行分析。  相似文献   

6.
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。该文首先介绍了Web日志挖掘产生的背景,然后介绍了Web日志挖掘的基本概念,着重阐述了Web日志挖掘的预处理和日志挖掘算法两个关键技术,最后介绍了Web日志挖掘的应用,提出了其发展方向。  相似文献   

7.
Web日志挖掘中的数据预处理技术研究   总被引:30,自引:0,他引:30  
赵伟  何丕廉  陈霞  谢振亮 《计算机应用》2003,23(5):62-64,67
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。  相似文献   

8.
Web日志挖掘中的数据预处理的研究   总被引:40,自引:1,他引:40  
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。  相似文献   

9.
Web日志挖掘技术的研究与应用   总被引:15,自引:0,他引:15  
肖立英  李建华  谭立球 《计算机工程》2002,28(7):276-277,284
介绍目前世界上两种主要的Web日志挖掘技术(基于Web事务和基于数据立方体)。同时,提出了一个基于Web日志挖掘技术的应用,即用户自适应的Web站点,介绍了这一系统的实现方法和主要特色。  相似文献   

10.
Web日志中保存着用户访问网站的大量信息,通过挖掘预处理后的日志数据,可以得到用户聚类,URL聚类以及用户频繁访问路径等诸多有用信息。本文先分析处理网站的日志数据,再阐述了Web日志挖掘的算法,最后讨论了Web日志挖掘的应用。  相似文献   

11.
伴随大数据的快速发展,数据分析和知识发现成为研究热点,异常数据检测是数据质量提升的关键。基于序列集成学习的异常数据检测方法在面向高维数值型数据时可能因为噪声数据和维数过多导致检测精度下降。本文提出一种基于弹性网络的多层次序列集成学习的高维数值型异常数据检测方法,其中每层包含异常数据候选集模块、弹性网络降维模块和数据异常打分模块共3个模块。首先,异常数据候选集选择模块根据异常分数选择出一部分可能的异常数据;然后,弹性网络根据异常数据候选集和异常分数对高维数据进行特征选择,选择出与异常分数最相关的特征;最后,利用选择出来的特征对数据再次进行异常打分。每层异常数据候选集选择模块中的阈值设置为不同的值,循环地执行每一层,直到当前弹性网络的均方误差大于上一次的均方误差或者当前的检测精度小于初始的检测精度。在实验阶段,使用ODDS提供的高维异常数据检测数据集并根据检测精度、提取特征数、收敛速度等指标对本文方法的性能进行了测试。结果表明本文方法不仅能够提高对高维数值型异常数据的检测精度,而且能够有效地降低噪声对检测结果的影响。  相似文献   

12.
Detecting anomaly logs is a great significance step for guarding system faults. Due to the uncertainty of abnormal log types, lack of real anomaly logs and accurately labeled log datasets. Existing technologies cannot be enough for detecting complex and various log point anomalies by using human-defined rules. We propose a log anomaly detection method based on Generative Adversarial Networks (GAN). This method uses the Encoder-Decoder framework based on Long Short-Term Memory (LSTM) network as the generator, takes the log keywords as the input of the encoder, and the decoder outputs the generated log template. The discriminator uses the Convolutional Neural Networks (CNN) to identify the difference between the generated log template and the real log template. The model parameters are optimized automatically by iteration. In the stage of anomaly detection, the probability of anomaly is calculated by the Euclidean distance. Experiments on real data show that this method can detect log point anomalies with an average precision of 95%. Besides, it outperforms other existing log-based anomaly detection methods.  相似文献   

13.
离群点挖掘研究   总被引:8,自引:1,他引:8  
随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,离群点挖掘研究日益受到重视。在充分调研国内外离群点挖掘研究成果的基础上,介绍了数据库领域离群点挖掘的研究进展,并概要地总结和比较了已有的各种离群点挖掘方法,展望了离群点挖掘研究的未来发展方向和面临的挑战。  相似文献   

14.
调试软件中的非确定错误对软件开发有重要意义.近年来,随着云计算系统的快速发展和对录制重放调试方法研究的深入,使用异常检测方法从大量文本日志或控制流日志等数据中找出异常的信息对调试愈发重要.传统的异常检测算法大多是为检测和防范攻击而设计的,它们很多基于马尔可夫假设,对事件流上的剧烈变化很敏感.但是新的问题要求异常检测能够检出语义级别的异常行为.实验表明现有的基于马尔可夫假设的异常检测算法在这方面表现不佳.提出了一种新的基于文法编码的异常检测算法.该算法不依赖于统计模型、概率模型、机器学习及马尔可夫假设,设计和实现都极为简单.实验表明在检测高层次的语义异常方面,该算法比传统方法有优势.  相似文献   

15.
孙嘉  张建辉  卜佑军  陈博  胡楠  王方玉 《计算机工程》2022,48(7):151-158+167
目前日志异常检测领域存在数据量大、故障和攻击威胁隐蔽性高、传统方法特征工程复杂等困难,研究卷积神经网络(CNN)、循环神经网络等迅速发展的深度学习技术,能够为解决这些问题提供新的思路。提出结合CNN和双向长短时记忆循环神经网络(Bi-LSTM)优势的CNN-BiLSTM深度学习模型,在考虑日志键显著时间序列特征基础上,兼顾日志参数的空间位置特征,通过拼接映射方法进行最大程度避免特征淹没的融合处理。在此基础上,分析模型复杂度,同时在Hadoop日志HDFS数据集上进行实验,对比支持向量机(SVM)、CNN和Bi-LSTM验证CNN-BiLSTM模型的分类效果。分析和实验结果表明,CNN-BiLSTM达到平均91%的日志异常检测准确度,并在WC98_day网络日志数据集上达到94%检测准确度,验证了模型良好的泛化能力,与SVM CNN和Bi-LSTM相比具有更优的检测性能。此外,通过消融实验表明,词嵌入和全连接层结构对于提升模型准确率具有重要作用。  相似文献   

16.
在Web数据挖掘研究领域中,Web日志挖掘是一个极其重要的应用方面,而数据预处理技术在Web日志挖掘中又起到非常重要的作用.介绍Web日志文件的记录格式和Web日志挖掘预处理的一般过程,针对实际应用中遇到的问题提出一种解决方法,最后给出算法代码.  相似文献   

17.
如何有效地分析用户的需求,帮助用户从因特网的信息海洋中发现他们感兴趣的信息和资源,已经成为一项迫切而重要的课题。解决这些问题的一个途径,就是将传统的数据挖掘技术与Web结合起来,进行Web数据挖掘。其中的Web日志挖掘可以掌握用户在浏览站点时的行为,并且将挖掘出的用户访问模式应用于网站上,在改善Web站点的结构以及页面间的超链接结构,提高站点的服务质量等方面有重要的意义。  相似文献   

18.
如何有效地分析用户的需求,帮助用户从因特网的信息海洋中发现他们感兴趣的信息和资源.已经成为一项迫切而重要的课题。解决这些问题的一个途径,就是将传统的数据挖掘技术与Web结合起来,进行Web数据挖掘。其中的Web日志挖掘可以掌握用户在浏览站点时的行为,并且将挖掘出的用户访问模式应用于网站上,在改善Web站点的结构以及页面间的超链接结构,提高站点的服务质量等方面有重要的意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号