共查询到15条相似文献,搜索用时 62 毫秒
1.
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,是整个Web日志挖掘过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着重要的作用,也是工作量较大的一部分。数据预处理的基本技术,包括数据清理、数据集成和转换、数据归约等。本文介绍了数据预处理中涉及到的数据清理、用户识别、会话识别、路径补充、事务识别等过程,并提出了一种路径补充算法。 相似文献
2.
数据预处理在Web日志挖掘过程中起着至关重要的作用。本文详细分析了数据预处理的过程,并对用户识别提出了改进策略,最后实现了一个Web日志挖掘预处理模型(WLMPM)。 相似文献
3.
4.
Web日志挖掘数据预处理过程技术研究 总被引:11,自引:2,他引:11
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。本文介绍了面向Web日志的数据挖掘预处理的一般过程并给出了用户识别的算法实现。 相似文献
5.
6.
Web日志挖掘中数据预处理技术的研究 总被引:1,自引:1,他引:1
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法.在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整.然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面.实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合. 相似文献
7.
8.
9.
Web日志挖掘预处理中的用户识别技术 总被引:14,自引:0,他引:14
1 引言互联网技术和应用的迅速发展使得可以从因特网获取的信息量日益剧增,因此迫切需要一种新的技术从这些信息中快速、及时地发现有用的知识,提高信息的利用率。作为数据挖掘技术研究的一个重要领域,Web日志挖掘(Web LogMining)是从服务器日志文件内大量的用户访问记录中抽取有用信息的过程。通过对Web日志的分析,可以构造出用户的行为模式,对于分析改进网络性能、优化网站的设计和拓扑结构以及改善企业的市场营销决策等会有极大的帮助。当前Web日志挖掘领域的研究已取得了很大的进展,但是目前的研究重点大都集中于挖掘算法的设计、分析和改进,对日志文件预处理方法的研究相对较少,然而正确有效地对Web日志文件进行预处理,不仅有利于随后的挖掘算法分析,而且对于最终形成准确可靠的用户行为模式也是极为重要的。 相似文献
10.
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。 相似文献
11.
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。 相似文献
12.
Web日志挖掘中数据预处理方法的研究 总被引:2,自引:0,他引:2
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。 相似文献
13.
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。 相似文献
14.
Web访问挖掘的预处理技术的研究 总被引:1,自引:1,他引:1
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。 相似文献
15.
会话识别是Web日志数据预处理中的重要步骤,直接影响着Web日志挖掘的效率和准确性。在给出会话识别定义的基础上.对传统的预先设定时间间隔方法进行了优化,并具体描述了数据结构及其算法。实验结果证明会话质量得到了提高。 相似文献