首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法。在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集。最后,采用实验实现了该方法。实验结果表明会话质量得到了提高。  相似文献   

2.
改进的Web日志数据预处理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。  相似文献   

3.
会话识别是Web日志数据预处理中的重要步骤,直接影响着Web日志挖掘的效率和准确性。在给出会话识别定义的基础上.对传统的预先设定时间间隔方法进行了优化,并具体描述了数据结构及其算法。实验结果证明会话质量得到了提高。  相似文献   

4.
会话识别是Web日志数据预处理中的重要步骤,直接影响着Web日志挖掘的效率和准确性。在给出会话识别定义的基础上,对传统的预先设定时间间隔方法进行了优化,并具体描述了数据结构及其算法。实验结果证明会话质量得到了提高。  相似文献   

5.
一种改进的Web日志会话识别方法   总被引:4,自引:0,他引:4  
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤.文中提出了一种改进的会话识别方法.首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性.  相似文献   

6.
利用图片类日志信息改进会话识别质量   总被引:2,自引:0,他引:2  
范纯龙  姜宏飞  李华 《计算机应用》2010,30(4):1056-1058
数据预处理是Web日志挖掘的基础,而会话识别则是数据预处理的关键步骤,其质量严重影响Web日志挖掘的结果。在分析现有会话识别方法的基础上,提出了利用数据预处理中废弃的图片等日志数据,并结合扩展Web图结构,从页面分组规则和路径补全算法两个方面改进会话识别质量,并通过实验证实该方法对改善会话识别质量是有效的。  相似文献   

7.
Web日志挖掘中数据预处理技术的研究   总被引:1,自引:1,他引:1  
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法.在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整.然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面.实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

8.
Web日志预处理中优化的会话识别方法   总被引:4,自引:0,他引:4       下载免费PDF全文
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。  相似文献   

9.
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤。文中提出了一种改进的会话识别方法。首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阙值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整。通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性。  相似文献   

10.
Web日志挖掘中的会话识别方法   总被引:3,自引:0,他引:3  
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法.该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的定义.最后利用数据库编程实现该方法,将识别出的会话存储在数据库中,便于后续数据挖掘使用.实验结果表明,该方法能识别出更多的用户会话,且识别会话的准确率也更高.  相似文献   

11.
在Web使用挖掘的研究领域中,很多传统的会话识别算法效率不高,得到的会话往往也不是很精确,从而影响了最终的挖掘结果.针对这种现状,研究了Web使用挖掘中的数据预处理和会话识别过程,并提出一种Markov链模型结合动态时间阀值的会话识别新算法.实验结果表明,这种方法比其它传统的算法的表现有显著提高.  相似文献   

12.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

13.
优化的Web日志会话识别方法   总被引:2,自引:0,他引:2  
关于Web使用挖掘中的会话识别问题,提出了一种改进的会话识别方法.统计每个页面的访问时间,并结合页面内容及站点结构生成页面访问时间阀值,再用页面访问时间阁值划分会话,然后对产生的会话集使用会话重组,即合并与断开的方法,对生成的会话集进行进一步地优化.通过实验结果表明,该方法所得到的会话集更具有真实性.  相似文献   

14.
网络日志预处理中优化的会话识别算法   总被引:1,自引:0,他引:1  
研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最蘑要的一个环节.为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低.为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法.新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真.结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度.  相似文献   

15.
Web日志挖掘中的数据预处理技术   总被引:7,自引:1,他引:6       下载免费PDF全文
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。  相似文献   

16.
Web日志挖掘中的会话识别算法   总被引:7,自引:0,他引:7  
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确.针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法.通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话.最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效.实验结果表明,会话质量得到了提高.  相似文献   

17.
数据预处理是Web使用挖掘的一个关键环节,数据预处理的结果直接影响到后续步骤,如事务识别、路径分析、关联规则挖掘和序列模式挖掘的效果。提出了一种精确识别用户和会话的数据预处理算法(USIA),并且用实验证明它是高效的。  相似文献   

18.
一种Web日志会话识别的优化方法   总被引:12,自引:0,他引:12       下载免费PDF全文
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。该文对此提出优化算法,并对最常用的Timeout方法识别的会话进行优化,通过实验证明会话质量得到了提高。  相似文献   

19.
Web使用挖掘中的数据预处理算法研究   总被引:5,自引:0,他引:5  
数据预处理是Web使用挖掘的一个关键环节,其结果直接影响到后续的事务识别、路径分析、关联规则挖掘和序列模式挖掘的效果。本文提出了一种精确识别用户和会话的数据预处理算法(USIA),并且用实验证明其高效性。  相似文献   

20.
随着Internet的普及,Web日志挖掘成为一个新的研究课题。由于Web日志数据的半结构化,为了得到有效的挖掘模式,提高挖掘算法的效率,首先需要对数据预处理。该文详细介绍了Web日志数据预处理的四个步骤:数据清洗,用户识别,会话识别和路径补充,并实现了对某校院网日志记录的预处理,得到了理想的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号