首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
提出了一种改进的会话识别方法.该方法基于访问站点的首页和导航页,以首页或导航页作为新会话开始的标识.选取真实的Web日志,用PL/SQL编程实现改进的会话识别方法,并与现有方法进行比较.实验结果证明,改进的会话识别方法比现有方法识别会话更有效.  相似文献   

2.
随着电子商务的快速发展,Web日志挖掘技术越来越受到人们的青睐.会话识别是Web日志挖掘首要环节,是数据预处理中的关键步骤之一.精确的会话识别方法对于有效分析用户行为起着至关重要的作用.通过分析传统会话识别方法的优缺点,提出一种基于站点首页,并利用页面相对浏览时间计算动态时间阀值的会话识别方法.通过实验,验证了新方法的可行性.  相似文献   

3.
数据预处理是 Web 日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一.为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法.在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集.最后,采用实验实现了该方法.实验结果表明会话质量得到了提高  相似文献   

4.
会话识别是Web日志挖掘的基础,提高会话的识别率能为后续模式的挖掘提供准确可靠的数据,已有许多研究集中于此.在常用的计算时间阈值识别方法的基础上,提出一种改进的基于URL页面类型、页面信息量和停留时间的平均阈值识别方法.针对不同的URL页面类型采用不同的阈值计算方法,并设置时间阈值.相对于已有的对所有用户访问页面使用单一的先验阈值和现有动态阈值计算,该方法能够更真实地反映用户会话的情况,且识别的准确率有了较大提高.  相似文献   

5.
一种改进的Web日志会话识别方法   总被引:4,自引:0,他引:4  
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤.文中提出了一种改进的会话识别方法.首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性.  相似文献   

6.
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法。在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集。最后,采用实验实现了该方法。实验结果表明会话质量得到了提高。  相似文献   

7.
Web日志挖掘中的会话识别算法   总被引:7,自引:0,他引:7  
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确.针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法.通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话.最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效.实验结果表明,会话质量得到了提高.  相似文献   

8.
Web日志会话的个性化识别方法的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识别会话。根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整。实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效。  相似文献   

9.
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤。文中提出了一种改进的会话识别方法。首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阙值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整。通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性。  相似文献   

10.
Web日志挖掘中数据预处理技术的研究   总被引:2,自引:1,他引:1  
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法.在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整.然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面.实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

11.
随着互联网的快速发展,Web日志的用户行为分析已经成为互联网技术领域的研究热点之一.会话识别是Web日志用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础.本文在IIS Web日志分析的基础上,提出了一种基于URL相似度的会话识别方法.实验结果表明,此方法可以有效的识别出用户的真实会话.  相似文献   

12.
针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法。目前该方法已经广泛地应用于科学数据库系统中。  相似文献   

13.
会话识别是用户访问行为分析的基础和关键工作,其质量对于识别和发现用户的信息需求具有决定性的影响。目前常用的是基于时间阈值的切分方法,但是该方法存在的主要问题是针对不同用户时间阈值难以准确地确定。提出了一种新的基于聚类技术的会话识别优化方法,首先建立了基于聚类的会话识别优化模型,然后采用改进的K-means算法进行会话识别。实验结果表明该方法与传统方法相比具有较好的效果。  相似文献   

14.
会话识别是Web日志的用户行为分析的关键步骤, 精准的会话识别是有效进行用户行为分析的基础。已有的会话识别方法不能有效地动态适应不同的用户(如多IP单用户、单IP多用户)行为, 在Web日志分析的基础上, 提出了一种基于引用启发式和URL语义相结合的会话识别方法。实验结果表明, 改进后的会话识别方法能更有效地识别出用户的真实会话。  相似文献   

15.
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

16.
Web日志挖掘中数据预处理方法的研究   总被引:2,自引:0,他引:2  
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

17.
会话识别因其能够提供对用户行为模式的深入理解而备受关注。交通数据会话是指用户为了完成某个任务而经过的交通路口序列。该文中我们采用超时和统计语言模型两种方法来进行会话识别。超时方法主要考察相邻交通路口之间的时间间隔对会话识别的影响,而统计语言模型则考虑路口序列的全局规律性。我们在交通数据集上进行了大量的实验,并通过比较分析两种方法性能上的差异得知时间因素比全局规律性在会话识别中的影响更大。  相似文献   

18.
Web日志挖掘中的数据预处理技术   总被引:7,自引:1,他引:6       下载免费PDF全文
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。  相似文献   

19.
介绍Web日志挖掘的预处理过程,其中包括数据清理、站点拓扑识别、用户识别、会话识别、页面过滤和路径补充。针对无引用域记录日志的路径补充问题,提出并实现一种基于网站拓扑图的路径补充算法。讨论一种综合多重评价因素的用户相似度计算方法,并将其应用于Web用户聚类操作。使用Davies-Bouldin指标衡量聚类的效果并给出实验结果。  相似文献   

20.
Web日志预处理因其输出结果的重要性而受到越来越多的重视,同时Hadoop对海量数据的分布式处理也得到广泛研究和应用,因此使用MapReduce进行Web日志预处理成为一种必然的发展趋势。为了提高会话识别结果的准确率,在分析会话识别算法研究现状的基础上,提出一种基于网络拓扑结构和动态阈值相结合的新会话识别方法并讨论其优势所在,接着用MapReduce模型实现新方法的分布式处理,最后通过对比实验分析验证MapReduce模型实现新算法的高效性和高精确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号