首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
通过对Web日志的预处理,构建动态矩阵,该矩阵能够反映用户访问路径的先后顺序,利用相似度计算进行网页推荐。提出的动态矩阵预测算法具有较快的响应速度,可以满足实时页面推荐的需要,同时该算法无需事先训练,还可以对动态矩阵进行增量更新,提高了预测性能。  相似文献   

2.
刘敏娴  夏阳 《计算机工程》2009,35(23):47-49
针对个性化实时推荐系统的不足,提出通过构造BP树的方法压缩访问事务集。采用一个实时推荐的系统模型,将耗时的数据预处理放在离线模块,实时推荐采用动态修剪BP树的方法,穿过访问模式树的相关部分,利用网页推荐算法得到频繁访问集,生成推荐集。结果表明该算法只需扫描数据库一次,得到的频繁模式可满足页面实时推荐的快速需求。  相似文献   

3.
随着互联网的发展,网络信息量不断增长,Web日志的数据量也在飞速增长,在这样大量的日志中蕴含了非常重要的信息,将数据挖掘技术运用在Web日志的处理中就能发现日志中潜藏的这些信息。本文介绍了Web日志挖掘中数据预处理的方法,论述了数据预处理阶段的主要步骤和方法  相似文献   

4.
基于Web内容和日志挖掘的个性化网页推荐系统   总被引:1,自引:0,他引:1  
目前的网页推荐服务大都是基于对查询关键词的匹配来实现的,缺乏自动提取用户兴趣并进行推荐的能力。本文设计和实现了一个基于Web内容和日志挖掘的个性化网页推荐系统Webpage-recom- mender,该系统采用特征提取技术,能自动识别用户的兴趣,并主动推荐和筛选与用户兴趣主题相关的网页。实验结果证明了该系统的有效性。  相似文献   

5.
Web日志挖掘中的会话识别算法   总被引:7,自引:0,他引:7  
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确.针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法.通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话.最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效.实验结果表明,会话质量得到了提高.  相似文献   

6.
会话识别是Web日志数据预处理中的重要步骤,直接影响着Web日志挖掘的效率和准确性。在给出会话识别定义的基础上.对传统的预先设定时间间隔方法进行了优化,并具体描述了数据结构及其算法。实验结果证明会话质量得到了提高。  相似文献   

7.
数据预处理是 Web 日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一.为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法.在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集.最后,采用实验实现了该方法.实验结果表明会话质量得到了提高  相似文献   

8.
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法。在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集。最后,采用实验实现了该方法。实验结果表明会话质量得到了提高。  相似文献   

9.
会话识别是Web日志数据预处理中的重要步骤,直接影响着Web日志挖掘的效率和准确性。在给出会话识别定义的基础上,对传统的预先设定时间间隔方法进行了优化,并具体描述了数据结构及其算法。实验结果证明会话质量得到了提高。  相似文献   

10.
数据预处理在Web日志挖掘过程中起着至关重要的作用。本文详细分析了数据预处理的过程,并对用户识别提出了改进策略,最后实现了一个Web日志挖掘预处理模型(WLMPM)。  相似文献   

11.
Web日志挖掘中的会话识别方法   总被引:3,自引:0,他引:3  
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法.该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的定义.最后利用数据库编程实现该方法,将识别出的会话存储在数据库中,便于后续数据挖掘使用.实验结果表明,该方法能识别出更多的用户会话,且识别会话的准确率也更高.  相似文献   

12.
Web日志挖掘中数据预处理技术的研究   总被引:2,自引:0,他引:2  
在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别.提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访问序列直接生成事务的算法.  相似文献   

13.
改进的Web访问日志会话识别算法   总被引:4,自引:2,他引:2  
针对Web日志挖掘中的会话识别问题,分别对Timeout方法、参引长度法进行改进,提出了一种改进的会话识别方法.该方法运用网站的拓扑结构信息,动态设定各页面的时间间隔阀值,使页面时间间隔阀值同页面的重要程度结合起来.同时通过灵活界定内容页,并针对内容页,提出了一些启发式规则,突破了"参引长度法"所固有的一个会话中只包含一个内容页的瓶颈.该方法提高了会话识别的准确度,实验结果表明是有效的.  相似文献   

14.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题.  相似文献   

15.
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的访问模式.数据预处理和日志挖掘算法是Web日志挖掘中的关键技术.文章就此进行了深入的研究,在已知用户访问路径的基础上,提出一种基于MFP算法的日志挖掘算法,并结合实例具体介绍了该算法的执行过程.  相似文献   

16.
Web日志会话的个性化识别方法的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识别会话。根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整。实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效。  相似文献   

17.
针对以往个性化网站实时推荐系统存在很难预测用户未来浏览页面的不足,提出了一个混合型的实时推荐模型。该模型将动态模糊聚类技术和改进的关联规则相结合,既挖掘用户与页面的相似度权值形成知识库,又考虑用户的访问事务集增量构造访问模式树,通过修剪其相关分枝,快速生成候选推荐集,由推荐引擎附加在请求页面的底部,在不干扰用户的访问同时,又将用户感兴趣的内容推荐给用户。实验结果表明,该方法能有效地提高推荐的精确率和覆盖率以及综合评价指标。  相似文献   

18.
随着互联网的迅速普及和广泛应用,网络信息资源的数量及网站设计的复杂度也呈急剧增长趋势。如今,针对用户特性并向用户提供个性化服务已经成为计算机技术的研究热点之一。本文首先简述了Web日志挖掘的相关概念和具体实现过程,然后重点讲述了Web日志挖掘的关键技术。最后采用了用户群体聚类算法与Web页面聚类算法相结合实现挖掘用户访问模式,并针对个性化服务的应用和发展方向进行了研究和分析。  相似文献   

19.
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习机的输入数据。实验结果表明该方法能够有效地分类网页。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号