共查询到19条相似文献,搜索用时 62 毫秒
1.
基于Web日志的频繁偏爱路径挖掘算法 总被引:2,自引:0,他引:2
为了挖掘出更能如实反映Web用户兴趣偏好的使用模式,充分考虑了用户在页面的停留时间和点击次数两个因素,给出了频繁偏爱路径的定义,并提出了频繁偏爱路径的挖掘算法,该方法在求得最大向前路径的基础上,迭代产生更长的候选频繁偏爱路径,通过计算候选路径的频繁偏爱支持度来判断其是否为频繁偏爱路径.利用真实日志数据进行实验,实验结果表明,该算法具有较高的覆盖率和准确性. 相似文献
2.
Web 日志挖掘中的用户识别算法 总被引:3,自引:2,他引:1
介绍了现有的用户识别算法,针对用户识别目前存在的问题提出了IASR(IP,Agent,Session and Referrer)用户识别算法。该算法采用重写URL的用户跟踪技术,引入会话(Session)来识别用户,能够高效准确地识别访问同一代理服务器的不同用户,很好地解决同一用户直接从浏览器地址输入URL信息访问站点造成的"多用户问题"。最后,对用户识别算法的发展趋势进行了展望。 相似文献
3.
引入一种挖掘用户兴趣路径的算法,并对其进行有意义的改进。算法的主要思想是:首先利用Web日志建立以引用网页URL为行、浏览网页URL为列的两个网站访问矩阵,分别采用访问次数和平均到网页中字符数的访问时间为元素值。然后,通过对矩阵进行路径兴趣度计算得到兴趣子路径,最后进行合并生成用户兴趣路径集。 相似文献
4.
本文在对Web日志挖掘理论和Apriori算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的"招生信息网"上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。 相似文献
5.
本文介绍了Web日志挖掘的概念和流程,提出了客户频繁访问路径和页面兴趣度挖掘算法,并给出了个性化推荐系统的构建思路,旨在为电子商务网站经营者改善网站结构提供帮助. 相似文献
6.
7.
不产生候选的快速投影频繁模式树挖掘算法 总被引:8,自引:0,他引:8
1.概述近年来,对事务数据库、时序数据库和各种其它类型数据库中的频繁模式挖掘的研究越来越普及。许多先前的研究都是采用Apriori或类似的候选产生—检查迭代算法,使用候选项集来找频繁项集。这些算法都基于一种重要的反单调的Apriori性质:任何非频繁的(k—1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k—1)-子集不在频繁(k—1)-项集中,则该候选也不可能是频繁的,从而可 相似文献
8.
本文介绍了Web日志挖掘的概念和流程,提出了客户频繁访问路径和页面兴趣度挖掘算法,并给出了个性化推荐系统的构建思路,旨在为电子商务网站经营者改善网站结构提供帮助。 相似文献
9.
10.
快速挖掘全局频繁项目集 总被引:32,自引:1,他引:32
分布式环境中,全局频繁项目集的挖掘是数据挖掘中最重要的研究课题之一.传统的全局频繁项目集挖掘算法采用Apriori算法框架,须多遍扫描数据库并产生大量的候选项目集,且通过传送局部频繁项目集求全局频繁项目集的网络通信代价高.为此,提出了一种分布数据库的全局频繁项目集快速挖掘算法——FMAGF.FMAGF算法采用传送条件频繁模式树或条件模式基来挖掘全局频繁项目集,可有效地减小网络通信量,提高全局频繁项目集挖掘效率.理论分析和实验结果表明提出的算法是有效可行的. 相似文献
11.
基于web日志的连续频繁路径挖掘算法 总被引:1,自引:0,他引:1
频繁模式挖掘已成为web使用挖掘的研究热点,本文基于web日志提出一种新的频繁路径的挖掘算法.首先以线性回归方法求解兴趣度,其次将此兴趣度和页面名称作为最基本要素,建立的web浏览树,此浏览树可以完整地表现出web日志中连续、重复的浏览路径,最后在web浏览树上进行分析挖掘频繁浏览路径.该算法经实验证明能更全面地反映用户兴趣所在,挖掘的频繁浏览路径准确、合理. 相似文献
12.
13.
传统的频繁核心项集挖掘需多次生成和反复扫描数据库,导致生成效率低下。为此,提出一种快速生成频繁核心项集算法FMEP。该算法使用Rymon枚举树作为搜索空间,并采用分而治之的策略选择特定的路径进行剪枝。利用频繁核心项集特有的反单调性质,可以快速地判断某一个候选项集是否为频繁核心项集,而无需和所有直接子集的析取支持度进行比较。通过上述方法,可以达到快速挖掘的目的。实验结果证明,该算法能够在挖掘出所有的频繁核心项集精简表示元素的同时,降低消耗时间,与MEP算法相比,在密集型数据集上的时间可缩短2倍以上,在稀疏型数据集上时间至少缩短30%。 相似文献
14.
通过对WEB服务器日志文件进行分析,可以发现相似的客户群体,相关WEB页面以及频繁访问路径,这里提出了一种新颖的WEB日志挖掘算法,该算法是以服务器日志文件中的不同会话为聚类对象,通过对不同会话实施空间距离聚类和层次结构比较聚类,最终得到了满意的聚类结果,最后,给出了一个应用实例,实例表明,该方法是有效可行的。 相似文献
15.
由于频繁闭序列在数量上要远小于频繁序列且与频繁序列有着相同的表达能力在近几年倍受关注.频繁闭序列挖掘过程中最耗时同时也是最关键的步骤是序列间的包容关系检查,作者分析了频繁闭序列自身的特点以及已有的频繁闭序列挖掘算法,提出了一个挖掘频繁闭序列的算法FCSeq,该算法通过引入快速包含检查策略大大减少了不必要的包容关系判断,对提高算法的性能有着显著的作用,实验表明该算法有效. 相似文献
16.
一种在连续MFR中快速挖掘频繁访问路径的新算法 总被引:5,自引:0,他引:5
频繁访问路径挖掘是Web数据挖掘的重要研究内容。论文主要研究在最大前向引用中发现连续频繁访问路径的问题,提出了一种快速有效的CAP算法,该算法借助于访问路径树进行挖掘,只需一次扫描数据库,且简化了对访问路径树的挖掘过程,试验表明在执行效率上明显优于WAP算法。 相似文献
17.
从Web日志中挖掘用户浏览偏爱路径 总被引:55,自引:0,他引:55
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.作者在分析目前用户浏览模式挖掘算法存在的问题的基础上,利用提出的支持一偏爱度的概念,设计了网站访问矩阵,并基于这个矩阵提出了用户浏览偏爱路径挖掘算法:先利用Web日志建立以引用网页URL为行、浏览网页URL为列、路径访问频度为元素值的网站访问矩阵.该矩阵为稀疏矩阵,将该矩阵用三元组法来进行表示.然后,通过对该矩阵进行支持一偏爱度计算得到偏爱子路径.最后进行合并生成浏览偏爱路径.实验表明该算法能准确地反映用户浏览兴趣,而且系统可扩展性较好.这可以应用于电子商务网站的站点优化和个性化服务等. 相似文献
18.