共查询到17条相似文献,搜索用时 62 毫秒
1.
程苗 《计算机工程与应用》2011,47(29):85-89
从Web日志中挖掘用户浏览偏爱路径是一个重要的研究课题。目前的挖掘算法注重客观访问频度,忽略了用户对这一频繁访问路径是否感兴趣。在分析目前用户偏爱路径挖掘算法存在的问题的基础上,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,从而剔除由于页面放置和链接等因素对挖掘的影响;针对目前基于单一节点的挖掘系统的计算能力不足的问题,利用云计算的分布式处理和虚拟化技术的优势,给出了一种基于云计算的数据处理方法,在此基础上挖掘用户浏览偏爱路径。实验表明,该算法针对大数据量的日志进行挖掘,准确率和效率比普通基于频度进行用户浏览偏爱路径挖掘的算法有所提高。 相似文献
2.
3.
4.
引入一种挖掘用户兴趣路径的算法,并对其进行有意义的改进。算法的主要思想是:首先利用Web日志建立以引用网页URL为行、浏览网页URL为列的两个网站访问矩阵,分别采用访问次数和平均到网页中字符数的访问时间为元素值。然后,通过对矩阵进行路径兴趣度计算得到兴趣子路径,最后进行合并生成用户兴趣路径集。 相似文献
5.
基于Web日志的频繁偏爱路径挖掘算法 总被引:2,自引:0,他引:2
为了挖掘出更能如实反映Web用户兴趣偏好的使用模式,充分考虑了用户在页面的停留时间和点击次数两个因素,给出了频繁偏爱路径的定义,并提出了频繁偏爱路径的挖掘算法,该方法在求得最大向前路径的基础上,迭代产生更长的候选频繁偏爱路径,通过计算候选路径的频繁偏爱支持度来判断其是否为频繁偏爱路径.利用真实日志数据进行实验,实验结果表明,该算法具有较高的覆盖率和准确性. 相似文献
6.
通过给出页面层次的概念,充分考虑用户在页面上的浏览时间以及在路径选择上表现出来的浏览偏爱,结合Web站点的结构层次特征,提出了一种改进的Web用户浏览偏爱模式挖掘算法.通过具体的事例和试验数据证明,新的模型能够更准确地寻找用户浏览偏爱模式,从而发现用户的兴趣和爱好. 相似文献
7.
Web日志的高效多能挖掘算法 总被引:76,自引:0,他引:76
通过对Web服务器日志文件和客户交易数据进行分析,可以发现相似客户群体、相关Web页面和频繁访问路径,提出了一种新颖的Web日志挖掘算法。在该算法中,首先以Web站点URL为行、以UserID为列建立URL-UserID关联矩阵、元素值为用户的访问次数,然后,在列向量进行相似性分析得到相似客户群体,对行向量进行相似性度量获得相关Web页面,对后者再进一步还可以发现频繁访问路径。实验结果表明了算法的有效性。 相似文献
8.
通过获取的匿名用户浏览路径集,依据新的路径相似度定义,建立用户浏览路径相似度矩阵,并在此基础上设计实现了匿名用户浏览路径聚类算法,获得聚类结果集,并计算各类的中心,得到典型匿名用户路径.挖掘结果显示典型匿名用户路径代表了不同类用户网络浏览路径,可有效地作为网站信息推荐的依据. 相似文献
9.
基于Web日志挖掘用户的浏览兴趣路径 总被引:1,自引:0,他引:1
提出一种基于Web日志发现用户浏览偏爱路径算法。引入了支持-兴趣度概念。建立用户访问矩阵以表示用户浏览网页行为,并获得访问矩阵的海明距离矩阵。通过对距离矩阵与相似度阈值的计算获得偏爱路径的候选2项子路径,再利用支持-兴趣度对候选集做进一步的过滤,最后进行合并并生产浏览偏爱路径。实验表明该算法可以有效地反映用户的浏览兴趣。 相似文献
10.
基于Web数据挖掘的用户浏览兴趣路径研究 总被引:1,自引:0,他引:1
使用Web日志与用户浏览行为相结合的方式对用户浏览兴趣模式进行挖掘。分别建立以访问次数、平均到网页中字符数的访问时间和拉动滑动条次数为元素值的矩阵,通过对矩阵进行路径兴趣度的计算得到兴趣子路径,进行合并生成用户兴趣路径集。实例分析表明该算法是可行和有效的,对于电子商务网站的优化和实施个性化服务具有意义。 相似文献
11.
通过分析Web日志的信息表中如何划分信息粒和表示信息粒,提出基于粒计算的Web用户浏览兴趣路径关联规则的提取的算法,并通过一个简单示例来说明算法的可行性. 相似文献
12.
13.
基于web日志的连续频繁路径挖掘算法 总被引:1,自引:0,他引:1
频繁模式挖掘已成为web使用挖掘的研究热点,本文基于web日志提出一种新的频繁路径的挖掘算法.首先以线性回归方法求解兴趣度,其次将此兴趣度和页面名称作为最基本要素,建立的web浏览树,此浏览树可以完整地表现出web日志中连续、重复的浏览路径,最后在web浏览树上进行分析挖掘频繁浏览路径.该算法经实验证明能更全面地反映用户兴趣所在,挖掘的频繁浏览路径准确、合理. 相似文献
14.
Web日志中用户频繁路径快速挖掘算法 总被引:10,自引:0,他引:10
Web访问志中含有大量用户浏览信息,从中有效挖掘出用户频繁路径是建立自适用化网站的必要前提。该文在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了用户频繁路径快速挖掘算法:首先利用会话矩阵筛选出满足一定阈值条件的频繁一项集,这样避免产生大量中间项;然后在相似客户群体内,对页面快速聚类,得到相关联页面;最后根据遍历矩阵对相关联页面进行路径合并,得出频繁路径。实验表明此算法的准确性和快速性。 相似文献
15.
一种Web使用模式挖掘模型的设计 总被引:1,自引:1,他引:0
Web使用模式挖掘是对用户浏览Web后在服务器日志上所留信息的数据挖掘.介绍了挖掘中常用技术及流程,并提出一种Web使用模式挖掘体系结构,介绍了系统的工作原理,对系统设计中的数据清洗和会话识别等关键技术作了详细讨论. 相似文献
16.
挖掘Web日志降低信息搜寻的时间费用 总被引:4,自引:0,他引:4
如何根据用户的行为信息优化站点的设计是一个重要的研究问题.提出了一种新的支持站点设计优化的Web使用挖掘方案.此方案基于Web日志中的搜寻路径统计用户寻找目标花费的平均时间,用以量化Web页面的搜寻费用.在此基础上提出了一种高效的数据挖掘方法,寻找一组能够有效压缩搜寻路径(降低时间费用)的超链接.实验表明,挖掘的结果能够提供许多有用的信息,帮助管理者及时发现站点设计中存在的问题. 相似文献