首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
基于用户会话的页面聚类算法旨在发现用户在浏览过程中频繁访问的页组,为站点管理员优化站点结构提供有力的依据。将介绍一种改进的基于频繁访问页组的路径聚类算法K-PathPlus,其中定义了新的兴趣度、内容链接因子。最后采用龙城热线网站日志进行真实测试,实验的结果是成功的。  相似文献   

2.
设计实现了一种从Web日志挖掘用户频繁访问路径的模型.提出网页聚类分析的一个重要基础理论,以及页面价值和跳转偏爱度的概念,并建立页面价值模型.该模型从页面价值-用户矩阵计算出页面价值间的加权欧氏距离,并由距离大小获得等价值页面集.再根据跳转偏爱度把等价值页面集转化为2-项频繁访问子路径集,并经过自适应的合并算法得到最终的频繁访问路径集.实验证明该页面价值模型能高效获得更精准的频繁访问路径.  相似文献   

3.
用页组拓扑平均距离改善页面聚类算法   总被引:1,自引:0,他引:1  
提出一种支持站点结构优化的页面聚类改进算法,通过引入图论中的拓扑平均距离,量化评估与挖掘站点结构中访问效率较低的内容文档集合为结构优化的兴趣页组,挖掘的页组具有更高的兴趣性,并将兴趣页组挖掘算法融入到拓扑优化算法中.实验结果表明改进算法能更好地优化站点结构,较一般算法收敛性好.  相似文献   

4.
描述了Web日志数据预处理技术的一种改进技术——Frame过滤技术,对其关键部分与运作模式进行了研究与改进。讨论了Frame页面过滤预处理技术在Web页面挖掘中的效率问题,分析了决策树算法中最著名的算法——ID3算法,并用ID3算法对Frame过滤算法进行了改进,比较新旧算法的执行效率及算法结果质量,得出了新算法执行效率更高及质量更好的结论,从而搞高了对存在Frame页面的网站实施Web日志挖掘算法时挖掘结果的兴趣度。  相似文献   

5.
Web日志挖掘中数据预处理技术的研究   总被引:2,自引:1,他引:1  
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法.在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整.然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面.实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

6.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.在经典Apriori算法基础上给出了基于SQL的Apriori算法.对Web日志挖掘进行数据预处理的基础上,利用算法挖掘最大频繁访问页面集.实验结果表明算法的效率较好,并有助于促进网站的建设.  相似文献   

7.
Web日志挖掘在电子商务中的应用研究   总被引:5,自引:0,他引:5       下载免费PDF全文
本文介绍了Web日志挖掘的概念和流程,提出了客户频繁访问路径和页面兴趣度挖掘算法,并给出了个性化推荐系统的构建思路,旨在为电子商务网站经营者改善网站结构提供帮助.  相似文献   

8.
用户访问兴趣路径挖掘方法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对当前挖掘用户访问模式算法仅将频繁访问路径作为用户浏览兴趣路径的问题,依据使用Web日志挖掘用户兴趣页面时,通过引入页面信息量参数,综合考虑页面访问次数、浏览时间和页面信息量大小来定义用户兴趣度,提出了基于兴趣度的用户访问模式挖掘算法。实验证明该算法是有效的,在用户浏览兴趣度量方面比当前的频繁访问路径挖掘算法更准确。  相似文献   

9.
对 Web 页面和用户的聚类算法提出了一种CAFM聚类算法.在该算法中,把模糊多重集的概念引入到模糊聚类算法中,将反映用户浏览行为的页面点击次数、停留时间、用户偏好等因素用模糊多重集来综合刻画用户访问站点的兴趣度,再以此来建立模糊多重相似矩阵直接进行聚类.通过实例说明了算法的具体计算过程和可行性.  相似文献   

10.
Web日志挖掘预处理中的Frame页面过滤算法   总被引:12,自引:0,他引:12  
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

11.
点击流数据是分析互联网用户心理倾向的关键,用户感兴趣的页组关联就隐藏于WEB日志之中。网站页面间的隐式关联可以通过分析点击流数据实现。给出了一种挖掘关联页面的方法。关联页面发现算法采用了一种类似于Apriori的模型。算法克服了前人关联页面算法的一些缺点,能够更好地适应复杂的互联网环境。  相似文献   

12.
改进了主成分分析法,并将其运用到Web日志的挖掘中,改进了基于主成分分析法的Web页面推荐算法,提出了因子负荷量提取算法,在P(z^*k,x^*i)值得确定过程中,采用了实验的方法,通过实验结果的确定当P(Z^*k,X^*i)的值为0.6时效果最好。最后,通过具体的实验结果比较了基于主成分分析法的Web页面推荐算法与快速聚类算法的优缺点。  相似文献   

13.
通过对Web日志的预处理,构建动态矩阵,该矩阵能够反映用户访问路径的先后顺序,利用相似度计算进行网页推荐。提出的动态矩阵预测算法具有较快的响应速度,可以满足实时页面推荐的需要,同时该算法无需事先训练,还可以对动态矩阵进行增量更新,提高了预测性能。  相似文献   

14.
李文昊  彭红超  童名文  石俊杰 《计算机科学》2015,42(11):284-287, 309
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。  相似文献   

15.
改进的Web日志数据预处理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。  相似文献   

16.
高琪  张永平 《计算机应用》2009,29(11):3100-3102
超链接导向搜索(HITS)算法是比较经典的基于超链接的算法,但它忽视了链接页面的文本信息内容,没有区分链接的重要性,从而导致算法不可避免地发生主题漂移现象。为了解决这一问题,在原HITS算法的基础上,引入了经典的tf-idf算法,通过计算链接页面与查询主题的相关度来区分链接的重要性,以解决主题漂移的问题。改进算法使搜索引擎的排序结果更符合查询条件,相应的查确率也有很大提高。  相似文献   

17.
Web页面主题相关性排序算法的研究   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了Web页面主题的分布的特点,对经典的页面排序算法进行了探讨,提出了一种基于内容和超链接分析并结合用户点击行为的相关性排序算法。该算法考虑了超文本标记、锚文本、文本内容等对相关性的影响,引入动态比较矩阵来计算相应的权重系数,能够客观分析网页所包含的主题信息,使检索结果排序更合理。实验表明,该算法能有效提高查准率,较好地解决了主题的漂移现象,且具有较好的性能。  相似文献   

18.
网页在其生命周期内的活跃程度会随时间发生变化。有的网页只在特定的阶段有价值,此后就会过时。从用户的角度对网页的生命周期进行分析可以提高网络爬虫和搜索引擎的性能,改善网络广告的效果。利用一台代理服务器收集的网页访问量信息,我们对网页的生命周期进行了研究,给出了用户兴趣演变的模型。这个模型有助于更好地理解网络的组织与运行机理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号