共查询到18条相似文献,搜索用时 125 毫秒
1.
模糊C均值聚类算法在Web使用挖掘上的应用研究 总被引:5,自引:3,他引:2
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提.通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度.在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类.实验表明改进的FCM算法的有效性. 相似文献
2.
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。 相似文献
3.
对通过URL-UserID关联矩阵得到页面聚类和用户聚类的算法进行了研究.指出了可以结合用户的交易结果来评价用户对商品页面的兴趣度,并给出了改进后的算法和计算过程,从而关联矩阵元素的权值能够更准确地反映用户对商品页面的感兴趣程度,使聚类分析结果更佳. 相似文献
4.
基于有向带权图的页面聚类算法研究 总被引:1,自引:0,他引:1
聚类算法是数据挖掘中的一个重要的分析工具.Web使用挖掘中的聚类分析一般分为用户聚类和页面聚类.其中页面聚类是指导网站结构离线优化的重要方法.利用有向带权图表示用户的访问会话记录,对建立的有向带权图模型运用聚类算法实现页面聚类.选取真实数据对典型的聚类算法K-means算法、DBSCAN算法和COBWEB算法进行实验.实验结果表明,在选取的数据集范围内,COBWEB算法准确率要高于K-means算法和DBSCAN算法,时间性能与用户访问频率矩阵大小有密切关系. 相似文献
5.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性. 相似文献
6.
7.
一种挖掘用户浏览模式的新方法 总被引:3,自引:0,他引:3
提出了页面兴趣度的概念,并把它用一个三元组(页面的访问时间,页面的大小,页面访问次数)表示.这个概念准确地反映了用户对页面的访问情况.在此基础上建立了以引用网页URL为行、浏览网页URL为列,页面兴趣度为元素值的网站访问矩阵.通过对该矩阵计算得到用户浏览偏爱路径.实验表明该算法能准确地反映用户浏览兴趣. 相似文献
8.
基于用户访问兴趣的路径聚类研究 总被引:1,自引:0,他引:1
网站可以通过关注用户访问路径、访问某个页面的时间、在此页面的驻留时间以及由那个链接到此页面的URL等信息,利用聚类技术将具有相同兴趣的用户分类。文章将介绍一种新的基于用户访问兴趣的路径聚类算法,其中定义了新的兴趣度、相似度、及聚类中心。最后采用龙城热线网站日志进行真实测试,实验的结果是成功的。 相似文献
9.
Web日志中用户频繁路径快速挖掘算法 总被引:10,自引:0,他引:10
Web访问志中含有大量用户浏览信息,从中有效挖掘出用户频繁路径是建立自适用化网站的必要前提。该文在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了用户频繁路径快速挖掘算法:首先利用会话矩阵筛选出满足一定阈值条件的频繁一项集,这样避免产生大量中间项;然后在相似客户群体内,对页面快速聚类,得到相关联页面;最后根据遍历矩阵对相关联页面进行路径合并,得出频繁路径。实验表明此算法的准确性和快速性。 相似文献
10.
11.
12.
分析了Web页面主题的分布的特点,对经典的页面排序算法进行了探讨,提出了一种基于内容和超链接分析并结合用户点击行为的相关性排序算法。该算法考虑了超文本标记、锚文本、文本内容等对相关性的影响,引入动态比较矩阵来计算相应的权重系数,能够客观分析网页所包含的主题信息,使检索结果排序更合理。实验表明,该算法能有效提高查准率,较好地解决了主题的漂移现象,且具有较好的性能。 相似文献
13.
对 Web 页面和用户的聚类算法提出了一种CAFM聚类算法.在该算法中,把模糊多重集的概念引入到模糊聚类算法中,将反映用户浏览行为的页面点击次数、停留时间、用户偏好等因素用模糊多重集来综合刻画用户访问站点的兴趣度,再以此来建立模糊多重相似矩阵直接进行聚类.通过实例说明了算法的具体计算过程和可行性. 相似文献
14.
基于网页文本结构的网页去重 总被引:1,自引:0,他引:1
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。
针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 相似文献
15.
基于主题相似度模型的TS-PageRank算法 总被引:1,自引:1,他引:1
PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量. 相似文献
16.
17.
过对Web页面中关键词汇的记录和对Web页面特征抽取建立Web页面的信息情况,运用模糊数学方法建立相应的模糊相似矩阵,而后根据模糊相似矩阵的编网法进行聚类分析,从而实现了对Web页面的聚类。这给互联网信息的管理提供了一种有效的自动聚类方法。 相似文献
18.
在对Web站点进行优化时,为了降低成本,往往需要在不改变硬件和网络配置的情况下提高网站的性能.此时,对构成网站的网页的修改就成为提高站点性能的主要途径.对网页的访问速度的测量已有很多成熟的方法,但是如何根据测试的结果指定合理的优化策略,却鲜有论述.本文使用FCM算法对测试结果和网站日志进行聚类分析,从而得到一个良好的优化策略. 相似文献