首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

2.
Web用户聚类算法   总被引:2,自引:0,他引:2  
Web用户聚类是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。文章提出基于用户访问路径以及节点高度的相似性评价函数,建立相似矩阵,并提出相似矩阵结构分解算法对此相似矩阵进行变换生成对角矩阵或下三角矩阵,该矩阵中的每一个子对角阵即对应一个用户类,矩阵的左下角对应各用户类之间的关系。  相似文献   

3.
模糊聚类的最大树算法在Web页面分类中的应用   总被引:5,自引:0,他引:5  
通过Web日志中记录的客户对Web页面的访问情况建立Web页面的用户访问矩阵,在此基础上构造模糊相似矩阵,根据模糊相似矩阵由最大树算法进行聚类。分析和算例表明,通过模糊相似矩阵进行聚类避免了构造模糊等价矩阵的大计算量,具有简单、快捷,适合处理高维数据的特点。  相似文献   

4.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

5.
Web页面和客户群体的模糊聚类算法   总被引:17,自引:0,他引:17  
web日志挖掘在电子商务和个性化web等方面有着广泛的应用.文章介绍了一种web页面和客户群体的模糊聚类算法.在该算法中,首先根据客户对Web站点的浏览情况分别建立Web页面和客户的模糊集,在此基础上根据Max—Min模糊相似性度量规则构造相应的模糊相似矩阵,然后根据模糊相似矩阵直接进行聚类.实验结果表明该算法是有效的.  相似文献   

6.
基于模糊聚类的Web日志挖掘   总被引:10,自引:0,他引:10  
李桂英  李吉桂 《计算机科学》2004,31(12):130-131
本文使用模糊聚类的方法对Web日志进行数据挖掘,实现用户聚类和页面聚类,并设计与实现了一个基于模糊聚类的Web日志挖掘系统。  相似文献   

7.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

8.
通过对Web日志的聚类分析,可以发现用户的群体特征,甚至可以预测用户将来的访问模式,进而为不同的用户群提供个性化服务。针对现有方法的一般缺陷,包括特征选择单一无法充分体现用户兴趣偏好和传统Hierarchical算法在用户聚类时存在的收敛效率低、易受用户访问多样性影响的问题,提出了基于多重特征的双层用户聚类方法。该方法采用多重特征对用户相似性进行度量,并在此基础上进行双层聚类。首先采用基于密度的DBSCAN算法来排除用户会话中的离群对象和发现不规则簇,然后再采用自底向上的Hierarchical方法对第一层的聚类结果进行聚类。实验结果表明,本文方法具有良好的稳定性和聚类效果。  相似文献   

9.
基于用户浏览行为聚类Web用户   总被引:3,自引:0,他引:3  
本文结合Web用户浏览行为的特点,提出了一种新的路径相似度的计算方法,在计算相似度时不仅把用户的浏览模式仅作为一种序列模式来考虑,还充分考虑了用户在网上浏览的时间因素.然后,把粗糙度的概念引入Leader聚类算法中,提出粗糙Leader聚类算法.最后,使用标准数据集进行了试验,证明基于此种相似度计算方法,应用粗糙Leader算法聚类Web用户的有效性.  相似文献   

10.
基于Web日志的信息挖掘具有重要的意义,比如识别兴趣相似的客户群体有利于实现推荐和个性化服务。采用了多元线性回归分析用户浏览行为,直接对兴趣相似矩阵进行λ截聚类,最后通过计算项与类的连接强度来调整聚类结果。实验结果证明了该算法具有较高的准确率和良好的扩展性。  相似文献   

11.
应用模糊聚类最大树算法对教学质量评估指标进行聚类以确定关键评估指标集,使用模糊相似关系挖掘出大量数据中教学质量评估指标与评估等级之间的规则,并以本校数据实例为对象建立教学质量评估模糊数据挖掘验证了该方法的有效性。  相似文献   

12.
王勇  张伟  陈军 《计算机工程与设计》2007,28(6):1484-1485,F0003
在Web挖掘研究中,传统硬聚类技术常被用来分析网站浏览者对网页的浏览偏好.然而该方法只能将每一用户浏览路径归类到单一群组中,即事先假设每一浏览路径只包含单一种用户偏好,却忽略了同一用户浏览路径可能包含多个网页偏好.针对这种情况,提出用模糊聚类技术取代传统的硬聚类技术以弥补不足,使聚类结果更符合实际浏览情况.  相似文献   

13.
网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力.该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度计算;算法只扫描一遍日志,可以进一步提高实时响应速度.该算法在考虑用户访问路径的先后顺序和简化推荐机制的基础上,提出了会话编码和动态矩阵的概念,利用其在推荐中可以兼顾满意度和实时性,同时实时性不受日志增加的影响.试验结果表明,该算法在兼顾满意度的基础上可以大幅提高推荐的实时性,具有实际应用价值.  相似文献   

14.
基于Web使用挖掘技术的聚类算法改进   总被引:1,自引:0,他引:1  
Web使用挖掘中的聚类算法可以聚集相似特性的用户和页面,以便从中提取有用的感兴趣的信息.通过深入分析基于Hamming距离的聚类算法,指出其中存在的不合理性和低效性,然后根据这些不足引入了加权的bipartite图来表示整个数据集,修改了Hamming距离计算公式以便更准确地描述两对象间的相似度,并对算法进行了改进.实验结果表明,改进的算法是准确且高效的.  相似文献   

15.
在电子商务环境下,如何按照顾客的购买兴趣进行聚类分析并为其提供个性化服务,是电子商务应用中研究的热点课题之一时.顾客的浏览行为及兴趣进行了研究,提出了利用偏好度的方法来度量顾客的兴趣度,在此基础上给出了基于偏好的客户群聚类算法.在该算法中,依据Web日志数据计算顾客偏好度,建立偏好度矩阵,再利用模糊聚类方法对顾客进行聚类.并用实例说明了具体的聚类过程.  相似文献   

16.
传统的可伸缩性聚类算法可扩展性不强、处理孤立点的能力较弱。人工鱼群算法是一种基于动物行为的寻求全局最优算法,将人工鱼群算法应用于Web用户聚类,模仿鱼群的觅食、聚群、追尾和随机行为来构造人工鱼,通过鱼群每个个体的局部最优,来找到全局最优值,从而对Web访问用户进行合理聚类。实际运行结果验证了算法的有效性。  相似文献   

17.
针对现有Web资源访问模式缺乏针对性、信息冗余、缺乏语义等缺点,提出一种区别于传统Web结构的新的目录概念--语义目录,对目录的生成方法提出了解决方案.利用类Apriori算法对用户日志进行挖掘得到频繁页面规则集.本体Agent对规则集进行提取,得到的本体元和用户模式分别存储于本体知识库和频繁路径序列模式树(FRSP-tree)中,并且在FRSP-tree树结点中加入指向本体元的指针,使遍历FRSP-tree树生存的目录具有语义性和针对性.  相似文献   

18.
软硬结合的快速模糊C-均值聚类算法的研究   总被引:1,自引:1,他引:1  
讨论的是对模糊C-均值聚类方法的改进,在原有的模糊C-均值算法的基础上,提出一种软硬结合的快速模糊C-均值聚类算法。快速模糊C-均值聚类算法是在模糊C-均值聚类算法之前加入一层硬C-均值聚类算法。硬聚类算法能比模糊聚类算法以高得多的速度完成,将硬聚类中心作为模糊聚类中心的迭代初值,从而提高模糊C-均值聚类算法的收敛速度,这对于大量数据的聚类是很有意义的。用数据仿真验证了这种快速模糊C-均值聚类算法比模糊C-均值算法迭代调整过程短,收敛速度快,聚类效果好。  相似文献   

19.
针对多传感器观测数据存在不确定性的问题,基于直觉模糊聚类,提出一种新的数据关联算法。将改进的直觉模糊C-均值聚类(IFCM)算法应用于数据关联,首先将观测数据和预测数据进行直觉模糊化,然后计算直觉模糊集之间的加权距离以获得观测与航迹的隶属度,最后依次搜索最大隶属度实现观测与航迹的关联。仿真实验表明,存在模糊观测数据情况下,算法能有效地进行数据关联。  相似文献   

20.
网页去重方法研究   总被引:2,自引:1,他引:1       下载免费PDF全文
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号