首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
聚类分析是Web日志挖掘系统的重要组件,聚类分析的质量决定挖掘结果的有效性.本文引入一种向量聚类方法,并针对原有方法的不足提出改进.首先分析用户事务求出用户事务的相似矩阵,通过分别计算用户事务相似度和用户浏览路径相似度,然后把两者平均得到不同用户事务之间的相似性系数,最后根据相似性系数方法得出聚类结果.这种算法考虑到了web用户访问的有序、连续、重复性,结果能够真正反映出用户的浏览兴趣.  相似文献   

2.
基于用户浏览行为聚类Web用户   总被引:3,自引:0,他引:3  
本文结合Web用户浏览行为的特点,提出了一种新的路径相似度的计算方法,在计算相似度时不仅把用户的浏览模式仅作为一种序列模式来考虑,还充分考虑了用户在网上浏览的时间因素.然后,把粗糙度的概念引入Leader聚类算法中,提出粗糙Leader聚类算法.最后,使用标准数据集进行了试验,证明基于此种相似度计算方法,应用粗糙Leader算法聚类Web用户的有效性.  相似文献   

3.
针对传统协同过滤推荐算法没有充分考虑用户属性及项目类别划分等因素对相似度计算产生的影响,存在数据稀疏性,从而导致推荐准确度不高的问题.提出一种基于用户属性聚类与项目划分的协同过滤推荐算法,算法对推荐准确度有重要影响的相似度计算进行了充分考虑.先对用户采用聚类算法以用户身份属性聚类,进而再对项目进行类别划分,在相似度计算中增加类别相似度,考虑共同评分用户数通过加权系数进行综合相似度计算,最后结合平均相似度,采用阈值法综合得出最近邻.实验结果表明,所提算法能够有效提高推荐精度,为用户提供更准确的推荐项目.  相似文献   

4.
为了对数字电视用户浏览行为进行有效分析,提出了应用于数字电视用户浏览行为的二分K-Medoids算法。针对欧氏距离容易丢失数据信息,受异常值影响较大的缺点,利用云相似度对聚类算法进行了改进,减少异常数据等不确定因素对聚类结果的影响;针对K-Means 算法易受人为因素影响的迭代次数、大数据环境下聚类中心不再变化难以实现等停止准则问题,使用了一种综合类内、类间相似度和类簇个数三个因素的停止准则,在不过度消耗系统资源同时又能满足实际的聚类需求。在实验中,将基于云相似度的二分K-Medoids (BKS)、基于云相似度的K-Medoids(KS)算法在不同用户数量下进行测试,实验结果表明,提出的算法提高了聚类准确性和算法的鲁棒性。  相似文献   

5.
针对推荐系统领域中应用最广泛的协同过滤推荐算法仍伴随着数据稀疏性、冷启动和扩展性问题,基于用户冷启动和扩展性问题,提出了基于改进聚类的PCEDS(pearson correlation coefficient and euclidean distance similarity)协同过滤推荐算法。首先针对用户属性特征,采用优化的K-means聚类算法对其聚类,然后结合基于信任度的用户属性特征相似度模型和用户偏好相似度模型,形成一种新颖的PCEDS相似度模型,对聚类结果建立预测模型。实验结果表明:提出的PCEDS算法比传统的协同过滤推荐算法在均方根误差(RMSE)上降低5%左右,并且推荐准确率(precision)和召回率(recall)均有明显提高,缓解了冷启动问题,同时聚类技术可以节省系统内存计算空间,从而提高了推荐效率。  相似文献   

6.
社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和基于该相似度的聚类算法;(2)分析了影响标签相似度的条件;(3)通过实验表明:与已有方法相比,新方法的准确性更高。  相似文献   

7.
吴不晓  肖菁 《计算机应用》2015,35(6):1663-1667
目前多数社交网络主要根据已有好友关系推荐潜在好友,用户的兴趣爱好不作为主要考虑因素;此外,如何从大量数据中精确地提取用户的兴趣爱好是一项十分艰巨的任务。为此,提出一种在大量标注行为数据中精确挖掘出用户的兴趣爱好,并据此推荐具有相同兴趣爱好的潜在好友的算法--基于标注的好友推荐(FRBT)算法。首先使用词频-逆向文件频率(TF-IDF)对标签进行聚类,将语义相似的标签聚成话题;然后在话题的基础上提出一种新的相似度公式来计算用户相似度;再融合基于话题与基于物品的用户相似度,将相似度较高的用户作为潜在好友进行推荐。在Delicious数据集上以准确率和召回率为指标与item、tag和tri-graph三种算法进行比较,实验验证了该算法能够更准确地为用户推荐兴趣相似的好友。  相似文献   

8.
为了缓解协同过滤推荐算法中的用户冷启动问题,提出一种基于融合相似度和层次聚类的冷启动推荐算法.首先,基于用户的人口统计学信息、用户对项目的评分信息和项目种类信息,提出一种融合相似度计算方法;其次,基于用户的人口统计学信息,利用层次聚类确定冷启动用户的初始近邻用户集;最后,基于初始近邻用户集,利用融合相似度为目标用户进行...  相似文献   

9.
为了解决协同过滤算法中数据稀疏性问题,提高推荐效果,提出一种改进的协同过滤算法.该算法首先通过一种新的相似度计算方法来计算项目类型相似度,将相似度大于某阈值的项目作为目标项目的邻居;然后根据目标用户对邻居项目的评分信息来预测该用户对目标项目的评分值,并将预测值填入稀疏的用户项目评分矩阵;最后对填充后的评分矩阵采用基于用户聚类(K-means聚类)的协同过滤算法做出最终的预测评分进行推荐.在Movielens数据集上进行实验验证,结果表明该算法能够很好地缓解数据稀疏性、降低计算复杂度,提高推荐精度.  相似文献   

10.
针对传统协同过滤算法普遍存在的稀疏性和扩展性问题,提出一种基于模糊聚类的协同过滤算法。利用模糊聚类的方法对项目进行聚类,通过用户-项目评分矩阵计算用户之间的相似度,从中选出与用户最相似的前k个用户,根据这k个用户对当前用户的未评分项目的打分进行预测,选出前n个推荐。实验结果证明,与基于用户的协同过滤算法相比,该算法能提高冷启动问题下的相似度计算精度。  相似文献   

11.
提出了Web页面聚类算法PageCluster及相应的改进算法ImPageCluster。该方法在兼顾Web站点结构和页面链接的同时,基于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算法的可行性和高效性。  相似文献   

12.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性.  相似文献   

13.
提出一种基于本体的网络会话表示方法,即语义会话,和一种会话聚类和可视化方法。会话聚类方面基于用户浏览网站的公共路径提出一种语义会话间的相似性度量——语义公共路径相似性度量(SMSCP),并且使用改进的kmedoids聚类算法衡量其有效性。在聚类结果可视化方面应用层云表来展示聚类结果。实验表明文中的聚类方法和可视化方法具有更好的有效性及可理解性。  相似文献   

14.
Web用户聚类算法   总被引:2,自引:0,他引:2  
Web用户聚类是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。文章提出基于用户访问路径以及节点高度的相似性评价函数,建立相似矩阵,并提出相似矩阵结构分解算法对此相似矩阵进行变换生成对角矩阵或下三角矩阵,该矩阵中的每一个子对角阵即对应一个用户类,矩阵的左下角对应各用户类之间的关系。  相似文献   

15.
Person name queries often bring up web pages that correspond to individuals sharing the same name. The Web People Search (WePS) task consists of organizing search results for ambiguous person name queries into meaningful clusters, with each cluster referring to one individual. This paper presents a fuzzy ant based clustering approach for this multi-document person name disambiguation problem. The main advantage of fuzzy ant based clustering, a technique inspired by the behavior of ants clustering dead nestmates into piles, is that no specification of the number of output clusters is required. This makes the algorithm very well suited for the Web Person Disambiguation task, where we do not know in advance how many individuals each person name refers to. We compare our results with state-of-the-art partitional and hierarchical clustering approaches (k-means and Agnes) and demonstrate favorable results. This is particularly interesting as the latter involve manual setting of a similarity threshold, or estimating the number of clusters in advance, while the fuzzy ant based clustering algorithm does not.  相似文献   

16.
面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。  相似文献   

17.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

18.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

19.
为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二次聚类模型对初始聚类结果进行修正;最后结合应用领域定义一种新的聚类质量评价模型。算法中面向Web用户引入多指标体系,各种指标既可独立考核,也可灵活组合,并同时兼顾决策者对指标的偏好。实验证明,该算法适用于Web用户的高维稀疏数据,不依赖样本的顺序,具有更广应用性,可提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。  相似文献   

20.
K-means聚类算法的性能依赖于距离度量的选择,k-means算法将欧几里德距离作为最常用的距离度量方法。欧氏距离认为所有属性在聚类中作用是相同的,但是这种距离度量方法并不能准确反映样本间的相异性。针对这种不足,提出了融合变异系数的k-means聚类分析方法(CV-k-means),利用变异系数权重向量来减少不相关属性的影响。实验结果表明,该方法的聚类结果优于k-means算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号