首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
用户聚类是Web挖掘的重要部分,而Chameleon算法是一种通用的聚类算法.文中把Chameleon算法应用于Web挖掘,设计了Web用户的聚类,采用J2EE体系架构实现了这一算法,并在此基础上做了改进,实验结果表明,该算法取得了良好的效果.  相似文献   

2.
为了克服Weka系统在聚类算法方面的不足,在Weka的开源环境下进行了二次开发,扩充了聚类算法。介绍了Chameleon算法的基本原理和构建步骤,给出算法的具体描述,并将Chameleon算法嵌入Weka平台,充分利用了其中的类和可视化功能。对实现的系统进行了实验和测试,并对嵌入的算法和原有聚类算法k—means进行了对比分析。实验结果表明,Chameleon算法可获得更好的聚类效果。  相似文献   

3.
K均值算法是一种常用的基于原型的聚类算法。但该算法要求用户随机选择初始质心,使得K均值算法受初始化影响较大。二分K均值算法虽然改善了这个问题,但仍然要求用户指定聚类个数,影响了聚类效果。用层次聚类对二分法进行改进,解决了二分K均值算法受用户指定的聚类个数的影响的问题。并结合Chameleon算法,合并划分过细簇,优化聚类结果。仿真实验证明改进的聚类算法的抱团性和分离性优于二分K均值聚类算法。  相似文献   

4.
Chameleon算法的改进   总被引:1,自引:1,他引:0  
结合Chameleon算法可以发现高质量的任意形状、大小和密度的自然簇及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进Chameleon算法,使之可以处理含分类属性的数据;进而提出一种两阶段聚类算法.第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用改进的Chameleon算法归并初始划分而得到最终聚类.在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的.  相似文献   

5.
吴跃进 《计算机工程与应用》2006,42(28):147-149,210
文章提出了综合多重评价因素的Web用户聚类算法;首先从评价因素的数学特征出发,提出了Web资源偏爱度与Web资源关联度的概念,然后运用Kruskal算法的基本原理在由Web资源和Web访问行为所构成的无向图内寻找寻频繁路径,再根据频繁路径和Web资源偏爱度与关联度阈值对Web用户进行聚类处理。该算法在一定程度上提高了Web用户聚类算法的准确性与执行效率。  相似文献   

6.
凌海峰  王浩 《计算机工程与应用》2012,48(36):121-124,176
Web用户会话聚类是电子商务领域的NP-难问题,目的是发现相似的用户访问行为模式。该问题难度在于对大规模的Web会话进行聚类,且每个会话都表示为高维向量。提出一种细菌觅食算法和K-means相结合的优化算法,用知名的数据集测试其有效性。对Web会话进行聚类,与流行的聚类算法进行比较,实验结果显示该算法高效且性能更优。  相似文献   

7.
提出一个基于Web日志的web用户群体和站点URL聚类算法.使用用户浏览行为描述和用户浏览时间离散化方法建立了Web站点的用户事务矩阵,并在此基础上对Web用户群体和站点URL进行聚类.由于在聚类过程中同时考虑了用户对URL的浏览时间和访问次数,使算法的精度和效率都大大提高.同时,该算法能较好地处理类间重叠问题,使算法具有较好的实用性.最后对算法的有效性和可伸缩性进行了研究.  相似文献   

8.
为降低传统FCM算法的计算复杂性,提高Web用户聚类的效果,文中提出了一种改进的基于特征属性的Web用户模糊聚类算法。首先通过用户访问页面的次数和时间建立Web用户兴趣度矩阵,并根据商品的特征属性值将Web用户兴趣度矩阵映射为用户对特征属性的偏好矩阵,从而有效降低数据稀疏性;然后以此为数据集,对传统的FCM算法进行了改进,将聚类中心分为活动和稳定两种,忽略稳定聚类中的距离计算以降低计算复杂性。最后通过仿真实验证实了新算法的有效性和可行性。  相似文献   

9.
为降低传统 FCM 算法的计算复杂性,提高 Web 用户聚类的效果,文中提出了一种改进的基于特征属性的 Web 用户模糊聚类算法.首先通过用户访问页面的次数和时间建立 Web 用户兴趣度矩阵,并根据商品的特征属性值将 Web 用户兴趣度矩阵映射为用户对特征属性的偏好矩阵,从而有效降低数据稀疏性;然后以此为数据集,对传统的 FCM 算法进行了改进,将聚类中心分为活动和稳定两种,忽略稳定聚类中的距离计算以降低计算复杂性.最后通过仿真实验证实了新算法的有效性和可行性.  相似文献   

10.
为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二次聚类模型对初始聚类结果进行修正;最后结合应用领域定义一种新的聚类质量评价模型。算法中面向Web用户引入多指标体系,各种指标既可独立考核,也可灵活组合,并同时兼顾决策者对指标的偏好。实验证明,该算法适用于Web用户的高维稀疏数据,不依赖样本的顺序,具有更广应用性,可提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。  相似文献   

11.
对Web挖掘进行了概述,分析了Web使用挖掘的关键问题,设计了一个基于遗传算法的KP混合聚类算法,并应用于Web使用挖掘的访问者模式识别处理。系统的实验结果表明,提出的算法和推荐策略在Web使用挖掘的处理过程中是科学的和有效的。  相似文献   

12.
薛文娟  刘培玉  刘栋 《计算机应用》2012,32(10):2884-2887
针对Chameleon算法中采用距离函数度量数据点间的相似度,导致距离相近的两个点可能仅拥有很少的共同特征,最小二分实际操作困难,合并时需要人工指定阈值以及一旦合并完成后不能撤销的问题,对Chameleon算法进行改进,提出一种引入共享近邻加权图(WSnnG)的Chameleon算法。该算法以数据对象间的共享近邻数来衡量相似度,进一步构造WSnnG,再利用网络模块性评价函数指导最小二分,然后以结构等价相似度作为合并的依据,最后通过引入内聚度度量函数解决合并后不能撤销的问题。在UCI数据集及4个二维人造数据集上的实验结果表明,该算法在聚类精度和运行时间方面具有更好的效果。  相似文献   

13.
数据挖掘以发现常规模式为主体,但离群数据在欺诈分析及安全领域具有重要分析价值,离群数据检测已成为数据挖掘的重要内容。对聚类与分类以及关联规则分析中典型的常规数据挖掘算法如何处理离群数据进行全面分析与总结,讨论了BIRCH、CURE、Chameleon、DBSCAN以及基于共享最近邻的聚类算法以及基于不平衡分类和基于非频繁模式的离群检测技术,给出了一种利用K-最近邻算法的离群数据检测方法,并报告了测试结果。  相似文献   

14.
陈娟  王贤  黄青松 《现代计算机》2006,(9):19-21,62
近几年,网络被在线数据库迅速地深化.在深网中,大量的资料提供了丰富的数据模式,这些模式详细说明了它们的目标领域和查询性能,因此对大规模数据的整合是当前面临的挑战.在数据挖掘中,聚类分析是一个重要方法.本文论述通过查询接口采用凝聚层次聚类方法聚类结构化的Web资源,并采用先聚类后分类的方法稍加改进.实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料.  相似文献   

15.
研究数据挖掘算法中的Microsoft聚类算法以及其在金融领域的应用。从海量的数据里挖掘出潜在的信息是数据挖掘的主要工作,通过对客户交易信息的过滤和挖掘,建立起为银行更好地提供智能决策和建议数据挖掘商业应用实例系统。系统的客户端开发选择的是Visual Studio.NET 2008,并使用ADOMD.NET对象及Web控件对模型的结果进行输出展示。用户可以应用这个系统通过输入客户的一些个人属性以及办理业务的基本情况,查看所关心的信誉情况、业务的办理趋向、银行开展新业务的趋向等信息。在整个实例系统的构建过程中,对聚类分析模型的挖掘过程进行了详细的分析,促进了数据挖掘的应用实践。  相似文献   

16.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

17.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

18.
针对小文本的Web数据挖掘技术及其应用   总被引:4,自引:2,他引:4  
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。  相似文献   

19.
基于用户任务级的Web日志聚类   总被引:2,自引:0,他引:2  
利用改进的用户描述计算公式和启发式聚类方法 ,进行基于用户任务级的 Web日志聚类 ,产生簇用户访问模式 ,进行有效的推荐和个性化服务 .结果表明 ,算法具有较好的聚类质量和较高的性能 .它可以成功地应用到 Web日志挖掘中 .  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号