共查询到20条相似文献,搜索用时 176 毫秒
1.
基于Chameleon算法的用户聚类的设计与实现 总被引:6,自引:0,他引:6
用户聚类是Web挖掘的重要部分,而Chameleon算法是一种通用的聚类算法。文中把Chameleon算法应用于Web挖掘,设计了Web用户的聚类,采用J2EE体系架构实现了这一算法,并在此基础上做了改进,实验结果表明,该算法取得了良好的效果。 相似文献
2.
用户聚类是Web挖掘的重要部分,而Chameleon算法是一种通用的聚类算法.文中把Chameleon算法应用于Web挖掘,设计了Web用户的聚类,采用J2EE体系架构实现了这一算法,并在此基础上做了改进,实验结果表明,该算法取得了良好的效果. 相似文献
3.
《计算机应用与软件》2014,(2)
Web用户聚类是通过分析用户会话,将具有相同或相似访问特征的用户聚为一类。在会话相似性度量方面综合考虑了网页浏览时间和访问频次两个因素,并考虑到用户个人习惯、能力等因素对浏览时间的影响,将浏览时间处理为RDP(Reduce the Differences in Personality)浏览时间,以降低其个性特征。为此,提出一种基于用户特性的RDPk-means聚类算法。实验表明,该算法可以有效实现用户会话的聚类,聚类结果客观合理。 相似文献
4.
基于用户任务级的Web日志聚类 总被引:2,自引:0,他引:2
利用改进的用户描述计算公式和启发式聚类方法 ,进行基于用户任务级的 Web日志聚类 ,产生簇用户访问模式 ,进行有效的推荐和个性化服务 .结果表明 ,算法具有较好的聚类质量和较高的性能 .它可以成功地应用到 Web日志挖掘中 . 相似文献
5.
6.
基于关联规则的Web文档聚类算法 总被引:32,自引:1,他引:32
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值. 相似文献
7.
结合Web用户访问特点,针对Web用户访问路径聚类分析中普遍存在的对象类别不确定性现象进行了研究.结合模糊聚类和可能性聚类的特点,提出来一种新的用户访问路径的可能性模糊聚类算法.新方法通过定义相关的截集,自动地将对象分配到若干簇中,避免了人工干预,实现了交叉聚类的目的.新方法建立在leader聚类算法的框架上,只需要扫描数据集一遍使得算法效率大大提高.在标准数据集上的对比试验表明新算法不仅是有效的,而且效率较高. 相似文献
8.
Web访问挖掘预处理的用户识别算法 总被引:1,自引:0,他引:1
Web访问挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。该文主要对Web挖掘技术中的预处理过程进行了研究,着重分析了其中的用户识别方法,并给出了一个用户识别的通用算法。 相似文献
9.
吴瑞 《计算机工程与应用》2010,46(30):20-22
在Web使用挖掘中,用户浏览模式的聚类结果有助于网站设计者理解Web用户的浏览特点和需要。设计了一种有效的Web浏览模式的聚类方法,网页是否被浏览及网页上的浏览时间反映了用户的浏览兴趣,它们被刻画成等长的用户浏览模式向量中的相应分量,此外,浏览模式之间的关系被刻画并被作为属性加入到该向量中,形成扩展的用户浏览模式向量,对这些向量使用粗糙k-均值法可对用户浏览模式进行有效的聚类。实例和实验分析说明,使用该方法的聚类结果更合理。聚类结果可用于个性化网站的设计。 相似文献
10.
11.
一种改进的增量数据挖掘算法 总被引:1,自引:0,他引:1
针对现行增量挖掘算法都不能解决最小支持度和最小置信度发生变化的同时数据库也发生变化的增量更新问题,分析现有算法的不足,提出一种改进算法。该算法充分利用以前挖掘的结果,将链表插入、删除以及hash定位高效率的特性结合起来,摆脱了传统算法多次迭代的不足,可实现最小支持度与最小置信度发生变化的同时,数据库也相应的发生变化的增量更新。并通过实验对该算法进行验证,同时将测试结果与Aprior算法的测试结果进行比较,证明其高效性。 相似文献
12.
一种改进的k-均值聚类算法 总被引:4,自引:0,他引:4
针对k-均值(k-means)聚类算法中随机选取初始聚类中心的缺陷,提出了一种新的基于数据样本分布选取初始聚类中心的方法.实验结果表明,改进后的算法能改善其聚类性能,并能取得较高的分类准确率. 相似文献
13.
在简要介绍了SAMARAH模型中定义的不同聚类结果的类别之间的相似度及其不足的基础上,提出了一种多种聚类结果的算法步骤,重点介绍对两个不同聚类结果间的相似度最大的两个类别所对应的四种不同情况的调整策略。以综合模糊C均值聚类结果和K均值聚类结果为例,说明了提出的综合多种聚类结果的算法具有实用性,并得出该算法的一些结论。 相似文献
14.
一种用于Web文本聚类的特征选择方法 总被引:1,自引:0,他引:1
特征选择已经广泛地应用在文本分类和文本聚类中,相对于无监督的特征选择方法,有监督的特征选择方法在过滤噪音等方面更为有效.但是,由于缺少类标签,它很难应用到文本聚类中.提出了一种针对Web文本聚类的新的特征选择算法--基于k-means的多特征联合选择算法(MFCC).MFCC充分利用了一个特征空间的中间聚类结果来帮助另一个特征空间进行特征选择.实验证明,MFCC有效地提高了聚类质量. 相似文献
15.
提出了一种基于品类聚类的关联规则优化算法.该算法首先根据文中定义的品类特征向量,用结构化的数据来表示事务;然后根据一种基于密度的聚类算法,对结构化的数据进行聚类,同时将对应的原始事务进行聚类;最后根据聚类后得到的类的长度以及用户指定的最小支持度,确定类内的最小支持度,在类内挖掘关联规则.实验结果表明,与传统算法相比,该算法效率较高,具有一定的实用价值. 相似文献
16.
一种改进的关联规则的增量式更新算法 总被引:1,自引:0,他引:1
增量关联规则挖掘的主要思想是在原有规则的基础上,去除那些不满足条件的旧规则,发现满足条件的新规则,目的是尽量减少计算量.增量规则算法主要解决两类问题,即最小支持度的更新和数据库的更新.目前大多数算法对上述两个条件只更新其中一个,另一个保持不变,而实际应用中往往需要两者都更新.通过对数据挖掘中的IUA算法和FUP算法的分析和研究,提出IFU算法,用于解决数据库和最小支持度均发生改变时关联规则的增量式更新问题.相对于IUA算法和FUP算法以及基于他们改进的算法,该算法不仅扩展了更新条件,而且减少了对事务数据库和新增数据库的扫描次数.模拟实验表明IFU算法提高了更新效率. 相似文献
17.
一种存在级不确定数据流聚类算法 总被引:1,自引:0,他引:1
针对不确定数据流聚类算法——EMicro在聚类结果的精确性和聚类中数据的概率相似度方面的不足,提出一种新基于存在级的不确定数据流算法——UDs Stream。该算法通过设置概率阈值,将不确定性高的点和不确定性低的点分开处理,提高聚类结果的准确性和聚类中数据概率相似度。同时引入窗口和密度的方法,设置动态密度阈值,能够动态掌握数据流的分布特征,使聚类过程有更好的灵活性。实验结果证明,与EMicro相比,UDs Stream算法聚类效果更好。 相似文献
18.
聚类算法有效性验证工具设计与实现 总被引:1,自引:0,他引:1
随着数据挖掘技术的发展,聚类算法也越来越多.数据挖掘对聚类算法有某些典型要求,如何验证聚类算法是否满足这些要求已成为一个需要解决的问题.由于实际样本集很难获得,且很多无法用来进行聚类算法的测试,因此设计并实现了一个工具,讨论用构造的样本集对加载的聚类算法进行评测,并对聚类结果进行展示. 相似文献
19.
基于密度的聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类.指出广义的基于密度的空间聚类算法GDBSCAN在参数选取方面的局限性,并提出了改进方法.最后讨论了改进的GDBSCAN算法的实现过程. 相似文献
20.
数据流具有数据量无限且流速快等特点,使得传统的聚类算法不能直接应用于数据流聚类问题.针对上述问题,提出了一种可以聚类单数据流和多数据流的聚类算法.此算法现阶段应用了两种概化技术,基于小波的技术和基于回归的技术来构造摘要层次结构.基于回归的拟合模型可以得到较精确的摘要层次结构,而基于小波的拟合模型可以快速地建立摘要层次结构并且所需的存储空间比较小. 相似文献