首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据挖掘与互联网技术的融合,使得在互联网页面存取记录当中执行数据挖掘成为可能。互联网页面访问者的行为被镌刻在Web服务器的日志文件当中。分析和探求这一行为当中的规则性,能够改善系统性能,提高提供给终端用户的互联网信息服务质量,预计电子商务的潜在客户群。把终端用户分为簇,只有访问路径相似的终端用户才被归入相同的簇。采用适当的聚簇方法,根据用户请求网页的顺序相似性,也就是他们页面访问记录的相似性,来把用户聚簇。这样如果知道一组网页总是被一起访问,当用户访问其中之一时,就可以把这一组网页放入缓存,以加快信息传递速度。本文分析Web日志数据挖掘算法,从正确性、通用性等多方面对层次聚簇算法和K-均值聚簇算法进行比较和验证。  相似文献   

2.
提出一种基于K-均值聚类的无线传感器网络分簇算法。从K-均值聚类算法中要解决的合理聚类数的确定、初始聚类中心的选择以及聚类性能对目标函数的依赖这三个问题入手,运用K-均值聚类算法来实现无线传感器网络分簇。仿真与性能分析结果表明,基于K-均值聚类的无线传感器网络分簇算法既能节省节点能量、延长网络生命,又能改善网络中的能耗均衡,并保证簇首分布的均匀性。  相似文献   

3.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度.  相似文献   

4.
基于层次聚类的k均值算法研究   总被引:4,自引:3,他引:1  
针对k均值算法需要用户事先确定聚簇数k、阈值t和聚簇中心Q,提出了一种基于层次的k均值聚类算法(HKMA)。该算法首先采用层次方法对文档进行初始聚类,得到的聚类总数作为k均值算法中的k值,在此基础上,通过k均值聚类对聚类结果进行修正。最后通过实验验证了算法的准确度和时间效率,通过与其他聚类算法的比较,所提出的算法具有更好的性能。  相似文献   

5.
一个用于空间聚类分析的遗传K-均值算法   总被引:13,自引:0,他引:13  
空间数据挖掘是数据挖掘的一个新的分支,空间聚类分析是空间数据挖掘中的一个重要研究课题。本文在分析遗传算法及K-均值算法的优越性和不足的基础上,设计了一种遗传K-均值空间聚类分析算法,该算法兼顾了局部收敛和全局收敛性能。实验表明,其结果优于传统K-均值聚类方法及单纯的遗传算法聚类。  相似文献   

6.
简单有效的确定聚类数目算法   总被引:2,自引:0,他引:2       下载免费PDF全文
很多聚类算法要求用户在聚类之前给出聚类数目,这给用户带来了很大的困难。利用二分思想递归分裂簇内相似度大于给定阈值的簇,最后合并簇间相似度小于给定阈值的簇,来获得最终聚类数目。实验表明提出的算法确定的聚类数目和实际聚类数目相同,并且簇内数据的相似性高,簇间数据的相似性低,该算法简单高效。  相似文献   

7.
基于图的K-均值聚类法中初始聚类中心选择   总被引:6,自引:1,他引:5  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始类簇中心须事先设定,而初始类簇中心的选择严重影响聚类的结果;为了改善K均值聚类算法的聚类效果,针对以往K均值聚类算法中采用随机指定初始类簇中心的方法.提出了一种基于图论的连通分支来进行初始类簇中心的选取算法,并用随机样本发生器生成的模拟数据进行测试,通过与常规的随机选取方法的比较,该算法具有更好的性能和健壮性.  相似文献   

8.
数据挖掘的一个重要分支是数据流聚类技术。基于K均值算法的基础提出了CluTA算法。该算法在处理用K均值方法分类得到的结果时考虑时间衰减因素和相似簇的合并,达到用户对时间的要求并实现了任意形状簇聚类。理论分析和实验结果都表明算法具有可行性。  相似文献   

9.
针对布谷鸟搜索(CS)算法后期收敛速度慢,传统K-均值算法对初始簇中心选择比较敏感,提出了一种自适应调整的布谷鸟搜索及优化初始K-均值聚类算法(CSSA-OIKM)。首先,由“集群度”与距离均衡优化选择初始簇中心。其次,融合粒子群算法思想,遵循自适应优化学习策略以均衡CS算法全局与局部精细搜索能力。最后,在改进CS算法的基础上引入自适应度调节步长因子与动态变化发现概率,增强算法收敛性能。通过对经典数据集的仿真实验分析,相比K-均值算法、PSO-K-均值算法及CS-K-均值算法来说,提出的CSSA-OIKM算法能有效提高聚类精确性,且算法稳定性好。  相似文献   

10.
基于有向带权图的页面聚类算法研究   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中的一个重要的分析工具.Web使用挖掘中的聚类分析一般分为用户聚类和页面聚类.其中页面聚类是指导网站结构离线优化的重要方法.利用有向带权图表示用户的访问会话记录,对建立的有向带权图模型运用聚类算法实现页面聚类.选取真实数据对典型的聚类算法K-means算法、DBSCAN算法和COBWEB算法进行实验.实验结果表明,在选取的数据集范围内,COBWEB算法准确率要高于K-means算法和DBSCAN算法,时间性能与用户访问频率矩阵大小有密切关系.  相似文献   

11.
自组织映射在Web结构挖掘中的应用   总被引:1,自引:0,他引:1  
该文讨论了用自组织映射进行Web结构挖掘的基本方法。用SOM可直观地表示数据的相似性和进行分类,还可方便地进行数据聚簇分析,并可在Web挖掘中找到权威页面等有用信息。  相似文献   

12.
依据信息论的思想,对基于层次的K-均值聚类算法(HKMA)过程进行了分析,该算法首先采用层次方法对文档进行初始聚类,得到的聚类总数作为k均值算法中的k值,在此基础上,通过k均值聚类对聚类结果进行修正。实验结果表明,HKMA执行时间整体上优于k-means算法,而且随着数据量的增大执行时间的增长幅度也较小。  相似文献   

13.
基于模糊簇的个性化推荐方法   总被引:3,自引:0,他引:3  
提出了一种运用模糊聚类方法将项目属性特征的相似性与协同过滤推荐算法相融合的推荐方法,此方法将用户对单个项目的偏好转化为对相似群组的偏好,目的是构造密集的用户-模糊簇的偏好信息,同时利用项目之间在相似群组的相似性来初步预测用户对未评价项目的评分,在此基础之上再完成基于用户的协同过滤推荐算法。实验结果表明,该方法确实可提高协同过滤推荐算法的推荐精度。  相似文献   

14.
提出了一种新的基于PCA和K-均值聚类的有监督二叉分裂层次聚类方法PCASHC,用K-均值聚类进行逐次二叉聚簇分裂,选择PCA第一主成分相距最远样本点作为K-均值聚类初始聚簇中心,解决了K-均值聚类初始中心随机选择导致结果不确定的问题,用聚簇样本类别方差作为聚簇样本不纯度控制聚簇分裂水平,避免过拟合,可学习到合适的聚类数目。用四组UCI标准数据集对其进行了10折交叉验证分类误差检验,与另外七种分类器相比说明PCASHC有较高的分类精度。  相似文献   

15.
基于SOM神经网和K-均值算法的图像分割   总被引:2,自引:0,他引:2  
提出了一种基于SOM神经网络和K-均值的图像分割算法。SOM网络将多维数据映射到低维规则网格中,可以有效地用于大型数据的挖掘;而K-均值是一种动态聚类算法,适用于中小型数据的聚类。文中算法利用SOM网络将具有相似特征的象素S点映射到一个2-D神经网上,再根据神经元间的相似性,利用K-均值算法将神经元聚类。文中将该算法用于彩色图像的分割,并给出了经SOM神经网初聚类后,不同K值下神经元聚类对图像分割的结果及与单纯K-均值分割图像进行对比。  相似文献   

16.
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.  相似文献   

17.
针对小文本的Web数据挖掘技术及其应用   总被引:4,自引:2,他引:4  
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。  相似文献   

18.
提出了一种从非确定结构的论坛页面自动获取信息区域的方法.该方法在对K-中心点聚类算法的研究基础上克服了算法中固定簇数的缺陷,并在算法的簇中心距离计算中引入Smith-Waterman改进算法,提高了算法聚类的精确度.通过对大量论坛网页进行信息识别的实验显示,该方法切实可行并且具有较高的准确性.  相似文献   

19.
《计算机工程》2017,(11):210-215
针对采集的无序图像存在图像信息冗余、模糊,不能满足特征检测、目标识别、三维重建等技术质量要求的问题,基于图像质量约束,提出一种无序图像关键帧提取方法。采用不预设K-均值的聚簇算法对无序图像进行自动聚簇。根据相似距离从每簇中提取出离聚簇中心最近的一帧作为关键帧。运用二次模糊处理算法对提取的关键帧进行无参考图像质量评价,其评价值若满足质量要求则保留,否则返回原来的簇中重新进行关键帧的提取与评价,直到提取的关键帧满足质量要求为止。实验结果表明,该方法能较好地滤除冗余图像,提取出满足质量要求的关键帧。  相似文献   

20.
姜大庆  周勇 《计算机科学》2012,39(11):142-144
针对现有个性化推荐服务系统中用户会话聚类算法存在相似性度量准确性低和需要事先确定聚类数目的问 题,对序化的用户访问页面和对应的访问时间信息进行整合,提出一种基于动态规划算法的全序列比对方法来度量用 户会话的相似性。在此基础上,运用改进的NJ W谱聚类算法对用户会话进行自动谱聚类。实验结果表明,算法充分 考虑了用户会话的整体特征和局部信息,较相关比对算法具有更高的聚类性能,可以提高网站个性化推荐服务的效 率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号