共查询到18条相似文献,搜索用时 71 毫秒
1.
引入信息熵的CURE聚类算法 总被引:1,自引:0,他引:1
为了提高传统CURE(Clustering Using REpresentatives) 聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中的元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高层、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI数据集和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。 相似文献
2.
增量式CURE聚类算法研究 总被引:3,自引:0,他引:3
聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的更新 .由于数据量大 ,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效 ,因此亟待研究增量式聚类算法 .通过对 CURE聚类算法的改进 ,提出了一种高效的增量式 CU RE聚类算法 .它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题 .实验结果显示本算法是一种有效的增量式聚类算法 相似文献
3.
当CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效率的一种权衡。实验分析表明,改进后的CURE算法具有更高的执行效率,且聚类效果良好。 相似文献
4.
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。CURE算法就是一个典型的代表。本文对CURE算法进行了研究,它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。 相似文献
5.
针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定及代表点分散性差的特点,利用共享邻居密度度量给出了一种去噪方法和使用最大最小距离选取代表点进行改进,从而提出了一种新的原型选择算法PSCURE (improved prototype selection algorithm based on CURE algorithm).基于UCI数据集进行实验,结果表明:提出的PSCURE原型选择算法与相关原型算法相比,不仅能筛选出较少的原型,而且可获得较高的分类准确率. 相似文献
6.
由于传统异常行为识别方法无法对随时变化的异常行为实现精准识别,因此对CURE聚类算法作出改进,针对网络用户异常行为提出了一种新的识别方法。通过改进CURE聚类算法将用户的上网行为分为正常行为簇和异常行为簇,标记正常行为簇,并利用超矩形建模方式识别数据,分析正常行为簇在每个维度上的正常值域,判断其是否包含在所建立的超矩形内。如果在判定用户行为为正常,反之判断其为异常行为。仿真实验选取了学生上网行为数据,分四个时间段注入异常行为数据,结果表明,所提方法识别结果与设定情况一致,没有出现误识别或不识别现象,改进CURE聚类算法的网络用户异常行为识别精度较高,而且具有超高的效率。 相似文献
7.
CURE算法是针对大规模数据聚类算法的典型代表。提出了一种新的算法K-CURE,该方法基于划分思想对CURE算法作了改进,同时给出了在聚类中剔除孤立点的时机选择方法。测试表明,改进后的算法效率明显高于原算法,且聚类效果良好。 相似文献
8.
《计算机应用与软件》2015,(10)
由于社交网络中人物与内容之间错综复杂的关系,如何合理地给用户推荐感兴趣的内容具有十分重要的意义。提出CCVR(Core user for Clustering interesting Vector for Recommend)算法。基于用户的兴趣矩阵,运用改进的K-means算法进行聚类从而推导类兴趣向量,由此预测用户对哪些内容标签感兴趣,从而形成推荐。实验结果证明CCVR算法具有良好的准确性。 相似文献
9.
数据挖掘中聚类算法比较研究 总被引:16,自引:0,他引:16
聚类算法是数据挖掘的核心技术,本文结合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易,更快捷地找到一种适用于特定问题的聚类算法。 相似文献
10.
Web日志作为服务器的记录文件,记录了网站最重要的信息,随着大数据时代数据量的骤然增加,提出一种应对大数据量的数据挖掘算法,更有效地分析日志文件迫在眉睫。用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,论文针对K-Means算法在选取初始中心点上存在的问题,以及在构建用户会话矩阵后存在的孤立点的问题,提出了一种密度参数和KCR算法的优化算法-ICKM算法,该算法利用密度参数最大的对象作为第一中心点,随后从数据集中将此对象删除,利用KCR算法寻找下一个中心点,算法借助MapReduce计算框架,提高大数据环境下的数据处理速度,通过实验表明,ICKM算法在寻找初始中心点以及用户聚类上具有较高的准确度,在处理大数据量的数据集时,有较好的的运算速度。 相似文献
11.
为了解决常规超声波焊缝缺陷识别方法分类模型固定和训练集规模有限而难以体现不同缺陷的差异性和同类缺陷的多态性的问题,结合当今大数据环境下的数据分析策略和基因缺陷识别中匹配的思想,通过主成分分析和CURE聚类算法将缺陷回波信号编码转换成可进行匹配的对象,进而将当前检测缺陷特征与历史检测数据进行匹配,并利用最近邻方法实现了对缺陷历史检测数据集的扩充。通过在R上应用基于基本空位罚分的Smith-Waterman比对算法进行仿真实验验证了该缺陷识别方法是可行的,有效地识别了气孔、夹渣、裂纹、未焊透和未熔合五类常见缺陷,具有较好的识别准确率。 相似文献
12.
随着云计算、大数据以及移动互联网的发展,移动终端用户数据呈现出数据量大、噪声大、动态性及不确定性增强的趋势,影响了移动用户数据聚类准确率与效率。针对上述问题,提出了一种改进的层次聚类算法CURE。该算法将原有算法中抽样处理数据的方式用Map Reduce函数实现并行化处理,同时结合区间数的概念,将移动用户数据用一个区间表示,计算其区间距离来适应移动用户数据的不确定性特点,从而提高聚类效率与准确率。最后利用MIT Reality项目数据集进行仿真,仿真结果表明了该方法的有效性及可行性,为移动用户数据的进一步利用及用户的个性化推荐提供支持。 相似文献
13.
利用支持向量聚类分类准确、参数少、无监督学习的特点,提出一种基于支持向量聚类的图像分割方法。该方法首先对数据集分块并对每块进行SVC聚类,再取其簇内均值作为K均值聚类样本点,进行聚类,最后将得到的结果进行合并。实验证明该方法不但改变了传统分割方法中人为选取阈值参数的作法,而且受目标和噪声影响小,提高了图像分割的鲁棒性和效果,能够有效地进行图像分割。 相似文献
14.
段明秀 《计算机工程与应用》2013,49(9):168-170
CLARANS算法是一种有效且广泛应用的聚类算法,适合发现任意形状的聚类结果,但CLARANS算法在搜索过程中容易陷入局部最优解,从而忽略全局最优解。为了避免CLARANS算法在搜索中心点时易受局部最优解的影响,提出一种将CLARANS算法中的邻接点作为QPSO算法的量子粒子,结点代价作为适应度函数对其进行寻优的改进CLARANS算法。将该改进算法应用于UCI数据集,结果表明该算法聚类效果好、收敛快,算法的稳定性、收敛性及寻优能力都有很大提高。 相似文献
15.
段明秀 《计算机工程与应用》2010,46(22):210-212
介绍了自组织特征映射(SOFM)算法及大规模应用聚类(CLARA)算法的基本思想,提出了一种首先利用SOFM算法对数据集进行粗聚类,确定簇的数目k和神经元的连接权向量,然后从数据集中找出与SOFM算法的神经元的连接权向量最相似的k个代表点作为CLARA算法的k个代表点的初始值的改进CLARA算法。实验结果表明,改进算法具有更高的聚类效率和更好的聚类质量。 相似文献
16.
网络特征数据集中可能包含未知的入侵模式,因此不能预先设定聚类簇的数量,为了在保持聚类分析精度的前提下提高动态聚类算法的效率,提出了可划分聚类数据集的聚类可行解的概念,设计了一种基于人工免疫网络的聚类可行解的获取算法,并对算法获得聚类可行解的条件和概率进行了一定的理论分析。 相似文献
17.
针对FCM算法的缺点,提出了一种基于改进的FCM的增量式聚类方法。该算法首先对模糊C均值算法进行加权,并将权系数归一化,然后将改进的算法与增量式聚类算法结合。改进的方法既提高了FCM算法的性能,避免了FCM算法的缺陷,并能够实现增量式聚类,避免了大量的重复计算,并且不受孤立点的影响。实验表明该算法的有效性。 相似文献
18.
针对LEACH协议中簇头节点能量消耗相对过快,导致部分节点加快死亡、网络能量利用率降低的缺陷,提出一种改进的方法。通过计算理想簇半径,限制簇头的发射功率,从而减少簇头能量的消耗。仿真结果表明,改进后的方法能均衡节点的能耗,有效地延长了整个网络的生存期。 相似文献