首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷, 提出基于进化思想的聚类算法及其类簇融合算法, 该算法将K均值聚类算法嵌入进化聚类算法框架中, 通过调整距离倍参, 将数据逐渐划分, 在此过程中自动确定类簇数目, 提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法, 将相似度大的类簇进行融合, 使得k值逐渐趋向真实值. 实验表明, 该方法具有良好的实用性.  相似文献   

2.
针对现有基于划分的聚类算法无法有效聚类簇大小和簇密度有较大差异的非均匀数据的问题,提出一种基于变异系数聚类算法。从聚类优化目标的角度出发,分析了以K-means为代表的划分聚类算法引发“均匀效应”的成因;提出以变异系数度量非均匀数据的分布散度,并基于变异系数定义一种非均匀数据的相异度公式;基于相异度公式定义了聚类目标优化函数,并根据局部优化方法给出聚类算法过程。在合成和真实数据集上的试验结果表明,与K-means、Verify2、ESSC聚类算法相比,本研究提出的非均匀数据的变异系数聚类算法(coefficient of variation clustering for non-uniform data, CVCN)聚类精度提升5%~40%。  相似文献   

3.
针对全局聚簇计算消耗偏高的缺陷,提出了基于局部聚合的自动迭代聚簇算法(LAICA). LAICA首先通过局部聚簇发现网络中连接紧密的节点集,即: 局部簇,然后迭代合并局部簇从而实现对网络的全局聚簇. 实验结果表明,LAICA算法能自动决定簇数并精确分配节点至其所属簇,在真实网络数据集上的聚簇精确度最高达到99.72%.  相似文献   

4.
对聚类结果的理解有助于评价聚类效果,可以据此调整聚类过程,更高效地使用聚类结果.但是,聚类结果的理解仍然是一个尚未解决的问题.提出了基于离群点识别技术分析任意聚类算法的聚类结果,发现了聚类结果属性特征簇的方法;提出一种基于不相似性比值的离群点识别算法.通过对全部数据簇的属性描述进行离群点分析,发现各数据簇的特征属性,实现对聚类结果的理解.所提方法适用于任意聚类算法结果的分析.对UCI的iris、ZOO和Housing数据集的采用X-means、Frozen和DBScan算法的聚类结果进行聚类结果分析,实验表明所提方法较成功地发现了不同聚类算法的属性特征簇,有助于对聚类结果的深入理解.  相似文献   

5.
基于微聚集技术的κ-匿名化MDAV算法没有考虑数据属性的分布情况和数据属性重要性在聚类中的作用,易产生不合理的划分,从而对数据的保护程度与数据可用性之间关系带来影响.针对这个问题本文提出一种基于属性重要度和密度聚类的MDAV改进方法实现对数据集κ-匿名化.首先采用基于密度聚类DENCLUE方法对数据表进行聚集成簇,然后对每个簇采用基于粗糙集属性重要度作为加权距离的权值来计算相似样本,实现对数据集的κ-划分.与MDAV算法比较测试,所改进的方法改善了发布数据的可用性.  相似文献   

6.
针对蚁群聚类算法在聚类结果中出现部分数据划分不够准确的问题,提出蚁群聚类改进算法。对已有蚁群聚类算法的结果簇做调整,从而得到更好的聚类结果。使用KDD Cup 1999入侵检测数据集所作的实验结果表明,聚类效果改进明显,入侵检测率有所提高。  相似文献   

7.
为了解决2014年在Science上提出的快速密度峰值聚类(CFDP)算法存在的自动选择时误选和漏选中心点、簇的数量需要主观先验判断、算法使用受场景局限的缺陷,从半监督角度出发,结合集成学习思想提出半监督约束集成的快速密度峰值聚类(SiCE-CFDP)算法. SiCE-CFDP算法使用相对密度方式度量节点密度,从多角度分析决策图,自动选择候选中心点,并最终自动确定簇的数量.在只标注有限约束关系的前提下,算法能以集成学习指导约束信息的扩充,提升聚类性能.在方法验证中,通过3个人工数据集、4个公开数据集以及1个空调系统数据集进行仿真研究.结果表明,在相同的约束量前提下,针对大样本数据,SiCE-CFDP算法相比其他半监督聚类算法具有更高的聚类精度.  相似文献   

8.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

9.
在聚类过程中结合簇内紧凑度信息和特征权值分布信息,对数据集的划分和各个簇类所在的子空间两方面进行优化。实验结果表明,该算法相比已有的软子空间聚类算法具有更好的聚类效果。  相似文献   

10.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。  相似文献   

11.
聚类算法在对图像进行分割的过程中要面对如何自动确定聚类类别数、如何克服图像特征点分布复杂的流形结构、如何减少算法的运行时间. 针对这些问题, 提出了流形距离的自动免疫克隆聚类图像分割算法. 自动免疫克隆聚类算法可以自动确定聚类个数, 不需要人为事先给定, 并且确保全局收敛; 使用流形距离可以反映空间分布复杂的流形数据; 使用超像素而非像素来降低图像分割的时间等问题. 通过对4组人工数据集和4幅自然图像进行实验, 对比k-means算法、GCUK算法, 结果表明该方法优势比较明显, 具有一定的实用性和先进性.  相似文献   

12.
聚类分析是数据挖掘领域中一种非常有用的技术,它用于从大量数据中寻找隐含的数据分布模式,主要有分割法、层次法、密度法、网格法和模型法等。该文主要讨论数据挖掘中一种基于密度和网格的聚类分析算法及其在客户关系管理中的应用。该算法具有较高的聚类效率而且容易实现,可以发现任意形状的聚类,时间复杂度低,聚类精度高,适用于数据的批量更新。该文还提出增量式聚类技术,它不仅能够利用前期聚类的结果,充分提高聚类分析的效率,而且可以降低维护知识库所带来的巨大开销。实验证明了算法的有效性。  相似文献   

13.
为了提高网站访问效率并得到有价值的个性化网页推荐,针对Web日志的新特性,提出了一种新的基于竞争凝聚的聚类算法.新算法对K-paths聚类算法进行了扩展和改进,按照路径的相似性进行聚类,采用竞争凝聚的思想,自动确定最佳的聚类数目.由于算法考虑了用户的访问兴趣,个性化网页推荐不打扰用户且不需要用户注册信息.利用关联规则得到个性化网页推荐集.用户推荐集和页面推荐集的结合大大提高了推荐效果,具有较好的扩展性.实验结果表明,与其他聚类方法相比该算法具有更高的推荐精度.  相似文献   

14.
论文关注人们研究较少的教学班组织问题,研究了大基础小专业教育模式下选修课教学班组织策略,提出基于模糊聚类构造教学班的方法及结果评价原则。首先分析算法与选用依据,其次建立样本数据,再用算法划分数据,最后设定聚类结果评价原则,实现从个体出发组织教学班集合的思路。  相似文献   

15.
提出了一种基于视觉感知持性及改进的模糊Kohonen聚类网络的图象纹理分割方法,它由2D最佳正交极可分方向滤波器特征提取,特征图象的四叉树平滑,改进的模糊Kohonen聚类网络(IFKCN)特征聚类及边缘确定四部分组成。最后给出了实验结果。  相似文献   

16.
1 Introduction Coal mine fires can be divided into two kinds. One is an exogenous fire; the other is an internally caused fire [1]. Exterior hot objects are the cause of exterior-caused fires, such as fire damp explosions, mechanical friction, an electrical short circuit, joint sparks, etc. Internally caused fires happen in places where is oxygen deficient, such as laneways, goafs and coalholes. Spontaneous combustion of coal may be caused by three necessary conditions: the self- ignition pot…  相似文献   

17.
通过对模糊C-均值聚类算法的研究,用遗传算法的相关知识对其进行优化与改进.并使用著名的IRIS数据集分别对传统的模糊C-均值聚类算法和用遗传算法改进后的模糊C-均值聚类算法进行测试、比较.实验结果表明,用遗传算法改进后的模糊C-均值聚类算法比传统的模糊C-均值聚类算法更加准确、高效.这将为以后的聚类分析研究工作提供一定的帮助.  相似文献   

18.
传统的k_means算法将欧式距离作为最常用的距离度量方法.针对基于欧式距离计算样本点与类间相似度的不足,用"相对距离"代替"绝对距离"可以更好地反映样本的实际分布,提出一种在领域知识未知的情况下基于加权欧式距离的k_means算法.针对公共数据库UCI里的数据实验表明改进后的算法能产生质量较高的聚类结果.  相似文献   

19.
结合基于视觉原理的密度聚类算法对初始化参数不敏感、能发现任意形状的聚类、能够找出最优聚类及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进基于视觉原理的密度聚类算法,使之可以处理含分类属性的数据,进而提出一种两阶段聚类算法。第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用基于视觉原理的密度聚类算法归并初始划分而得到最终聚类。在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的。  相似文献   

20.
针对蚁群算法收敛速度慢、易陷入局部极值等问题,将其与知识库结合,提出了基于知识库的动态蚁群算法.知识库包括算法知识、规则知识和案例知识,存储了定性或定量的算法参数、参数选择方法和历史数据.基于知识库和问题特性,本算法产生初始状态并动态调整参数,在运行过程中根据赌轮法选择算子并适时引入扰动,在不影响搜索过程随机性的前提下较快地收敛于全局最优值.分别用本算法和其他主流算法解决TSPLIB中的Eil51和CHN144实例,比较优化性能、时间性能和鲁棒性3个指标,结果表明本算法均有明显优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号