共查询到10条相似文献,搜索用时 15 毫秒
1.
针对Deep Web的查询需求,文章提出了改进的对Deep Web数据源的分类方法:在对数据源进行分类时,采用了KNN分类算法来进行。由于KNN分类算法的K值选的过大或者过小都会对分类结果产生影响,因此提出了对K值进行优化的改进的KNN算法。文章利用k-means聚类算法来进行聚类,分别计算取得每个类别的k个距离相近的数据并计算这k个数据到聚类中心的距离,把这个距离的倒数作为该数据点对分类结果的贡献值。对训练集进行聚类后返回聚类中心,根据聚类中心计算权重,从而进一步来计算每个类别中k个最近邻贡献值之和S,选取S最大的类别作为测试数据的类别来进行分类,从而可达到比较好的分类效果。 相似文献
2.
一种基于密度的k-means聚类算法 总被引:1,自引:0,他引:1
针对k-means算法中对初始聚类中心和孤立点敏感的缺点,提出一种基于密度的改进k-means算法.该算法引入信息熵和加权距离,从近邻密度出发,去除孤立点对算法的影响,同时确定初始聚类中心,使得聚类中心相对稳定.实验表明,该算法在准确性、运行效率上均有10%以上的提升. 相似文献
3.
4.
针对k-means算法的聚类结果对初始聚类中心的选取较为敏感、选择聚类数目存在一定的主观性以及离群数据影响的问题,提出了一种结合孤立森林和鲸鱼优化算法的三支k-means算法(iF-W-TWKM)。首先利用孤立森林算法对数据集进行清洗,将数据集划分为两个子集:正常数据子集和异常数据子集。使用正常数据子集进行后续算法步骤,待算法结束后使用得到的聚类中心将异常数据子集中的样本划分到各类簇的边界域。利用鲸鱼优化算法建立以STDI为目标函数的优化问题进行全局寻优实现聚类中心的选取,避免局部最优。实验结果表明,改进后的算法在ACC、AS、DBI指标上整体优于k-means和TK-means,具有更好的聚类表现。 相似文献
5.
6.
本文提出改进的C均值算法.改进算法引入数据场模型,通过故障点在数据场中的势值找出噪声点并踢出,利用故障点在数据场中呈现的自然聚集特性选择初始聚类中心指导FCM聚类.仿真实验的结果表明,改进算法弥补了FCM算法的缺陷,提高了聚类的效率和准确性,在故障诊断过程中有很好的表现. 相似文献
7.
K-means算法因其简单、易理解、速度快等优点在众多领域得到广泛的应用,然而该算法的K值选取,初始聚类点的选取和对于孤立点的处理等都会影响最终聚类结果.根据k-means算法目前的应用研究现状,针对这些缺点对算法进行改进,最后指出了改进中存在的一些问题,并指出未来的研究方向. 相似文献
8.
9.
传统K-means算法的初始聚类中心从数据集中随机抽取,聚类结果会随着初始聚类中心的不同而产生波动。针对这一问题,提出一种基于密度的优化初始聚类中心选取算法,通过计算每个数据对象的密度参数和邻域距离,选取k个处于高密度分布的点作为初始聚类中心。在聚类类别数给定的情况下,使用标准的UCI数据库进行对比实验,发现改进后的算法较传统算法有相对较高的准确率和稳定性。 相似文献