共查询到14条相似文献,搜索用时 62 毫秒
1.
基于Tri-Training和数据剪辑的半监督聚类算法 总被引:2,自引:1,他引:2
提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能. 相似文献
2.
3.
基于核的K-均值聚类 总被引:17,自引:0,他引:17
将核学习方法的思想应用于K-均值聚类中,提出了一种核K-均值聚类算法,算法的主要思想是:首先将原空间中待聚类的样本经过一个非线性映射,映射到一个高维的核空间中,突出各类样本之间的特征差异,然后在这个核空间中进行K-均值聚类。同时还将一种新的核函数应用于核K-均值聚类中以提高算法的速度。为了验证算法的有效性,分别利用人工和实际数据进行K-均值聚类和核K-均值聚类,实验结果显示对于一些特殊的类分布数据,核K-均值聚类比K-均值聚类具有更好的聚类效果。 相似文献
4.
基于核自调整进行半监督聚类 总被引:2,自引:1,他引:1
半监督聚类是通过在无监督算法的基础上加入有限的背景知识来实现的。现有的基于核的半监督聚类算法对于核参数的设定仍需人工进行调节,其选择值会极大地影响最终的结果。通过将关联加入到聚类目标函数中,在聚类过程反复地优化高斯核参数,自动确定最佳RBF核,并将最佳核计算与SSKK算法结合起来得到SSKKOK算法。实验结果表明,该算法能在利用基于核半监督聚类算法功能的基础上自动设置有关的参数。 相似文献
5.
提出一种选择最富信息数据并予以标记的基于主动学习策略的半监督聚类算法。首先, 采用传统K-均值聚类算法对数据集进行粗聚类; 其次, 根据粗聚类结果计算出每个数据隶属于每个类簇的隶属度, 筛选出满足最大与次大隶属度差值小于阈值的候选数据, 并从中选择差值较小的数据作为最富信息的数据进行标记; 最后, 将候选数据集合中未标记数据分组到与每类已被标记数据平均距离最小的类簇中。实验表明, 提出的主动学习策略能够很好地学习到最富信息数据, 基于该学习策略的半监督聚类算法在测试不同数据集时均获得了较高的准确率。 相似文献
6.
提出一种基于分类的半监督聚类算法。充分利用了数据集中的少量标记对象对原始数据集进行粗分类,在传统k均值算法的基础上扩展了聚类中心点的选择方法;用k-meansGuider方法对数据集进行粗聚类,在此基础上对粗聚类结果进行集成。在多个UCI标准数据集上进行实验,结果表明提出的算法能有效改善聚类质量。 相似文献
7.
一种基于谱聚类的半监督聚类方法 总被引:6,自引:1,他引:6
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。 相似文献
8.
基于半监督学习的K-均值聚类算法研究 总被引:1,自引:3,他引:1
定义了一个欧氏距离和监督信息相混合的新的最近邻计算函数,从而将K-均值算法很好地应用于半监督聚类问题。针对K-均值算法初始质心敏感的缺陷,用粒子群算法的搜索空间模拟聚类的欧氏空间,迭代搜索找到较优的聚类质心,同时提出动态管理种群的策略以提高粒子群算法搜索效率。算法在UCI的多个数据集上测试都得到了较好的聚类准确率。 相似文献
9.
成对约束的属性加权半监督模糊核聚类算法 总被引:1,自引:0,他引:1
在机器学习和数据挖掘中,带约束的半监督聚类是一个活跃的研究领域。为了利用约束条件获得表现更优异的聚类效果,提出了一种成对约束的属性加权半监督聚类算法,该方法充分考虑了属性间的不平衡性,在传统模糊聚类算法中融合半监督学习机制并通过Mercer核把原始的观察空间映射到高维特征空间。实验结果表明,该算法优于相似的成对约束的竞争群算法(PCCA)。 相似文献
10.
11.
将模糊K-均值聚类算法与核函数相结合,采用基于核的模糊K-均值聚类算法来进行聚类。核函数隐含地定义了一个非线性变换,将数据非线性映射到高维特征空间来增加数据的可分性。该算法能够解决模糊K-均值聚类算法对于非凸形状数据不能正确聚类的问题。 相似文献
12.
魏小涛 《计算机工程与应用》2009,45(36):99-100
提出一个基于集对分析的半监督ISODATA聚类算法,用于网络异常检测。在三方面进行了改进:首先,算法能够直接处理字符数字混合属性的数据,并使用集对分析来计算数据记录之间的距离;其次,算法同时处理有标号和无标号的数据,并利用少量的有标号数据来指导算法的分裂过程;最后,将算法的输入参数减少到只有两个。在KDD99入侵检测数据集上的实验结果显示,该算法获得了95.62%的检测率和1.29%的误报率。 相似文献
13.
针对K-means聚类算法容易陷入局部最优、不能处理边界对象及线性不可分的缺点,提出一种基于粒子群的粗糙核聚类算法。该算法通过Mercer核将输入样本空间中的样本映射到高维空间,使样本变得线性可分,并结合粗糙集的思想,通过动态改变上下近似集的权重因子对边界对象进行有效处理,同时采用reliefF方法对样本属性进行加权处理,以解决混合数据的聚类问题,最后利用粒子群算法防止算法陷入局部最优。仿真实验表明,相对于其他改进算法,该算法具有较高的正确率和较短的收敛时间,并进一步验证了该算法的鲁棒性和稳定性,具有一定的实用价值。 相似文献
14.
基于最近邻原则的半监督聚类算法 总被引:1,自引:0,他引:1
基于最近邻原则的半监督聚类算法是以基于最近邻的聚类中心求解算法为基础的。在基于最近邻的聚类中心求解算法中,用相似度矩阵记录数据点间的相似程度,由目标函数最小值求得聚类的类中心点。在基于最近邻原则的半监督聚类算法中,根据约束信息来调整相似度矩阵G,数据点间相似度的变化引起了数据点间加权欧式距离的变化,由此更新加权欧式距离矩阵M,最后执行聚类中心求解算法完成聚类。大量实验结果表明,该算法能获得较好的聚类结果。 相似文献