摘 要: | 聚类算法在多种领域中发挥着统计分析数据的作用,是常见的机器学习方法之一。在针对只包含少量成对约束信息的数据时,以往的算法导致对此类先验信息利用不足。为此提出一种使用成对约束信息来提升聚类效果的算法。因为不能链接约束具有非传递性,成对约束中的隐藏信息一直未充分利用,论文将成对约束信息标签化以用来进行标签传播。此外,在只有成对约束信息时,以往的半监督聚类算法在对构造图的方法过于简单,会有离群数据影响构造图的情况。在学习图时,通过利用自适应图方法构建相似矩阵来保持数据的局部结构,并进一步利用样本自表征方法降低噪音点的影响,提升鲁棒性。最后在聚类方法上,运用拉普拉斯矩阵秩约束直接得到精确的聚类结果,避免以往谱聚类算法中会出现次优化问题。实验结果表明,通过在六个UCI数据集上的大量的实验,证明了文章提出的算法在调整兰德系数(ARI),聚类准确率(ACC)与标准化互信息(NMI)等多个指标下的聚类效果都优于其他六个经典的聚类算法。
|