摘 要: | 基于深度学习的聚类方法可以自动学习到数据的隐层特征表示,并可方便应用于高维大规模数据集上。传统深度聚类方法更多关注通过深层神经网络去提取数据的隐层特征来提升聚类精度,较少对聚类任务中数据类别的确定性问题进行分析,同时缺乏对施加约束后的离散隐向量分布的分析。提出熵正则化下的变分深度生成聚类模型(VDGC-ER),以变分自编码为基础框架,对连续向量进行高斯混合先验建模,并以高斯混合中的离散隐向量作为类别向量。通过对离散隐向量引入样本熵正则化项增强预测聚类类别的区分度,同时对离散隐向量定义聚合样本熵正则化项以降低聚类不平衡,避免局部最优,并提升生成数据多样性。之后,采用蒙特卡洛采样及重参策略估计VDGC-ER模型的优化目标,并利用随机梯度下降法求解模型参数。最后在MNIST数据集、REUTERS数据集、REUTERS-10K数据集和HHAR数据集上设计了对比实验,验证了VDGCER模型不仅可以生成高质量的样本,而且可以显著提升聚类精度。
|