摘 要: | 互联网的飞速发展使得新闻数据呈爆炸增长的趋势。如何从海量新闻数据中获取当前热门事件的主题演化过程成为文本分析领域研究的热点。然而,常用的传统动态聚类模型处理大规模数据集时灵活性差且效率低下,现有的深度文本聚类模型则缺乏一种通用的方法捕捉时间序列数据的主题演化过程。针对以上问题,设计了一种深度动态文本聚类(DDDC)模型。该模型以现有的深度变分推断算法为基础,可以在不同时间片上捕捉融合了前置时间片内容的主题分布,并通过聚类从这些分布中获取事件主题的演化过程。在真实新闻数据集上的实验结果表明,在不同的数据集上,与动态主题模型(DTM)、变分深度嵌入(VaDE)等算法相比,DDDC模型在各时间片的聚类精度均至少提升了4个百分点,且归一化互信息(NMI)至少提高了3个百分点,验证了DDDC模型的有效性。
|