摘 要: | 文本特征提取对短文本聚类效果至关重要,针对传统的基于统计学习的特征提取方法仅停留在特征词的层面,无法表达文本上下文语义特征的问题。基于此,笔者提出了一种基于word2vec词向量和卷积神经网络(Convolutional NeuralNetworks,CNN)的文本特征提取方法用于短文本聚类,首先利用word2vec工具训练大规模语料库中的词语,以低维向量的形式表征,然后利用CNN提取文本的深层语义特征,得到能够用于聚类的文本特征向量。实验结果表明,该方法可以有效提升短文本聚类的准确性。
|