面向短文本分类的特征提取与算法研究 Research on different feature extraction and algorithms for ultra-short text classification期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向短文本分类的特征提取与算法研究

作者单位：	;1.华北计算机系统工程研究所;2.军事科学院军事科学信息研究中心

摘要：	近年来以大数据为中心的人工智能技术得到蓬勃发展,自然语言处理成为了人工智能时代最突出的前沿研究领域之一。然而,在自然语言处理领域的短文本分类中,不同的特征提取方法与机器学习算法集成时,处理效果差异明显。针对短文本分类精度较低的问题,基于组合的方式和预设的评价指标,通过将不同特征提取方法与不同机器学习算法进行组合,探究其在超短文本分类中的效果以寻求最优组合模型进而获得最佳分类效果。实验结果表明,在所选取的四种最优组合方法中,以词频-逆文件频率为特征提取方法、以逻辑回归为算法的组合模型在公开数据集中取得最好的实验效果,精度为92. 13%,查全率为90. 12%,适合应用于超短文本的分类应用场景。
关键词：	自然语言处理文本分类超短文本
Research on different feature extraction and algorithms for ultra-short text classification

Abstract:

Keywords: