基于卡方特征选择和LDA主题模型的中文短文本分类 |
| |
引用本文: | 郑诚,熊大康,刘倩倩.基于卡方特征选择和LDA主题模型的中文短文本分类[J].数字社区&智能家居,2014(13):3182-3185. |
| |
作者姓名: | 郑诚 熊大康 刘倩倩 |
| |
作者单位: | 安徽大学计算机科学与技术学院; |
| |
摘 要: | 中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。
|
关 键 词: | 短文本分类 特征选择 主题模型 |
本文献已被 CNKI 等数据库收录! |
|