一种基于词义降维的主题特征选择算法 |
| |
作者单位: | ;1.河北大学电子信息工程学院;2.河北大学数学与计算机学院 |
| |
摘 要: | 在文本特征选择中,由于词语概率空间和词义概率空间的差异,完全基于词语概率的主题特征往往不能很好地表达文章的思想,也不利于文本的分类。为达到主题特征更能反映文章思想这一目的,提取出一种基于词义降维的主题特征选择算法。该算法通过在词林基础上构建"同义词表",作为词到词义的映射矩阵,构造一个基于词义之上的概率分布,通过LDA提取文本特征用于分类,分类准确率得到了明显提高。实验表明,基于此种方法所建立的主题模型将有更强的主题表示维度,通过该算法基本解决文本特征提取中词语概率和词义概率之间差异的问题。
|
关 键 词: | LDA 主题模型 主题表示维度 |
A THEME FEATURE SELECTION ALGORITHM BASED ON WORDS MEANING DIMENSION REDUCTION |
| |
Abstract: | |
| |
Keywords: | |
|
|