方差和词向量用于文本降维的研究 |
| |
作者姓名: | 王甜甜 康宇 |
| |
作者单位: | 中国科学技术大学 自动化系, 合肥 080602,中国科学技术大学 自动化系, 合肥 080602 |
| |
基金项目: | 国家高技术研究发展计划(863)(2014AA06A503);国家自然科学基金(61422307) |
| |
摘 要: | 文本分类中的高维数据和噪声一直是影响文本分类准确率的主要因素,特征选择和特征提取是降维和去噪的主要手段.本文提出根据词的类间概率分布方差和文档分布方差改进TF-IDF的特征选择方法(VAR-TF-IDF),调整Word2vec中的CBOW+HS词向量训练框架,用特征词词向量的叠加作为文本的特征向量,有效地提高了文本分类的准确率和召回率.实验算例证明了所提方案的有效性.
|
关 键 词: | 方差 词向量 文本分类 衰减系数 |
收稿时间: | 2016-03-07 |
修稿时间: | 2016-04-21 |
|
| 点击此处可从《计算机系统应用》浏览原始摘要信息 |
|
点击此处可从《计算机系统应用》下载免费的PDF全文 |
|