首页 | 本学科首页   官方微博 | 高级检索  
     

LSI_LDA:一种混合特征降维方法*
作者姓名:史庆伟  从世源  唐晓亮
作者单位:辽宁工程技术大学 软件学院,辽宁工程技术大学 软件学院,辽宁工程技术大学 软件学院
基金项目:国家自然科学基金青年科学(61401185);辽宁省教育厅科学研究一般项目(L2013133)
摘    要:LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对它的不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特征集中关键的特征,最后通过LDA模型在更小、更切题的文档子集上采样建模。对复旦大学中文语料进行文本分类,新方法的分类精度较单独使用LDA模型的效果提高了1.50%,实验表明提出的LSI_LDA模型在文本分类中有更好的分类性能。

关 键 词:文本分类   特征降维  潜在语义分析  潜在狄利克雷分配  
收稿时间:2016-04-27
修稿时间:2017-04-14
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号