首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于随机森林的多视角文本分类方法
作者姓名:田宝明  戴新宇  陈家骏
作者单位:南京大学 计算机软件新技术国家重点实验室,南京大学 计算机科学与技术系, 江苏 南京 210093
基金项目:国家高技术研究发展计划(863计划),国家自然科学基金,国家社科资金资助项目 
摘    要:基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA (Latent Dirichlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。 对于两类特征分别构造随机森林,最终分类结果通过投票机制决定。在标准数据集上的实验结果表明,相比只使用一种文本特征的方法,我们的方法可以有效地结合两类特征,提高文本分类的性能。

关 键 词:计算机应用  中文信息处理  文本分类  向量空间模型  隐含狄利克雷分配  集成分类  随机森林  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号