首页 | 本学科首页   官方微博 | 高级检索  
     

基于LDA-wSVM模型的文本分类研究
引用本文:李锋刚,梁钰,GAO Xiao-zhi,ZENGER Kai.基于LDA-wSVM模型的文本分类研究[J].计算机应用研究,2015,32(1).
作者姓名:李锋刚  梁钰  GAO Xiao-zhi  ZENGER Kai
作者单位:1. 合肥工业大学管理学院,合肥230009;阿尔托大学自动化与系统技术系,芬兰FI-00076;教育部过程优化与智能决策重点实验室,合肥230009
2. 合肥工业大学管理学院,合肥230009;教育部过程优化与智能决策重点实验室,合肥230009
3. 阿尔托大学自动化与系统技术系,芬兰FI-00076
基金项目:国家自然科学基金资助项目,南京市科技计划资助项目,国家留学基金
摘    要:SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题.为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-wSVM高效分类算法模型.利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的wSVM分类器进行分类.实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果.实验结果表明,提出的LDA-wSVM模型在文本自动分类中具有很好的优越性能.

关 键 词:文本分类  潜在狄利克雷分布  支持向量机  权重计算  吉普斯抽样

Research on text categorization based on LDA-wSVM model
LI Feng-gang,LIANG Yu,GAO Xiao-zhi,ZENGER Kai.Research on text categorization based on LDA-wSVM model[J].Application Research of Computers,2015,32(1).
Authors:LI Feng-gang  LIANG Yu  GAO Xiao-zhi  ZENGER Kai
Abstract:
Keywords:text categorization  latent Dirichlet allocation (LDA)  support vector machine (SVM)  weight calculation  Gibbs sampling
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号