首页 | 本学科首页   官方微博 | 高级检索  
     

基于 PTM潜在 DirichIet 分配的少量标记样本文本分类
引用本文:赵丽,齐兴斌,李雪梅,田涛.基于 PTM潜在 DirichIet 分配的少量标记样本文本分类[J].计算机应用研究,2015(5).
作者姓名:赵丽  齐兴斌  李雪梅  田涛
作者单位:1. 山西大学 计算机工程系,太原 030013; 北京航空航天大学 计算机学院,北京 100191
2. 山西大学 计算机工程系,太原,030013
3. 北京师范大学教育信息技术协同创新中心,北京,100875
基金项目:国家自然科学基金资助项目(61202163);山西省自然科学基金资助项目(2013011017-2);山西省科技攻关项目
摘    要:针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在 Dirichlet 分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中提取术语;再利用潜在 Dirichlet 分配模型进行关系学习,构建基于图的分类器完成分类。在公开的 Reuters-21578资源库上的分类实验评估了该方法的有效性,相比分类效果较好的支持向量机,该方法在大部分情况下能够取得更高的分类精度。

关 键 词:文本分类  术语提取  图构建  概率主题模型  少量标记样本  潜在  Dirichlet  分配

Text classification with a few labeled samples based on latent Dirichlet allocation using PTM
ZHAO Li,QI Xing-bin,LI Xue-mei,TIAN Tao.Text classification with a few labeled samples based on latent Dirichlet allocation using PTM[J].Application Research of Computers,2015(5).
Authors:ZHAO Li  QI Xing-bin  LI Xue-mei  TIAN Tao
Abstract:
Keywords:texte classification  term extraction  graph construction  probabilistic topic model  a few labeled samples  la-tent Dirichlet allocation
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号