首页 | 本学科首页   官方微博 | 高级检索  
     

基于无标记Web数据的层次式文本分类
引用本文:何力,谭霜,贾焰,韩伟红.基于无标记Web数据的层次式文本分类[J].智能系统学报,2014(3):330-335.
作者姓名:何力  谭霜  贾焰  韩伟红
作者单位:国防科学技术大学计算机学院
基金项目:国家“863”计划资助项目(2010AA012505,2011AA010702,2012AA01A401,2012AA01A402);国家重点基础研究发展计划资助项目(2013CB329601,2013CB329602);国家自然科学基金资助项目(60933005,91124002);国家科技支撑计划资助项目(2012BAH38B04);国家242信息安全计划资助项目(2011A010)
摘    要:传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。

关 键 词:层次式文本分类  主题层次  无标记数据分类  支持向量机
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号