首页 | 本学科首页   官方微博 | 高级检索  
     

基于宏特征融合的文本分类
引用本文:王丹丹,陈清财,王晓龙,汤步洲.基于宏特征融合的文本分类[J].中文信息学报,2017,31(2):92-98.
作者姓名:王丹丹  陈清财  王晓龙  汤步洲
作者单位:1.深圳信息职业技术学院 数字媒体学院,广东 深圳 518172;
2.哈尔滨工业大学深圳研究生院 网络智能计算重点实验室,广东 深圳 518055
基金项目:国家自然科学基金(61173075,61272383);深圳市基础重点项目(JC201005260118A);深圳市战略性新兴产业发展专项(ZDSY20120613125401420,JCYJ20120613151940045);深圳科技研发资金(JC201005260175A);贵州省科学技术基金资助项目(黔科合J字[2013]2335号)
摘    要:宏特征(即文档级特征)抽取方法是文本分类中一类典型的特征抽取方法,可以分为有监督宏特征抽取和无监督宏特征抽取。这两类宏特征抽取方法均能提高文本分类的性能。但是,同时使用两类宏特征的情况还没有被研究。该文研究了有监督宏特征和无监督宏特征融合对文本分类性能的影响。具体来讲,研究了两种有监督宏特征抽取方法,与三种无监督宏特征抽取方法,即K-means、LDA和DBN,相互融合的情况。在两个公开语料库Reuters-21578和20-Newsgroup以及一个自动构建的语料库上的对比实验表明,有监督和无监督宏特征之间的融合比单独使用有监督或者无监督宏特征的方式对文本分类更加有效。

关 键 词:文本分类  有监督宏特征抽取  无监督宏特征抽取  特征融合  

Text Categorization Based on Macro Feature Fusion
WANG Dandan,CHEN Qingcai,WANG Xiaolong,TANG Buzhou.Text Categorization Based on Macro Feature Fusion[J].Journal of Chinese Information Processing,2017,31(2):92-98.
Authors:WANG Dandan  CHEN Qingcai  WANG Xiaolong  TANG Buzhou
Affiliation:School of Digital Media, Shenzhen Institude of Information Technology, Shenzhen, Guangdong 518172, China;
Key Laboratory of Network Oriented Intelligent Computation, Harbin Institute of
Technology Shenzhen Graduate School, Shenzhen, Guangdong 518055, China
Abstract:Macro feature extraction methods are a typical feature extraction methods for text categorization. These methods fall into two categories: supervised macro feature extraction and unsupervised macro feature extraction. In this paper, we study the effect of the fusion of the two categories of macro features, which are both proved positive to text categorization. In particular, two types of supervised macro features and three types of unsupervised macro features are taken into account. Experiments conducted on three corpora, including two public corpora (i.e., Reuters-21578 and 20-Newsgroup) and one automatically constructed corpus, show that the fusion of supervised and unsupervised macro features is more effective than using any of them individually.
Keywords:text classification  supervised macro feature extraction  unsupervised macro feature extraction  feature fusion  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号