首页 | 本学科首页   官方微博 | 高级检索  
     

基于不平衡数据的中文情感分类
引用本文:王中卿,李寿山,朱巧明,李培峰,周国栋. 基于不平衡数据的中文情感分类[J]. 中文信息学报, 2012, 26(3): 33-38
作者姓名:王中卿  李寿山  朱巧明  李培峰  周国栋
作者单位:苏州大学 计算机科学与技术学院,江苏 苏州 215006
基金项目:国家自然科学基金资助项目(90920004,61070123,61003153,60970056);模式识别国家重点实验室开放课题基金资助项目;江苏省自然科学基金资助项目(BK2008160);江苏省高校自然科学重大基础研究资助项目(08KJA520002)
摘    要:
近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。该文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。

关 键 词:情感分类  不平衡分类  集成学习  

Chinese Sentiment Classification on Imbalanced Data Distribution
WANG Zhongqing , LI Shoushan , ZHU Qiaoming , LI Peifeng , ZHOU Guodong. Chinese Sentiment Classification on Imbalanced Data Distribution[J]. Journal of Chinese Information Processing, 2012, 26(3): 33-38
Authors:WANG Zhongqing    LI Shoushan    ZHU Qiaoming    LI Peifeng    ZHOU Guodong
Affiliation:School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China
Abstract:
Sentiment classification has undergone significant development in recent years.However,most existing studies assume the balance between the numbers of negative and positive samples,which may not be true in reality.In this paper,we collect product reviews from four domains and find that the positive samples are much more than negative ones.To handle the imbalanced classification in Chinese sentiment classification,we propose a novel approach to combine both sampling and classification algorithms under an ensemble learning framework.Evaluation across different domains shows the proposed approach performs better than several existing imbalanced classification methods.
Keywords:sentiment classification  imbalanced classification  ensemble learning
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号