首页 | 本学科首页   官方微博 | 高级检索  
     

基于监督学习的中文情感分类技术比较研究
引用本文:唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94.
作者姓名:唐慧丰  谭松波  程学旗
作者单位:1.中国科学院 计算技术研究所 北京 100080;
2. 解放军外国语学院 河南 洛阳 471003
基金项目:国家重点基础研究发展计划(973计划)
摘    要:情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Nave Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明: 采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。

关 键 词:计算机应用  中文信息处理  情感分类  文本分类  语言模型  中文信息处理  
文章编号:1003-0077(2007)06-0088-07
收稿时间:2007-04-20
修稿时间:2007-04-202007-07-18

Research on Sentiment Classification of Chinese Reviews Based on Supervised Machine Learning Techniques
TANG Hui-feng,TAN Song-bo,CHENG Xue-qi.Research on Sentiment Classification of Chinese Reviews Based on Supervised Machine Learning Techniques[J].Journal of Chinese Information Processing,2007,21(6):88-94.
Authors:TANG Hui-feng  TAN Song-bo  CHENG Xue-qi
Affiliation:1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China;
2. PLA University of Foreign Languages Luoyang, Luoyang, Henan 471003, China
Abstract:Sentiment classification is an applied technology with great significance.It can solve information disorder and help people locate the required reviews in the Internet.Up to now,most research of sentiment classification is on English reviews,and little work has been done on Chinese reviews.To find an effective way for the task based on supervised machine learning method,and analyze the influence by term expression and term selection,this paper conducted some experiments under distinct environments,including different feature representation,different feature selection,different categorization technique,different size of features and different size of training data,over Chinese text collections.The experimental results show that sentiment classification will obtain high performance,when using bigrams representation,information gain and SVM classifier,enough training data and plenty of features.
Keywords:computer application  Chinese information processing  sentiment classification  text categorization  language model  Chinese information processing
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号