首页 | 本学科首页   官方微博 | 高级检索  
     

使用机器学习方法进行新闻的情感自动分类
引用本文:徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100.
作者姓名:徐军  丁宇新  王晓龙
作者单位:哈尔滨工业大学 深圳研究生院 智能计算研究中心,广东 深圳 518055
基金项目:国家高技术研究发展计划(863计划);国家自然科学基金
摘    要:本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。

关 键 词:计算机应用  中文信息处理  文本分类  情感分析  贝叶斯  最大熵  
文章编号:1003-0077(2007)06-0095-06
收稿时间:2007-04-10
修稿时间:2007-04-102007-07-13

Sentiment Classification for Chinese News Using Machine Learning Methods
XU Jun,DING Yu-xin,WANG Xiao-long.Sentiment Classification for Chinese News Using Machine Learning Methods[J].Journal of Chinese Information Processing,2007,21(6):95-100.
Authors:XU Jun  DING Yu-xin  WANG Xiao-long
Affiliation:Intelligence Computing Research Center, Shenzhen Graduate School,
Harbin Institute Technology, Shenzhen, Guangdong 518055
Abstract:In this paper,we study how to apply machine learning techniques to solve sentiment classification problems.The main task of sentiment classification is to determine whether news or reviews is negative or positive.Naive Bayes and Maximum Entropy classification are used for the sentiment classification of Chinese news and reviews.The experimental results show that the methods we employed perform well.The accuracy of classification can achieve about 90%.Moreover,we find that selecting the words with polarity as features,negation tagging and representing test documents as feature presence vectors can improve the performance of sentiment classification.Conclusively,sentiment classification is a more challenging problem.
Keywords:computer application  Chinese information processing  text categorization  sentiment analysis  Naive Bayes  maximum entropy
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号