首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 16 毫秒
1.
李首政  王琪  王力 《现代计算机》2022,(19):63-66+80
微博是当前国内最流行的社交平台之一,微博文本的情感分析有助于进一步分析实现其媒体价值,然而,微博数据庞大且冗余性高,使得文本特征具有较高的稀疏性和局限性,在小样本数据分析上情感判断结果并不理想。因此,提出一种基于支持向量机分类模型的微博数据情感分析方法,首先通过weibo Spider爬取微博数据,进行人工标注构建微博文本数据集,然后联合优化TF-IDF算法和传统词袋,提出一种基于关键词的词袋模型,获取文本特征矩阵以解决微博文本高稀疏、高冗余的问题,最后构建高斯核的支持向量机分类器实现对微博数据的情感分析。实验结果显示,对比朴素贝叶斯、决策树等方法,提出的方法可获得较高的准确率,且在小样本数据上有明显优势。  相似文献   

2.
传统的情感分析方法没有充分地考虑微博自身的特点,在短小、不规范并且充满噪音的微博数据上难以取得良好的效果。结合微博内容本身的特点,提出了适于微博情感分类任务的情感语言模型。并进一步考虑了微博用户和社交网络的特征,基于微博转发网络上情感的传播和用户的信用值对提出的情感语言模型进行改进。在经过标注的新闻事件数据集上的实验结果表明,该方法能够有效地对新闻事件相关微博进行情感分类,在准确率等指标上都要优于传统的基于语言模型的方法,而且加入微博的网络特征和用户信用能明显地提高微博情感分类的效果。  相似文献   

3.
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。  相似文献   

4.
针对现有中文微博观点分类方法对上下文利用不足、数据表示稀疏和特征依赖于人工设计等问题,提出基于卷积神经网络的中文微博观点分类方法.首先利用交互上下文扩充不同主题下的微博内容,使用低维密集向量初始化微博文本.然后构造卷积神经网络模型,实现特征抽取和组合.最后基于softmax分类函数估计中文微博观点类别.实验表明,相比基准方法,文中方法在精确度和F1值上的效果更好.  相似文献   

5.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

6.
情感分类是用于判断数据的情感极性,广泛用于商品评论,微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础提取词汇特征和句法特征, 而忽略了词语间的语义关系。基于此,提出了基于word2vec的跨领域情感分类方法WEEF(Cross-domain Classification based on Word Embedding Extension Feature),选取高质量的领域共现特征作为桥梁,并以这些特征作为种子,基于词向量的相似度计算,将领域专有特征扩充到这些种子中,形成特征簇,从而减小领域间的差异。在SRAA和Amazon产品评论数据集上的实验结果表明方法的有效性,尤其在数据量较大时。  相似文献   

7.
微博短文本是一种典型的用户生成数据(user generate data),蕴含了丰富的用户情感信息,微博短文本情感分类在舆情分析等众多应用中具有较强的实用价值.微博短文本具有简洁不规范、话题性强等特征,现有研究表明基于有监督的深度学习模型能够显著提升分类效果.本文针对广播电视领域微博文本展开情感分类研究,实验对比了多...  相似文献   

8.
针对现有微博主客观分类方法特征冗余度高和未考虑特征选择方法之间的互补关系问题,该文提出了一种基于融合特征的微博主客观分类方法。通过对多种不同特征选择方法进行有效组合,利用特征融合算法对词特征、内容特征、微博特征等基本特征进行了选择和融合,以获取更加有效的主客观分类特征。在新浪微博数据上的实验结果表明,该特征融合算法能够获得比最优单一特征选择方法更好的分类效果。  相似文献   

9.
蒋宗礼  王一大 《计算机科学》2017,44(12):227-231
基于深度学习的特征抽取是目前数据降维问题的研究热点,堆叠自编码器作为一种较为常用的模型,无法对混有噪声及较稀疏的数据进行良好的特征表达。面向微博情感分析,通过在堆叠降噪自编码器的各隐藏层中加入稀疏因子,来解决样本数据所含噪声和稀疏性对特征抽取的影响。使用COAE评测数据集进行的情感分析实验表明所提模型分类的准确率和召回率都有所提高。  相似文献   

10.
为了掌握网上新冠疫情真实舆情,科学地做好疫情舆论引导和防控宣传工作,针对疫情期间部分微博相关话题开展情感分类。利用多种BERT中文预训练模型分别构建情感分类模型,用已标注微博数据进行训练,对未标注微博数据的情绪倾向进行预测,用Macro-F1值对多种模型的性能进行对比。实验结果表明,基于ernie-1.0中文BERT预训练模型构建的情感分类模型得到的Macro-F1值最高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号