首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 375 毫秒
1.
微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-of-Words,BoW)、基于同义词典的词袋特征、考虑词与立场标签共现关系的特征)和文本深度特征(词向量、字向量)。之后使用支持向量机,随机森林和梯度提升决策树对上述特征进行立场分类。最后,结合所有特征分类器进行后期融合。实验表明,文中提出的特征对于不同话题下的微博立场检测的结果都有提升,且文本深度特征和基于词频统计的特征能够捕捉到文本的不同信息,在立场检测中是互补的。基于本文方法的微博立场检测系统在2016年自然语言处理与中文计算会议(NLPCC2016)的中文微博立场检测评测任务中取得了最好的结果。  相似文献   

2.
微博立场检测是判断一段微博文本针对某一目标话题所表达的观点态度是支持、中立或反对.随着社交媒体的发展,从海量的微博数据中挖掘其蕴含的立场信息成为一项重要的研究课题.但是现有的方法往往将其视作情感分类任务,没有对目标话题和微博文本之间的关系特征进行分析,在基于深度学习的分类框架上,扩展并提出了基于Bert-Condition-CNN的立场检测模型,首先为提高话题在文本中的覆盖率,对微博文本进行了主题短语的提取构成话题集;然后使用Bert预训练模型获取文本的句向量,并通过构建话题集和微博文本句向量之间的关系矩阵Condition层来体现两个文本序列的关系特征;最后使用CNN对Condition层进行特征提取,分析不同话题对立场信息的影响并实现对立场标签的预测.该模型在自然语言处理与中文计算会议(NLPCC2016)的数据集中取得了较好的效果,通过主题短语扩展后的Condition层有效地提升了立场检测的准确度.  相似文献   

3.
针对海量社交网络数据,挖掘其中蕴含的立场信息逐渐成为一个重要的研究方向。第五届自然语言处理与中文计算会议(Nlpcc2016)提出了针对中文微博的立场检测任务。已有的立场检测任务工作中,研究者主要通过手工构建特征工程,添加情感词典和专家知识等方式挖掘语义特征,但这种方式需要花费大量人力在特征设计上。另一些研究者将深度学习应用于立场检测领域,但是没有考虑到句子中不同词对立场倾向有不同影响力。注意力机制由于能够凸显出有价值的特征常常被用于优化神经网络模型。提出一种基于注意力的Bi LSTMCNN中文微博立场检测方法,首先使用双向(Bi-directional)长短期记忆神经网络(LSTM)和卷积神经网络(CNN)分别获取文本表示向量和局部卷积特征,然后通过注意力机制(Attention Mechanisms)在局部卷积特征中加入影响力权重信息,最终将两种特征融合进行分类。针对Nlpcc语料的实验表明,该方法取得了较好的立场检测效果,注意力机制的添加可以有效地提升立场检测的准确性。  相似文献   

4.
立场分析旨在发现用户对特定目标对象所持的观点态度。针对现有方法往往难以克服标注数据匮乏及微博文本中大量未登录词等导致的分词误差的问题,提出了基于迁移学习及字、词特征混合的立场分析方法。首先,将字、词特征输入深度神经网络,级联两者隐藏层输出,复现由分词错误引起的缺失语义信息;然后,利用与立场相关话题的辅助数据训练话题分类模型(父模型),得到更为有效的句子特征表示;接着,以父模型参数初始化立场分析模型(子模型),从辅助数据(话题分类数据)迁移知识能加强句子的语义表示能力;最后,使用有标注数据微调子模型参数并训练分类器。在NLPCC-2016任务4的语料上进行实验,F1值达72.2%,优于参赛团队的最佳成绩。实验结果表明,该方法可提高立场分类性能,同时缓解分词误差带来的影响。  相似文献   

5.
为提高微博情感分类识别的正确率,以网络微博数据作为研究对象,提出一种基于图的情感基准词选择方法。结合知网相似度知识,构建图模型,以图中节点中介性的值为依据,选择出高质量和高覆盖率的情感基准词。根据得到的基准词构建情感分析中所需的情感词典,并给出情感词极性。同时将情感词应用于挖掘短句情感特征,加入到传统支持向量机(SVM)模型中,对微博句子挖掘更多的语义信息从而获取更合理的语义合成函数,捕捉句子情感变化以更好地把握微博整句情感。采用具有特征约束特性的条件随机场(CRF)模型对短句进行分类。实验结果验证了CRF模型短句分类的有效性,与多种特征的SVM分类方法相比,在不同数据集上具有更好的分类效果。  相似文献   

6.
针对当前立场检测任务中目标短语在文本中隐式出现导致分类效果差的问题,提出一种基于异核卷积双注意机制(HCDAM)的立场检测模型。采用三段式策略,为提高目标短语和文本的特征表示能力,采用Bert预训练模型获得基于字符级的包含上下文的词向量表示;为提高隐式目标短语的抽取能力,采取异核卷积注意模式获取含不同位置和语义信息的卷积特征;通过再注意力机制利用显隐式目标短语对文本进行立场信息特征抽取,通过softmax分类器进行分类。基于NLPCC语料的实验结果表明,通过采用异核卷积双注意策略,相比Bert-Condition-CNN模型,在总数据集上平均分类准确率提高了0.108,在5个话题上分类准确率分别提高了0.146、0.046、0.133、0.047、0.056。  相似文献   

7.
反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LSTM模型分别对句子和语言特征进行表示,两者的交互注意被用于获取句子的各个词和符号的注意力权重向量。该权重向量作用于句子的表示,用于构建一个强化语言特征的反问句识别模型。在中文微博数据集上的实验结果表明,提出的方法与之前的工作相比,反问句识别性能有显著提升。  相似文献   

8.
对微博话题的立场进行精确研判是短文本挖掘的重点之一。文章提出了一种基于主题相关性对微博分类研判的方法,旨在识别网民对于微博话题的立场,是支持还是反对。微博和主题的相关性大小,常常会导致其文本特征有较大差异。文章首先利用关键词提取技术和互信息计算方法获取话题主题词集,接着对话题语料按是否与主题相关进行分类,然后分别采用机器学习和词典规则两种方法进行研判,综合得到话题的立场。实验结果表明,主题相关文本采用机器学习而主题无关文本采用词典规则的方法可以大大提高研判准确率。以此为基础,文章构建了一个微博话题立场研判模型,可用于政府有关部门监测互联网舆情以及企业评估产品市场等方面。  相似文献   

9.
反问是一种带有强烈情感色彩的表达方式,对其进行自动识别将提升隐式情感分析的整体效率。针对汉语反问句识别问题,该文分析了反问句的句式特点,将反问句的句式结构融入到卷积神级网络的构建中,提出一种融合句式结构的卷积神经网络的反问句识别方法。首先利用置信度大于70%的反问句的特征词、序列模式,对大规模未被标注的微博语料进行初步筛选,获取大量伪反问句。然后通过多个卷积核分别对句子的词向量和反问句的特征进行抽取,获取句子语义特征和反问词特征,将两者共同作用生成句子的表示。最后利用softmax分类器实现句子的分类。实验结果表明,利用该方法对微博中反问句的识别准确率、召回率和F1值分别达到了89.5%、84.2%和86.7%。  相似文献   

10.
微博情感倾向性分析旨在发现用户对热点事件的观点态度。由于微博噪声大、新词多、缩写频繁、有自己的固定搭配、上下文信息有限等原因,微博情感倾向性分析是一项有挑战性的工作。该文主要探讨利用卷积神经网络进行微博情感倾向性分析的可行性,分别将字级别词向量和词级别词向量作为原始特征,采用卷积神经网络来发现任务中的特征,在COAE2014任务4的语料上进行了实验。实验结果表明,利用字级别词向量及词级别词向量的卷积神经网络分别取得了95.42%的准确率和94.65%的准确率。由此可见对于中文微博语料而言,利用卷积神经网络进行微博情感倾向性分析是有效的,且使用字级别的词向量作为原始特征会好于使用词级别的词向量作为原始特征。  相似文献   

11.
Stance detection aims to automatically determine whether the author is in favor of or against a given target. In principle, the sentiment information of a post highly influences the stance. In this study, we aim to leverage the sentiment information of a post to improve the performance of stance detection. However, conventional discretemodels with sentimental features can cause error propagation. We thus propose a joint neural network model to predict the stance and sentiment of a post simultaneously, because the neural network model can learn both representation and interaction between the stance and sentiment collectively. Specifically, we first learn a deep shared representation between stance and sentiment information, and then use a neural stacking model to leverage sentimental information for the stance detection task. Empirical studies demonstrate the effectiveness of our proposed joint neural model.  相似文献   

12.
在篇章级的情感分类中由于篇章级文本较长,特征提取较普通句子级分析相对较难,大多方法使用层次化的模型进行篇章文本的情感分析,但目前的层次化模型多以循环神经网络和注意力机制为主,单一的循环神经网络结构提取的特征不够明显。本文针对篇章级的情感分类任务,提出一种层次化双注意力神经网络模型。首先对卷积神经网络进行改进,构建词注意力卷积神经网络。然后模型从两个层次依次提取篇章特征,第一层次使注意力卷积神经网络发现每个句子中的重要词汇,提取句子的词特征,构建句子特征向量;第二层次以循环神经网络获取整个篇章的语义表示,全局注意力机制发现篇章中每个句子的重要性,分配以不同的权重,最后构建篇章的整体语义表示。在IMDB、YELP 2013、YELP 2014数据集上的实验表明,模型较当前最好的模型更具优越性。  相似文献   

13.
王伟  赵尔平  崔志远  孙浩 《计算机应用》2021,41(8):2193-2198
针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。  相似文献   

14.
Sentiment analysis, a hot research topic, presents new challenges for understanding users’ opinions and judgments expressed online. They aim to classify the subjective texts by assigning them a polarity label. In this paper, we introduce a novel machine learning framework using auto-encoders network to predict the sentiment polarity label at the word level and the sentence level. Inspired by the dimensionality reduction and the feature extraction capabilities of the auto-encoders, we propose a new model for distributed word vector representation “PMI-SA” using as input pointwise-mutual-information “PMI” word vectors. The resulted continuous word vectors are combined to represent a sentence. An unsupervised sentence embedding method, called Contextual Recursive Auto-Encoders “CoRAE”, is also developed for learning sentence representation. Indeed, CoRAE follows the basic idea of the recursive auto-encoders to deeply compose the vectors of words constituting the sentence, but without relying on any syntactic parse tree. The CoRAE model consists in combining recursively each word with its context words (neighbors’ words: previous and next) by considering the word order. A support vector machine classifier with fine-tuning technique is also used to show that our deep compositional representation model CoRAE improves significantly the accuracy of sentiment analysis task. Experimental results demonstrate that CoRAE remarkably outperforms several competitive baseline methods on two databases, namely, Sanders twitter corpus and Facebook comments corpus. The CoRAE model achieves an efficiency of 83.28% with the Facebook dataset and 97.57% with the Sanders dataset.  相似文献   

15.
考虑到同类型的情感句往往具有相同或者相似的句法和语义表达模式,该文提出了一种基于情感句模的文本情感自动分类方法。首先,将情感表达相关句模人工分为3大类105个二级分类;然后,设计了一种利用依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模。最后,通过对输入句进行情感句模分类实现文本情感分类。在NLP&CC2013中文微博情绪分类评测语料及RenCECps博客语料的实验结果显示,该文提出的分类方法准确率显著高于基于词特征支持向量机分类器。  相似文献   

16.
方面级情感分析是情感分析任务中更细粒度的子任务, 目的是预测给定方面的情感倾向. 目前方面级情感分析任务大多采用一定的神经网络提取句子的语义信息, 之后进行情感极性预测. 本文在此基础上, 提出了基于语句结构信息的语义表示方法, 即融合语句词性序列中的句型结构信息. 本文分别使用两个Bi-LSTM进行语义特征和语句结构特征的提取, 构建成基于句型结构的语义表示. 然后将给定的方面级向量化, 嵌入到基于语句结构的语义表示中, 再经过Softmax层进行情感极性分类. 实验证明, 采用基于语句结构信息的语义表示方法进行方面级情感分析的效果更佳.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号