首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
基于Stacking组合分类方法的中文情感分类研究   总被引:3,自引:1,他引:2  
情感文本分类(简称情感分类)是一种面向主观信息分类的文本分类任务。目前,由于其广泛的应用前景,该任务在自然语言处理研究领域中得到了普遍关注,相继出现多种用于情感文本分类的有监督的分类方法。该文具体研究四种不同的分类方法在中文情感分类上的应用,并且采用一种基于Stacking的组合分类方法,用以组合不同的分类方法。实验结果表明,该组合方法在所有领域都能够获得比最好基分类方法更好的分类效果。从而克服了分类方法领域依赖的困境(不同领域需要选择不同基分类方法才能获得更好的分类结果)。  相似文献   

2.
基于情感关键句抽取的情感分类研究   总被引:1,自引:0,他引:1  
情感分析需要解决的一个重要问题是判断一篇文档的极性是正面的还是负面的.情感分类的正确率很难达到普通文本分类的水平,因为情感分类更难更复杂.在判断文档的情感极性时,不同的句子具有不同的情感贡献度,所以,对整篇文档的关键句和细节句进行区分将有助于提高情感分类的性能.关键句通常简短且具有判别性,而细节描述句通常复杂多样且容易引入歧义.在关键句抽取算法中,考虑3类属性:情感属性、位置属性和关键词属性.为了更好地利用关键句和细节句之间的差异性和互补性,将抽取的关键句分别用于有监督的和半监督的情感分类.在有监督情感分类中,采用的是分类器融合的方法;在半监督情感分类中,采用的是Co-training算法.在8个领域上进行实验,结果表明所提方法性能明显优于Baseline,从而证明情感关键句抽取算法是有效的.  相似文献   

3.
基于不平衡数据的中文情感分类   总被引:2,自引:0,他引:2  
近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。该文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。  相似文献   

4.
文本情感分析是多媒体智能理解的重要问题之一.情感分类是情感分析领域的核心问题,旨在解决评论情感极性的自动判断问题.由于互联网评论数据规模与日俱增,传统基于词典的方法和基于机器学习的方法已经不能很好地处理海量评论的情感分类问题.随着近年来深度学习技术的快速发展,其在大规模文本数据的智能理解上表现出了独特的优势,越来越多的研究人员青睐于使用深度学习技术来解决文本分类问题.主要分为2个部分:1)归纳总结传统情感分类技术,包括基于字典的方法、基于机器学习的方法、两者混合方法、基于弱标注信息的方法以及基于深度学习的方法;2)针对前人情感分类方法的不足,详细介绍所提出的面向情感分类问题的弱监督深度学习框架.此外,还介绍了评论主题提取相关的经典工作.最后,总结了情感分类问题的难点和挑战,并对未来的研究工作进行了展望.  相似文献   

5.
情感分类任务旨在识别文本所表达的情感色彩信息(例如,褒或者贬,支持或者反对)。该文提出一种基于情绪词的中文情感分类方法,使用大规模未标记数据和少量情绪词实现情感分类。具体来讲,首先使用情绪词从未标注数据中抽取高正确率的自动标注数据作为训练样本,然后采用半监督学习方法训练分类器进行情感分类。实验表明,该文提出的方法在产品评论与酒店评论两个领域的情感分类任务中取得了较好地分类效果。  相似文献   

6.
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。  相似文献   

7.
将多分类器集合应用于"北京一号"小卫星多光谱遥感数据土地覆盖分类,首先构建分类器集合,应用最小距离分类、最大似然分类、支持向量机(SVM)、BP神经网络、RBF神经网络和决策树等进行土地覆盖分类,然后利用Bagging、Boosting、投票法、证据理论和模糊积分法等分类器集成方法,得到综合不同分类器输出的最终分类结果。试验表明,多分类器集成能够有效提高"北京一号"小卫星土地覆盖分类的精度,具有广泛的应用前景。  相似文献   

8.
情感分类是观点挖掘的一个重要的方面.提出了一种基于情感特征聚类的半监督式情感分类方法,该方法只需要对少量训练数据实例进行情感类别标注.首先从消费者评论中提取普通分类特征和情感特征,普通分类特征可以用来训练一个情感分类器.然后使用spectral聚类算法把这些情感特征映射成扩展特征.普通分类特征和扩展特征一起通过训练得到另一个情感分类器.2个分类器再从未标签数据集中选择实例放入到训练集合中,并通过训练得到最终的情感分类器.实验结果表明,在同样的数据集上该方法的情感分类准确度比基于self-learning SVM的方法和基于co-training SVM的方法的情感分类准确度要高.  相似文献   

9.
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。  相似文献   

10.
情感分类一直是自然语言处理任务中重要的研究热点,并在电子商务评论、热点论坛、公共舆论等众多场景中广泛应用。如何提高情感分类模型性能仍是情感分析领域的重点研究问题。集成学习是通过联合若干分类器达到提高模型总体效果的有效方法。基于粒计算和三支决策思想,并结合集成学习的优势,构建了结合集成学习的多粒度序贯三支决策模型。通过N-gram语言模型构建文本多粒度结构,形成序贯三支情感分类基础;在每一粒度下,集成三个分类算法以提高在该粒度下的分类效果;通过4个数据集对所提出方法进行了实验验证。结果证明,该方法不仅可以提高整体分类效果,还可以降低分类成本。  相似文献   

11.
面向问答型评论的情感分类在情感分析领域是一项新颖且极具挑战性的研究任务。由于问答型评论情感分类标注数据非常匮乏,基于监督学习的情感分类方法的性能有一定限制。为了解决上述困境,该文提出了一种基于联合学习的问答情感分类方法。该方法通过大量自然标注普通评论辅助问答情感分类任务,将问答情感分类作为主任务,将普通评论情感分类作为辅助任务。具体而言,首先通过主任务模型单独学习问答型评论的情感信息;其次,使用问答型评论和普通评论共同训练辅助任务模型,以获取问答型评论的辅助情感信息;最后通过联合学习同时学习和更新主任务模型及辅助任务模型的参数。实验结果表明,基于联合学习的问答情感分类方法能较好融合问答型评论和普通评论的情感信息,大幅提升问答情感分类任务的性能。  相似文献   

12.
针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法。该方法首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据。在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据。在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器。在亚马逊购物网站4个领域的情感数据集上的实验表明,基于分组提升集成的跨领域文本情感分类方法一定程度上提高了跨领域文本情感分类的精度。  相似文献   

13.
该文主要是针对维吾尔语中生气,高兴,难过及惊讶等四大类情感分别进行基于情感词词典的句子情感分类。首先,结合维吾尔句子中的情感特点,通过人工抽取的方法收集了维吾尔句子中能表达情感的关键词和情感短语,并建立了包含情感关键词和情感短语的情感词词典。然后,利用关键词匹配算法实现了具有分类速度快、分类正确率较高的维吾尔语句子情感分类应用系统。最后,给出了实验结果,并且分析了所存在的问题及提出了相应的解决策略。  相似文献   

14.
以微博为代表的社会媒体的飞速发展为情感分析方向带来巨大的资源,同时也对情感分析算法的性能提出了更大的挑战。其中,现有的情感词典尤其是中文情感词典规模不足是影响情感分析性能的一个重要因素。为此,该文基于海量的微博数据,使用简单的文本统计算法,构建了一个十万词语/词组的大规模情感词典。我们以情感分析的基础任务——情感分类为例,将大规模情感词典作为特征用于该任务上,实验结果表明大规模词典有助于情感分类性能的提高。  相似文献   

15.
This paper presents a method for aspect based sentiment classification tasks, named convolutional multi-head self-attention memory network (CMA-MemNet). This is an improved model based on memory networks, and makes it possible to extract more rich and complex semantic information from sequences and aspects. In order to fix the memory network’s inability to capture context-related information on a word-level, we propose utilizing convolution to capture n-gram grammatical information. We use multi-head self-attention to make up for the problem where the memory network ignores the semantic information of the sequence itself. Meanwhile, unlike most recurrent neural network (RNN) long short term memory (LSTM), gated recurrent unit (GRU) models, we retain the parallelism of the network. We experiment on the open datasets SemEval-2014 Task 4 and SemEval-2016 Task 6. Compared with some popular baseline methods, our model performs excellently.   相似文献   

16.
文本情感分类是自然语言处理领域的挑战性研究课题.基于词典的方法和传统基于机器学习方法分别依赖高质量的情感词典和鲁棒的特征工程,而多数深度学习方法的性能则依赖大规模人工标注数据集.幸运的是,不同社交平台用户生成了大量带标签的舆情文本,这些文本可以作为弱标注数据集被用于情感分类任务,但是弱标注数据集中的噪声样本会对训练过程产生负面影响.提出了一种用于小样本情感分类任务的弱监督对比学习(weakly-supervised contrastive learning, WCL)框架,旨在学习海量带噪声的用户标记数据中的情感语义,同时挖掘少量人工标注数据中潜在的类间对比模式.该框架包括2个步骤:首先,设计了一种弱监督预训练策略来削弱噪声数据的影响;其次,在有监督微调阶段引入对比学习策略来捕获少量有标注数据的对比模式.在亚马逊评论数据集上评估了所提出的方法,实验结果表明所提出的方法显著优于其他同类对比方法.在仅使用0.5%(即32个样本)比例的有标注数据集进行微调的情况下,所提出方法的性能依然超出其他深度方法.  相似文献   

17.
为利用情感文本不同侧面的信息,提出一种基于状态和行为描述的情感分类方法。将情感文本的描述分为情感的状态和行为2个视图,并利用2个视图的融合进行情感分类。为自动获得2个视图,人工标注了相应的语料,通过二元分类器构建状态和行为检测系统。在此基础上采用组合分类器方法融合2个不同的视图。实验结果证明,该方法在3个领域中文情感分类任务上的分类效果均有所提高。  相似文献   

18.
方丁  王刚 《计算机系统应用》2012,21(7):177-181,248
随着Web2.0的迅速发展,越来越多的用户乐于在互联网上分享自己的观点或体验。这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此基于计算机的文本情感分类技术应运而生,并且研究的重点之一就是提高分类的精度。由于集成学习理论是提高分类精度的一种有效途径,并且已在许多领域显示出其优于单个分类器的良好性能,为此,提出基于集成学习理论的文本情感分类方法。实验结果显示三种常用的集成学习方法 Bagging、Boosting和Random Subspace对基础分类器的分类精度都有提高,并且在不同的基础分类器条件下,Random Subspace方法较Bagging和Boosting方法在统计意义上更优,以上结果进一步验证了集成学习理论在文本情感分类中应用的有效性。  相似文献   

19.
方面级情感分类是当前的研究热点之一,其目标是自动推断文本中特定方面的情感倾向。融合多种不同类型的词向量作为基于深度学习模型的输入,在该任务上取得了较好的效果。然而,通过直接拼接或门控机制等方式融合多种不同的词向量,不能充分发挥每种词向量的作用。为了解决这个问题,该文提出了一种基于互学习的多词向量融合情感分类框架,其目的是充分利用普通词向量、领域词向量和情感词向量中的信息,提高分类的性能。具体地,首先构建以三种词向量的融合作为输入的主模型,然后分别构建三个以单一词向量作为输入的辅助模型,最后基于互学习的方式联合训练主模型和辅助模型,以达到相互促进的效果。在三个常用数据集上的实验表明,该文提出框架的性能明显好于基准方法。  相似文献   

20.
情感分类是通过分析数据中的情感信息,来预测数据所传递的情感倾向.其中结合语言学词典与产生式分类器构造带有先验知识的分类模型,是一类重要的研究课题.通过研究情感词的领域性和不同权重的特性,提出了一种新的融入情感先验知识的情感分类方法.通过自动分析构造领域相关的情感词及其权重信息,将其作为情感先验知识,融入到产生式分类模型...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号