首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
李勇敢  周学广  孙艳  张焕国 《软件学报》2017,28(12):3183-3205
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,我们研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取的召回率较低问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为2类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括2个部分,一是参加NLPCC2012的公开评测,本文方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了本文算法的实用性.二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出本文的结论.  相似文献   

2.
随着新技术及社会网络的发展与普及,微博用户数据量剧增,与此相关的研究引起了学术界和工业界的关注。针对中文微博语句特点,通过对比多种特征选取方法,提出一种新的特征统计方法。根据构建的词语字典与词性字典,分析支持向量机、朴素贝叶斯、K最近邻等分类模型,并利用证据理论结合多分类器对中文微博观点句进行识别。采用中国计算机学会自然语言处理与中文计算会议(NLPCC 2012)提供的数据,运用该方法得到的准确率、召回率和F值分别为70.6%、89.2%、78.9%,而NLPCC2012公布的评测结果相应平均值分别为72.7%、61.5%、64.7%,该方法在召回率和F值2个指标上超过其平均值,而F值比NLPCC2012评测结果的最好值高出0.5%。  相似文献   

3.
介绍基于词性组合规则改进的中文句子极性判断方法,提出一种基于半监督学习的中文句子极性判断框架。在传统的完全基于情感词典方法的基础上,结合词性组合规则这一重要特征对中文句子进行极性判断。首先,分析中文句子中情感短语、情感词语的词性组合规则。然后,将情感短语、情感词语的词性组合规则用于中文句子极性判断。根据词性组合规则集抽取评测句子中的候选情感短语、情感词语;而后,计算句子的情感信息总量和句子的情感值,根据句子的情感信息总量将句子分为主观句、客观句,根据句子的情感值将主观句子分为积极情感句、消极情感句、中立情感句。实验结果证明,该方法在主客观分类上F值较高,可以达到77.4%;在主观句情感分类上,可达到的F值为62.5%。相比较于已有方法,基于词性组合规则改进的中文句子极性判断方法的F值有了明显的提高。  相似文献   

4.
SVM与规则相结合的中文地名自动识别   总被引:4,自引:0,他引:4  
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。  相似文献   

5.
不同性格用户所具有的语言表达方式不尽相同,现有情感分析工作很少考虑到用户性格,针对此问题,提出一种基于性格的微博情感分析模型PLSTM。该模型首先采用性格识别规则将微博文本分为五个性格集合和一个通用集合,其次针对每种性格文本集合分别训练出一个情感分类器,最后对六个基本情感分类器进行融合,得出最终的情感极性。实验结果显示PLSTM方法的◢F1◣值可以达到96.95%,表明PLSTM比起基准情感分析模型在准确率、召回率、◢F1◣值上都有较大提高。  相似文献   

6.
实体关系抽取是构建知识图谱的关键步骤,其目的是抽取文本中的关系三元组。针对现有中文实体关系联合抽取模型无法有效抽取重叠关系三元组及提取性能不足的问题,该文提出了RoBERTa-Effg-Adv的实体关系联合抽取模型,其编码端采用RoBERTa-wwm-ext预训练模型对输入数据进行编码,并采用Efficient GlobalPointer模型来处理嵌套和非嵌套命名实体识别,将实体关系三元组拆分成五元组进行实体关系联合抽取。再结合对抗训练,提升模型的鲁棒性。为了获得机器可读的语料库,对相关文本书籍进行扫描,并进行光学字符识别,再通过人工标注数据的方式,形成该研究所需要的关系抽取数据集REDQTTM,该数据集包含18种实体类型和11种关系类型。实验结果验证了该方法在瞿昙寺壁画领域的中文实体关系联合抽取任务的有效性,在REDQTTM测试集上的精确率达到了94.0%,召回率达到了90.7%,F1值达到了92.3%,相比GPLinker模型,在精确率、召回率和F1值上分别提高了2.4百分点、0.9百分点、1.6百分点。  相似文献   

7.
顾益军  刘小明 《计算机科学》2015,42(4):209-212, 239
为了通过融合多种情感资源库中的词汇情感特征来提高微博情感分类精度,提出了一种词汇情感确定性度量的计算方法,并以此为基础将在多种情感词汇上获取的情感特征融合为词汇的综合情感特征,然后采用机器学习的分类方法实现微博观点句识别和观点句情感倾向性判定.实验表明,本方法利用词汇的情感确定性度量,统一了词汇情感倾向性的强度度量,在观点句识别和观点句情感倾向性判定两个情感分类任务中都取得了较好的性能.  相似文献   

8.
针对微博的情感倾向分析,提出了一种基于关键句分析的微博情感倾向性分析方法SOAS(Sentiment Orientation Analysis Based on Key Sentence Analysis),实现了从句子级到文档级的情感分析。首先,利用关键句抽取算法得到微博关键句,关键句抽取主要考虑位置属性、关键词属性和词频句子频特征这3类属性;之后,结合依存句法分析提出了影响情感倾向的7种词性搭配,以及针对这7种搭配,给出了6种情感计算规则,计算关键句的情感倾向值;最后,以关键句得分为权重,对所有关键句的情感倾向值加权求和得到微博的情感倾向。实现结果表明,基于关键句分析的微博情感倾向算法的情感分析,比同类算法的准确率高出了10.55%,提高了情感分析的准确率,具有高效性。  相似文献   

9.
陈锋  巢文涵  周庆  李舟军 《计算机科学》2014,41(12):133-137,142
情感要素识别是情感分析的关键子任务之一,其目的是识别出文本情感所作用的情感对象。文本情感要素识别属于最细粒度的情感分析,吸引了大量研究者的关注。中文微博由于其语言简短灵活、文本不规范、噪声较大等特点,给中文微博情感分析研究工作带来了新的挑战。目前大部分情感要素识别方法都是基于规则的方法或者基于扁平化特征的统计学习方法,区分噪声的能力不强,性能提升有限。针对中文微博的特点,提出一种基于卷积树核的情感要素识别算法,即首先对句子进行词性标注与依存关系分析,将句子中的名词作为候选情感要素;然后基于两种不同的修剪策略对依存树进行修剪,以获取每个候选情感要素的结构化信息;最后采用卷积树核计算依存树的相似度,并在此基础上识别句子中的情感要素。NLPCC2012和NLPCC2013中文微博情感分析评测任务中的实验验证了该方法的性能,其准确率相比于传统方法有显著提升。  相似文献   

10.
某些“基数词+时间单位词”组成的中文时间表达式在不同语境中可能表现为时点式,也可能表现为时段式。为自动判定中文时间表达式的类型,提出一种基于依存分析的判定方法。该方法首先借助依存分析考察中文时间表达式在句中所受的句法约束,然后将这些约束转化为具有可计算性的依存规则,最后利用依存规则对中文时间表达式的类型进行判定。实验结果显示,在此方法中,时间表达式确认的正确率、召回率、F值分别达到82.3%、88.1%和85.1%;时间表达式类型判定的正确率、召回率、F值分别达到77.1%、82.5%和79.7%。  相似文献   

11.
传统的情感分析研究通过分析, 确定词语、句子或篇章的情感, 但忽略了情感表达的主题。针对这一不足, 该文提出了一种基于双层CRFs模型的细粒度意见挖掘中维吾尔语意见型文本陈述级情感分析方法。第一层模型识别意见型文本中的主题词和意见词, 确定意见陈述的范围, 并将识别结果传递给第二层模型, 将其作为重要特征之一, 用于陈述级情感分析。细粒度意见挖掘中情感分析的目标是构建<意见陈述, 主题词, 意见词, 情感>四元组。该方法用于维吾尔语陈述级情感分析的准确率为77.41%, 召回率为78.51%, 证明了该方法在细粒度意见挖掘中情感分析任务上的有效性。  相似文献   

12.
主观句识别的工作在诸如情感分类和意见摘要等意见挖掘系统中占有很重要的地位。在该文中,我们提出一种基于情感密度的模糊集合分类器以识别汉语主观句。首先,我们利用优势率方法从训练语料中抽取主观性线索词;然后,为了能更好的表达一个句子的主观性,我们利用抽取出的主观性线索词计算出每个句子的情感密度;最后,我们结合情感密度的特点实现了一个三角形隶属度函数的模糊集合分类器以识别主观句。我们在NTCIR-6中文数据中做了两组实验。实验结果表明我们的方法具有一定的可行性。  相似文献   

13.
该文主要是针对维吾尔语中生气,高兴,难过及惊讶等四大类情感分别进行基于情感词词典的句子情感分类。首先,结合维吾尔句子中的情感特点,通过人工抽取的方法收集了维吾尔句子中能表达情感的关键词和情感短语,并建立了包含情感关键词和情感短语的情感词词典。然后,利用关键词匹配算法实现了具有分类速度快、分类正确率较高的维吾尔语句子情感分类应用系统。最后,给出了实验结果,并且分析了所存在的问题及提出了相应的解决策略。  相似文献   

14.

属性级情感三元组抽取(aspect sentiment triplet extraction,ASTE)任务主要是从句子中检测出属性词及其对应的评价词和情感倾向,然而当抽取多词属性词和评价词时,无法准确地抽取出全部的单词;当面对重复的属性词和评价词时,以往的研究很难学习到\  相似文献   


15.
汉语评论文的特点使得可以利用情感主题句表示其浅层篇章结构,该文由此提出一种基于浅层篇章结构的评论文倾向性分析方法。该方法采用基于n元词语匹配的方法识别主题,通过对比与主题的语义相似度大小和进行主客观分类抽取出候选主题情感句,计算其中相似度最高的若干个句子的倾向性,将其平均值作为评论文的整体倾向性。基于浅层篇章结构的评论文倾向性分析方法避免了进行完全篇章结构分析,排除了与主题无关的主观性信息,实验结果表明,该方法准确率较高,切实可行。  相似文献   

16.
基于浅层句法特征的评价对象抽取研究   总被引:3,自引:1,他引:2  
徐冰  赵铁军  王山雨  郑德权 《自动化学报》2011,37(10):1241-1247
随着网络评论文本数量的快速增长,文本情感分析越来越受到研究者的广泛关注. 句子级文本情感分析就是对主观性文本进行细粒度的挖掘,有重要的研究价值. 评论句中的评价对象抽取是句子级情感分析要研究的关键问题之一. 为了提高评价对象抽取的性能,本文提出在系统模型的训练过程中引入浅层句法信息和启发式位置信息,同时在不增加领域词典的情况下, 有效提高系统的精确率.实验结果表明,将本文提出的特征引入到条件随机域模型和对比模型后,系统的各项指标均有所提高, 并且条件随机域模型的结果优于对比模型.同时,将条件随机域模型的结果与2008年国内中文评测的最大值比较,其F值超过最大值 5%.  相似文献   

17.
基于词典和规则集的中文微博情感分析   总被引:2,自引:0,他引:2  
通过对微博文本的特性分析,提取了中文微博情感分析的关键问题:如何识别微博新词并理解其情感含义?如何利用附加信息辅助文本情感分析?如何结合语言特性构造情感计算方法?针对第一个问题,利用统计信息和点间互信息对新词进行挖掘和情感识别,在40万条新浪微博数据中构建了新情感词词典,用于对已有情感词资源的扩充。对于后两个问题,提出了基于词典和规则集的中文微博情感分析方法。根据微博特性,在不同的语言层次上定义了规则,结合情感词典对微博文本进行了从词语到句子的多粒度情感计算,并以表情符号作为情感计算的辅助元素。通过对采集到的原创微博数据集进行实验,验证了该方法的有效性。  相似文献   

18.
动态情感知识的获取,特别是领域相关极性词典的构建一直是意见挖掘和情感分析系统在开放应用时面临的主要挑战之一。该文面向产品评价文本提出一种汉语情感极性词典扩展方法。该方法首先采用序列标注方法从意见文本中抽取产品意见要素,同时构建属性-评价对;然后,对抽取的属性-评价对进行正规化,以减少词典扩展中的复杂性和噪声;最后,改进PolarityRank算法的构图方式以使其适用于汉语文本,从而完成词典扩展。在汽车和手机两个领域的意见文本的实验结果表明领域相关的情感极性词语的扩展有利于情感极性分类性能的提高。
  相似文献   

19.
针对现有的序列化模型对中文隐式情感分析中特征信息提取不准确以及对篇章级的文本信息提取存在的梯度爆炸或者梯度消失的问题,提出了双向长短时神经网络和上下文感知的树形递归神经网络(context-aware tree recurrent neutral network,CA-TRNN)的并行混合模型.该模型分别利用双向循环长...  相似文献   

20.
考虑到同类型的情感句往往具有相同或者相似的句法和语义表达模式,该文提出了一种基于情感句模的文本情感自动分类方法。首先,将情感表达相关句模人工分为3大类105个二级分类;然后,设计了一种利用依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模。最后,通过对输入句进行情感句模分类实现文本情感分类。在NLP&CC2013中文微博情绪分类评测语料及RenCECps博客语料的实验结果显示,该文提出的分类方法准确率显著高于基于词特征支持向量机分类器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号