首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
涉案微博的评价对象抽取是一个特定领域的任务,其评价对象词表达多样且含义与通用领域不同,仅依赖于通用领域的词嵌入无法很好地表征这些评价对象词.为此,提出了一种综合利用领域词嵌入和通用词嵌入的涉案微博评价对象抽取方法.首先对涉案微博文本进行预训练,得到具有涉案领域特征的嵌入层,其次将微博评论分别输入两个嵌入层,得到不同领域对评价对象的表征结果并进行拼接操作,然后通过卷积层抽取出与案件相关的特征,最后利用分类器对序列进行标记,以提取涉案微博评价对象.实验结果表明,所提方法的F1值在#重庆公交车坠江案#和#奔驰女司机维权案#的两个数据集上分别达到了72.36%和71.02%,较现有的基准模型有所提升,验证了不同领域词嵌入对涉案微博评价对象抽取的影响.  相似文献   

2.
中文句子评价对象抽取是指在中文句子中抽取评论所针对的对象或对象的属性。目前国内相关研究工作尚未能有效识别复合词评价对象和未登陆评价对象。针对以上两种情况,该文提出了一种基于层叠条件随机场的中文句子评价对象抽取方法。该方法首先通过低层条件随机场获得候选评价对象集,然后通过降噪模型对噪声进行过滤、补充模型对缺失的候选评价对象进行补充、合并模型对复合短语候选评价对象进行合并,最后由高层模型抽取出评价对象。实验结果显示,与基于线性链条件随机场的识别方法相比,该方法准确率、召回率和F1值分别提升1.62%、5.75%和4.17%,能有效地识别复合词评价对象和未登录评价对象,从而提高中文句子评价对象的识别精度。  相似文献   

3.
中文产品评论中评价对象的识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
在中文产品评论中利用无监督的识别评价对象,准确率和召回率较低。为此,提出一种中文产品评论中的评价对象识别方法。对特殊词、评价对象非完整性、评价对象非稳定性等情况过滤噪声,利用评价对象在评论文本中与评价短语规则出现频率较高的特征,进行置信度排序。实验结果表明,对于14 799篇数码类评论文章,该方法的准确率、召回率和F值分别为0.605、0.780、0.681。  相似文献   

4.
微博情感分析是对微博内容进行细粒度的挖掘,有着重要的研究价值。微博评价对象的抽取是微博情感分析研究的关键问题之一。为了提高中文微博评价对象抽取的准确率,该文在中文微博特征分析和微博评论本体构建研究的基础上,尝试从词、词性、情感词以及本体四个方面进行特征选择,采用CRFs模型对评价对象进行抽取。该文将提出的方法运用到COAE2014测评的Task5评价对象抽取任务中,宏平均准确率达到61.20%,在所有测评队伍中居第一。实验结果表明,将本体特征引入到CRFs模型中,能够有效地提高评价对象抽取的准确率。  相似文献   

5.
命名实体是文本中承载信息的重要单元,正确分析存在歧义的命名实体对文本的理解起着关键性作用。该文提出基于多源知识和Ranking SVM的中文微博命名实体链接,结合同义词词典、百科资源等知识产生初始候选实体集合,同时从文本中抽取多种组合特征,利用Ranking SVM对候选实体集合进行排序,从而得到目标实体。在NLP&CC2014中文微博实体链接评测数据集上进行了实验,获得了89.40%的平均准确率,与NLP&CC2014中文微博实体链接评测取得最好成绩的系统相比,本文的系统具有一定的优势。
  相似文献   

6.
面向特定领域的产品评价对象自动识别研究   总被引:2,自引:0,他引:2  
产品评价对象的自动识别是文本观点信息抽取和倾向性分析中的重要研究课题之一。该文针对汽车评论,提出了一种不依赖外部资源的无指导评价对象自动识别方法。该方法首先综合使用词形模板和词性模板,采用模糊匹配方法和剪枝法抽取候选评价对象。然后,从候选对象集中,采用双向Bootstrapping方法识别出产品评价对象。最后,通过采用K均值聚类方法对产品评价对象进行聚类,实现从评价对象中自动抽取产品名称和产品属性。实验结果表明,该方法对产品评价对象识别的F值达到58.5%,产品名称识别的F值达到69.48%。
  相似文献   

7.
张盛  李芳 《中文信息学报》2015,29(1):163-169
微博作为一种新兴媒体,已经在人们生活中扮演了一种不可或缺的角色。如何从大量微博中抽取出有意义的评价对象并识别出正确的情感倾向显得越来越重要。本文在传统的CRF模型基础上,提出了两步CRF模型及迭代两步CRF模型,对评价对象和极性进行抽取。两步CRF模型在COAE2014评测语料上取得了0.505的F值,迭代两步CRF模型通过不断增加训练语料,提高了召回率,使得F值达到了0.513,同时提高了模型的稳定性。实验对比了当前主流的几种方法,结果证明了本文提出的方法是行之有效的。  相似文献   

8.
夏圆  张征 《计算机系统应用》2017,26(11):254-259
评价对象抽取是情感分析的重要组成部分,针对在线商品中文评论非正规化、网络化的特点,本文提出一种基于句法分析和条件随机场的评价对象的抽取方法,通过实验分析不同模板与不同特征组合对评价对象提取的F值的影响.在系统实现上,主要利用哈工大语言技术平台(LTP)的开放接口和CRFs开源工具对评论数据集进行训练和测试.最终使两类数据集的评价对象抽取的F值达分别达到到82.98%和83.50%.  相似文献   

9.
基于词典与机器学习的中文微博情感分析研究   总被引:1,自引:0,他引:1  
随着Web2.0时代的兴起,与微博相关的研究得到学术界和工业界的广泛关注。选取微博文本中的动词和形容词作为特征;提出基于层次结构的特征降维方法;采用设计的基于表情符号的方法计算特征极性值;在此基础上,提出基于特征极性值的位置权重计算方法,借助SVM作为机器学习模型将微博文本分为正面、负面和中性三类。实验结果表明,提出的方法能够比较有效地对中文微博文本进行情感分类。  相似文献   

10.
网络评论中没有明确指出评价对象的评论,如评论“东西有点贵”中并没有明确指出评价的是商品的价格。针对这种评论,提出一种在评论文本数据集上提取商品的隐式评价对象的方法。根据评论短文本的句式结构特点,构建出候选评价对象模型,并利用HowNet2000概念词典对候选评价对象中的特征词进行扩充,以缓解候选评价对象中信息缺乏的问题;基于[k-means]聚类算法利用候选评价对象中特征词之间的相似度,对候选评价对象进行聚类,得到若干隐式评价对象;利用[χ2]统计量来衡量候选评价对象中的特征词对隐式评价对象的指示能力,从而提取出评论中的隐式评价对象。实验结果表明,该方法提高了提取隐式评价对象的准确率。  相似文献   

11.
基于层次结构的多策略中文微博情感分析和特征抽取   总被引:6,自引:0,他引:6  
随着Web2.0时代的兴起,与微博相关的研究得到了学术界和工业界的广泛关注。该文使用新浪API获取数据,针对中文微博消息展开了情感分析方面的研究。我们对于三种情感分析的方法进行了深入研究,包括表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法,实验表明基于SVM的层次结构多策略方法效果最好。其次,针对层次结构的多策略方法的特征选择进行了详细分析,包括主题无关、主题相关的特征。实验表明使用主题无关的特征时获得的准确率为66.467%。引入主题相关的特征后,准确率提升至67.283%。  相似文献   

12.
基于SVM与距离加权计算的观点和持有者识别机制   总被引:1,自引:0,他引:1       下载免费PDF全文
本文介绍了一种基于SVM与距离加权计算的自动观点分析方法,主要包括观点自动检测与观点持有者自动抽取两方面内容。本文首先建立了与观点分析相关的一系列资源,如观点指示动词集等。利用这些相关的资源,采用SVM进行机器学习,从而完成观点的自动检测。在观点自动检测的基础上,以观点指示动词为指示器,采用距离加权计算的方法抽取给定句子中的观点持有者,并采用模式匹配的方法来对观点持有者进行短语扩展,从而使观点持有者的抽取结果得到进一步提高。  相似文献   

13.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

14.
评价对象的抽取能够让用户和商家同时受益,商家通过评价对象了解用户关心的产品特征,改进商品质量;用户通过评价对象做出购买决策。由于网络评论环境特殊,评价对象的抽取比传统的信息处理更复杂。在一些学者研究的基础上,本文提出一种词性规则和依存句法分析相结合的抽取方法。首先,该抽取方法利用词性规则制定名词短语抽取模板,得到候选评价对象,根据评价词对评价对象的修饰作用对评价对象进行第一次筛选;其次,利用8种依存句法关系对评价对象进行第二次筛选;最后,将2种筛选结果进行结合,得到最终的评价对象。实验结果表明,该方法在3类数据集上都取得了一定的效果。  相似文献   

15.
研究中文微博情感分析中的观点句识别及要素抽取问题。在观点句识别方面,提出了一种利用微博中的情感词和 情感影响因子计算微博语义情感倾向的新算法;在观点句要素抽取方面,利用主题词分类及关联规则,辅以一系列剪枝、筛选和定界规则抽取评价对象。通过观点句识别和观点句要素抽取结果的相互过滤,进一步提高召回率。实验数据采用第六届中文倾向性分析评测所发布的数据,结果表明,本文方法在观点句识别和要素抽取方面能够取得较好的效果,观点句识别的精确率、召回率入F值分别为95.62%,54.10%及69.10%;观点句要素抽取的精确率、召回率以及F值分别为22.07%,12.66%和16.09%。  相似文献   

16.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。  相似文献   

17.
在多对象、多属性的评论文本中,评价对象和评价属性的缺省识别对于观点挖掘有着重要的作用。针对情感观点句中评价对象和评价属性的缺省问题,该文提出一种有效的缺省项识别方法。首先构造缺省项识别规则集,用于获取待识别的缺省项侯选集;将缺省项识别问题看作一个二元分类问题,选用词法和依存句法作为特征,使用决策树分类算法C4.5训练分类器模型,在测试集上对待识别的缺省项进行判别。实验结果表明,使用依存句法特征集分类的F值优于词法特征集约2%。将词法和依存句法两类特征融合与单类特征相比,分类精确率和F值分别提高了10%和5%左右,说明词法特征和依存句法特征的融合有利于缺省项识别。  相似文献   

18.
随着Web 2.0时代的兴起,微博作为一个新的信息分享平台已经成为人们生活中一个重要的信息来源和传播渠道。近年来针对微博的情感分类问题研究也越来越多地引起人们的关注。该文深入分析了传统的情感文本分类和微博情感分类在特征表示和特征筛选上存在的差异,针对目前微博情感分类在特征选择和使用上存在的缺陷,提出了三种简单但十分有效的特征选取和加入方法,包括词汇化主题特征、情感词内容特征和概率化的情感词倾向性特征。实验结果表明,通过使用该文提出的特征选择和特征加入方法,微博情感分类准确率由传统方法的73.17%提高到了84.17%,显著改善了微博情感分析的性能。  相似文献   

19.
微博数据是很多社会网络研究的前提与基础.对新浪微博浏览器端的JavaScript脚本及通信过程分析之后,提出了采用模板驱动技术采集并存储微博Json数据方法,提出并实现了微博数据采集程序.通过实验测试对比,该方法可以高效地实现微博数据的采集.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号