首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
基于HowNet的句子褒贬倾向性研究   总被引:4,自引:2,他引:2       下载免费PDF全文
文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。句子倾向性研究是文本倾向性识别的基础,结合句法分析结果和词语语义倾向性可以衡量句子褒贬倾向性。以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算方法。大量语句实验表明,该方法的计算结果与人工判别结果更接近。  相似文献   

2.
基于语义分析的词汇倾向识别研究   总被引:2,自引:0,他引:2  
随着互联网的安全发展和人们对信息需求的日益增强,文本倾向识别方向的研究在许多领域有着广阔的发展前景.作为文本语义倾向识别的研究基础,本文侧重于词汇的语义倾向性判别,利用《知网》中对汉语词汇的定义和描述,建立由褒贬倾向较强烈的词汇组成的种子集,并结合上下文环境因素的影响,采用一种度量方法获取种子词与普通词之间的语义倾向相似度,识别普通词的褒贬倾向.实验表明,本文方法对常用词的倾向识别效果较好,可为更大粒度的文本倾向识别打好基础,具有一定的实用价值.  相似文献   

3.
在文本的向量空间表示模型下,针对文本褒贬倾向判别问题,提出了一种基于潜在语义分析的特征权重计算方法。除词频信息外,该方法考虑了潜在语义分析所提供的同义词、近义词信息对特征权重的影响。采用基于Fisher判别准则的特征选择方法,以支持向量机作为分类器,在2 739篇语料(2008年中文倾向性分析评测)上进行了实验。实验结果表明,提出的特征权重计算方法对文本褒贬倾向判别是有效的。  相似文献   

4.
基于语义理解的文本倾向性识别机制   总被引:20,自引:5,他引:20  
文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性;最后采用否定规则匹配文本中的语义否定的策略提高分类效果,同时处理程度副词附近的褒义词和贬义词,以加强对文本褒贬义强度的识别。  相似文献   

5.
具有较强褒贬倾向的词语搭配对于文本的情感分析具有重要的价值。该文提出了一种混合语言信息的词语搭配的倾向判别方法。该方法首先根据词语搭配六种模式的特点,确定出各模式的概率潜在语义模型,然后利用这些语义模型判别搭配的情感倾向。最后对部分包含情感词的搭配再利用规则修正其先前标注的情感倾向。基于汽车语料的实验结果表明,基于混合语言信息的词语搭配情感倾向判别方法优于单纯基于概率潜在语义模型或规则的方法。  相似文献   

6.
该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤。实验表明,该模型能够较好地提高文本过滤效率和准确率。  相似文献   

7.
褒贬倾向性识别在信息过滤、自动文摘、文本分类等领域有良好的应用前景.针对褒贬倾向性较为集中的论坛网页,提出了基于特定论坛主题的网页文本褒贬倾向性计算方法.结合句法分析和词语相似度计算方法,提取反映主题倾向的特征词,根据每个信息块的倾向性计算页面的褒贬倾向,实现了论坛网页句子级别、信息块级别和网页级别等三个层次的褒贬倾向性计算,在部分语料范围内的实验结果良好,对于此类网页的分析评价有一定的意义.  相似文献   

8.
基于概率潜在语义分析的词汇情感倾向判别   总被引:2,自引:0,他引:2  
该文利用概率潜在语义分析,给出了两种用于判别词汇情感倾向的方法。一是使用概率潜在语义分析获得目标词和基准词之间的相似度矩阵,再利用投票法决定其情感倾向;二是利用概率潜在语义分析获取目标词的语义聚类,然后借鉴基于同义词的词汇情感倾向判别方法对目标词的情感倾向做出判别。两种方法的优点是均可在没有外部资源的条件下,实现词汇情感倾向的判别。  相似文献   

9.
文本褒贬倾向判定系统的研究   总被引:3,自引:0,他引:3  
为了满足当今对评论性信息进行分析的需要,本文设计并实现了一个基于关键词模板的文本褒贬倾向判定系统.本系统定义了关键词类别、建立了关键词库、关键词模板库,并设计了模板匹配算法和文本褒贬倾向值算法,对测试文本进行关键词及模板匹配进而判断测试文本的褒贬倾向.本文还对文本褒贬倾向判定系统进行了测试,并在集内测试取得了较好的效果.进一步分析结果表明在语料充足的条件下,本系统可以更有效的判定文本的褒贬倾向.  相似文献   

10.
基于概念的词汇情感倾向识别方法   总被引:1,自引:0,他引:1  
词汇的语义倾向是文本倾向性分析的基础课题.现有的词汇语义倾向计算通常是以词汇为基准,而词是包括了多种不同情感倾向概念的粒度范畴,影响分析的精度和效率.据此,提出在更细的粒度下,利用HowNet工具中的"概念"进行倾向性分析,设计了基于概念的语义倾向计算方法.该方法使用聚类的概念,利用K-MEDOIDS算法寻找基准概念.实验结果表明,基于概念的方法较传统基于词汇的方法准确率更高.  相似文献   

11.
极性相似度计算在词汇倾向性识别中的应用   总被引:1,自引:0,他引:1  
该文提出了一种新的基于HowNet相似度计算的词汇倾向性识别方法。该方法首先利用HowNet中的“良”、“莠”极性义原进行一种新的相似度——极性相似度的计算,再计算出词汇的极性值,进而识别出词汇的极性倾向。大量实验证明了该方法能够有效地区分词汇的极性,并且在第一届中文倾向性分析评测(COAE2008)比赛中取得了很好的效果。  相似文献   

12.
文章主要提出了一种汉语句子倾向性判别的方法,以情感词的静态极性(褒贬性)为基础,通过对其上下文的分析,通过情感修饰词的修饰关系,计算其动态(修饰)极性,从而提高了句子倾向性识别的准确性。实验结果表明,通过该种方法能够较好地识别句子的倾向性是合理有效的。  相似文献   

13.
为更具体表义社会新词的情感含义及其倾向性,该文提出了一种基于词向量的新词情感倾向性分析方法.在信息时代不断发展变化中,由于语言应用场景不断发展变化以及扩展语义表达的丰富性,网络上不断出现很多表达情感的新词,但是这些新词的表达虽有丰富的含义但缺乏准确的定义,因此对其情感倾向性分析具有一定困难.该文在分析了新词发现方法和词向量训练工具Word2Vec的基础上,研究了基于Word2Vec的情感词新词倾向性分析方法的可行性和架构设计,并面向微博语料进行实验,结果显示新词可以从与其相近的词中分析其情感倾向.  相似文献   

14.
基于语义分析的作者身份识别方法研究   总被引:5,自引:0,他引:5  
作者身份识别是一项应用广泛的研究,身份识别的关键问题是从作品中提取出代表语体风格的识别特征,并根据这些风格特征,评估作品与作品之间的风格相似度。传统的身份识别方法,主要考察作者遣词造句、段落组织等各种代表文体风格的特征,其中基于标点符号和最常见功能词频数的分析方法受到较为普遍的认同。本文依据文体学理论,利用HowNet知识库,提出一种新的基于词汇语义分析的相似度评估方法,有效利用了功能词以外的其他词汇,达到了较好的身份识别性能。  相似文献   

15.
准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。  相似文献   

16.
基于语义理解的中文博文倾向性分析   总被引:3,自引:0,他引:3  
何凤英 《计算机应用》2011,31(8):2130-2133
博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客文本的情感倾向性分析也逐渐成为信息挖掘领域的热点。目前,文本倾向性分析的研究大都围绕普通文本、新闻评论进行,针对博客文本的特点,提出一种基于语义理解的博客文本倾向性分类方法。首先以HowNet情感词语集为基准,构建中文基础情感词典,并用中文词语相似度方法计算词语的情感权值,同时分析语义层副词的出现规律及其对文本倾向性判断的影响,最后利用博主的语言风格因素对倾向性结果进行修正实现博文的情感分类。实验表明,该方法能有效地判定博客文本情感倾向性。  相似文献   

17.
针对“未然态”的舆情信息,挖掘网络热点、焦点及敏感话题,把握舆情动态,提高处置与监管网络突发事件能力等,是舆情分析的重要研究内容。对基于情感词汇Ontology的话题倾向性进行了研究。通过计算与情感词汇Ontology中情感词汇的语义相似度、统计话题语料中情感特征词汇的词频,计算语料中情感特征词汇的倾向性权重;根据情感特征词汇的倾向性权重计算话题倾向性强度和整体倾向性。最后在情感词汇Ontology指导下对话题中每篇语料的情感分类和倾向性强度进行规范化细粒度标注。  相似文献   

18.
融合语义特征的关键词提取方法   总被引:1,自引:0,他引:1  
关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义特征后模型的F-Score提升了7.2%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号