共查询到16条相似文献,搜索用时 93 毫秒
1.
基于HowNet的词汇语义倾向计算 总被引:55,自引:8,他引:55
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。 相似文献
2.
徐群岭 《计算机应用与软件》2011,28(6)
在对中文文本特点进行分析的基础上,提出了一种新型的情感倾向计算模型.该模型采用了改进的逐点分析方法SO-PMI(Semantic Orientation from Pointwise Mutual Information),基于词语对类别的倾向性进行分类.实验表明,该模型在汉语常用词中的效果较好,判别准确率可达80%以上,具有一定的实用价值. 相似文献
3.
4.
汉语语句主题语义倾向分析方法的研究 总被引:7,自引:0,他引:7
本文介绍了如何识别汉语语句主题和主题与情感描述项之间的关系以及如何计算主题的语义倾向(极性)。我们利用领域本体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的极性。实验结果显示,与手工标注的语料作为金标准进行比较,用于识别主题和主题极性的改进后的SBV极性传递算法的F度量达到了72.41%。它比原来的SBV极性传递算法和VOB极性传递算法的F度量分别提高了7.6%和2.09%。因此,所建议的改进的SBV极性传递算法是合理和有效的。 相似文献
5.
基于语义分析的词汇倾向识别研究 总被引:2,自引:0,他引:2
随着互联网的安全发展和人们对信息需求的日益增强,文本倾向识别方向的研究在许多领域有着广阔的发展前景.作为文本语义倾向识别的研究基础,本文侧重于词汇的语义倾向性判别,利用《知网》中对汉语词汇的定义和描述,建立由褒贬倾向较强烈的词汇组成的种子集,并结合上下文环境因素的影响,采用一种度量方法获取种子词与普通词之间的语义倾向相似度,识别普通词的褒贬倾向.实验表明,本文方法对常用词的倾向识别效果较好,可为更大粒度的文本倾向识别打好基础,具有一定的实用价值. 相似文献
6.
词汇间语义相关关系量化计算方法 总被引:4,自引:0,他引:4
词汇间语义关系的定量化研究是自然语言处理任务中一个重要的基础性工作。词汇间语义关系总体上分为等同关系、上下位关系、相关关系,现有的语义关系定量化工作主要集中于词汇间语义的等同关系(相似性)量化研究。该文研究和提出了量化词汇间语义相关关系的基本思路和新方法,即构造词汇相关关系二分图来求解和量化词汇间间接相关关系,该方法能够解决在统计语料中没有出现的词汇对的相关关系量化求解问题。实验结果表明,该文提出的方法比单纯用互信息来计算和量化词汇间语义相关关系更为可行。同时,对于一个特定词汇而言,该文的方法能够得到一个相关关系量化的相对合理的趋势性结果。 相似文献
7.
8.
9.
近年来,微博越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物“好”或“坏”)的微博,这些微博反映了作者的情绪。投资者情绪(investor sentiment)是研究经济市场走向的重要指标,行为金融学认为股票投资者情绪影响投资者决策,进而影响股票市场,而反映股票投资者情绪的重要指标是投资者对股票市场未来行情的情感倾向(认为股票市场未来行情“好”或“坏”)。通过对新浪微博(目前最大的中文微博平台)上股票投资者发布的文本进行情感信息方面的分析与研究,提出了一种自动识别股票投资者未来情感倾向的方法。该方法分为两级识别,第一级是:识别出微博中包含未来情感的句子;第二级是:将第一级识别出来的包含未来情感的句子分为正面评论(看涨)和负面评论(看跌)。实验结果表明,所提方法对自动识别股票投资者的未来情感倾向达到了非常好的效果。 相似文献
10.
11.
具有较强褒贬倾向的词语搭配对于文本的情感分析具有重要的价值。该文提出了一种混合语言信息的词语搭配的倾向判别方法。该方法首先根据词语搭配六种模式的特点,确定出各模式的概率潜在语义模型,然后利用这些语义模型判别搭配的情感倾向。最后对部分包含情感词的搭配再利用规则修正其先前标注的情感倾向。基于汽车语料的实验结果表明,基于混合语言信息的词语搭配情感倾向判别方法优于单纯基于概率潜在语义模型或规则的方法。 相似文献
12.
13.
中文词语语义相似度计算——基于《知网》2000 总被引:8,自引:2,他引:8
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。 相似文献
14.
基于Wikipedia的语义元数据生成 总被引:1,自引:0,他引:1
语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题。由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要大量的手工工作,这也就使得这两个问题在构建一个成功的系统时至关重要。该文基于Wikipedia来解决这两个问题通过分析一个类别中条目的目录表(table-of-contents)来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库。实验结果表明,该文的方法能够有效地解决这两个问题,为进一步的大规模的语义元数据应用系统打下了坚实的基础。 相似文献
15.