首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
情感词汇的获取是文本倾向性分析的基础。为了解决人工识别方法低效的不足,并为维吾尔语情感词的研究及情感词词典的创建提供一些可供选择的方法和思路,该文首先分析了维吾尔语情感词汇在上下文中表现的特征,并结合维吾尔语本身的语法特征,建立了扩展的维吾尔语新增特征模型,与词频逆文档频率(TF-IDF)算法相结合,实现了维吾尔语情感词汇的识别。实验结果指出该特征模型有效地提高了情感词汇的识别率。  相似文献   

2.
钟军  田生伟  禹龙 《计算机应用》2012,32(2):407-410
针对维吾尔语领域术语获取难度大,人工扩充领域术语工作量大、效率低等特点,利用词汇共现原理,以维吾尔语连接词和互信息(MI)为工具,快速扩充原始维吾尔语领域术语;建立了以维吾尔语领域术语为特征模板,利用条件随机场(CRF)模型实现Web文本中维吾尔语领域术语的自动发现方法,并在此基础上实现长维吾尔语领域术语的自动发现。实验表明,对短维吾尔语领域术语的自动发现准确率为 97.59%,召回率为 93.38%,对长维吾尔语领域术语的自动发现正确率达到55.72%。  相似文献   

3.
由于语言信息具有大数据量、随机性等特征,在语言学研究中常引进统计学方法来定量分析,以确定语言现象的基本特征,通过揭示数量关系来帮助判定语言系统之间的关系。本文选用现代维吾尔语中常用的发生语音弱化的词汇,建立一个语料库(弱化规则库),利用传统语言学,计算语言学和统计学相结合的方法对语料进行统计分析,实现了维吾尔语中生活常用词的词频统计分析,考察了维吾尔语词汇中的弱化情况和词频统计。  相似文献   

4.
针对“未然态”的舆情信息,挖掘网络热点、焦点及敏感话题,把握舆情动态,提高处置与监管网络突发事件能力等,是舆情分析的重要研究内容。对基于情感词汇Ontology的话题倾向性进行了研究。通过计算与情感词汇Ontology中情感词汇的语义相似度、统计话题语料中情感特征词汇的词频,计算语料中情感特征词汇的倾向性权重;根据情感特征词汇的倾向性权重计算话题倾向性强度和整体倾向性。最后在情感词汇Ontology指导下对话题中每篇语料的情感分类和倾向性强度进行规范化细粒度标注。  相似文献   

5.
本文阐述了以配价作为基本描写法、真实语料为事实依据的维吾尔语框架语义知识库(简称框架网FrameNet)的构建,该知识库在构建维吾尔语词汇及其所属框架的语义词典等诸多领域有着广阔的应用空间和发展前景。提出了研究维吾尔语中句法功能和概念结构(也就是语义结构) 之间的关系, 以及建立用于自然语言处理的维吾尔语网上词汇知识库的意义。在维吾尔语的研究中引入了框架语义知识库(框架网)。框架语义知识库作为一种网上词汇语料库, 包括对每个词位( lexeme)的各个涵义的句法、语义信息的详尽描述。本文为维吾尔语框架语义知识库中各个框架元素的句法、语义特征的说明等自然语言信息处理研究提出新的研究思路,对基于配价的维吾尔语框架语义知识库构建的方法进行了探讨。  相似文献   

6.
极性情感词是准确分析维吾尔文倾向性的基础资源。该文在前期构建的维吾尔语褒贬情感词典基础上进行网络情感词的自动扩展研究。首先分析维吾尔语情感表达的语言特征,总结了连词、程度副词与情感词的搭配规律,并基于此规律设计从情感语料库中获取候选情感词的算法,形成候选情感词库;最后再利用维吾尔语连词的特性,结合已创建的情感词典和维吾尔语反义词词典,以互联网作为超大规模语料库,设计基于搜索引擎的情感词极性判别算法,根据算法得分判别候选情感词的极性,再将其扩展到已构建的褒贬情感词库。实验结果表明,与扩展前的情感词库相比,使用互联网文本语料扩展后的情感词库后进行维吾尔语句子倾向性测评的准确率和召回率均有明显提高。  相似文献   

7.
情感Ontology构建与文本倾向性分析   总被引:3,自引:2,他引:1       下载免费PDF全文
对文本倾向性分析方法进行了研究,并提出了一种基于情感Ontology的分析方法。首先基于《知网》构建情感Ontology,然后基于情感Ontology抽取文本倾向性分析的特征词汇并判断其情感倾向性,最后根据抽取的特征词汇对整篇文本的倾向性进行分析。实验结果表明,以实验语料中的所有词汇作为特征词汇,在Baseline的基础上,利用情感Ontology抽取特征词汇的文本倾向性分析方法可以使准确率达到86.76%。  相似文献   

8.
针对维吾尔语句子情感信息:喜、怒、哀、乐和客观五分类任务,提出一种利用深度信念网络模型(Deep Belief Nets, DBN)的深度学习机制进行基于深层语义特征的句子级情感分析方法。该方法通过对维吾尔语情感句及语言特点的深入研究,提取出利于情感分析任务的8项情感特征。为了提高特征对文本语义的表达,将富含词汇深层语义和上下文信息的word embedding特征与情感特征进行融合,作为深度信念网络的输入。利用多层无监督的波尔兹曼机(RBM)训练并提取隐含的深层语义特征,通过有监督的后向传播算法对网络进行微调,进而完成情感分类任务。该方法在维吾尔语句子级情感分类任务中的准确率为83,35%,召回率为84.42%,F值为:83.88%. 实验结果证明,深度学习模型较浅层的学习模型更合适于本文的情感分类任务,对word embedding特征项的引入,有效的提高了情感分类模型的性能.  相似文献   

9.
为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。  相似文献   

10.
针对维吾尔文情感语料库标注体系不规范、语料库规模小、没有合适的标注平台等问题,分析英文和中文比较著名情感语料库的优点,结合维吾尔语文本的特点,建立维吾尔文情感语料标注规范,利用Python语言构建集数据采集与标注为一体的情感标注平台,最后构建在舆情分析和舆情监控中可以应用的维吾尔文情感语料库。实验结果表明,该标注规范具有可扩展性和实用性,标注平台可以有效地减轻标注人员的工作量,提高情感语料库的质量,情感语料库可以用于舆情分析任务。   相似文献   

11.
基于语义理解的中文博文倾向性分析   总被引:3,自引:0,他引:3  
何凤英 《计算机应用》2011,31(8):2130-2133
博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客文本的情感倾向性分析也逐渐成为信息挖掘领域的热点。目前,文本倾向性分析的研究大都围绕普通文本、新闻评论进行,针对博客文本的特点,提出一种基于语义理解的博客文本倾向性分类方法。首先以HowNet情感词语集为基准,构建中文基础情感词典,并用中文词语相似度方法计算词语的情感权值,同时分析语义层副词的出现规律及其对文本倾向性判断的影响,最后利用博主的语言风格因素对倾向性结果进行修正实现博文的情感分类。实验表明,该方法能有效地判定博客文本情感倾向性。  相似文献   

12.
为提取文本的局部最优情感极性、捕捉文本情感极性转移的语义信息,提出一种基于卷积注意力机制的神经网络模型(CNN_attention_LSTM)。使用卷积操作提取文本注意力信号,将其加权融合到Word-Embedding文本分布式表示矩阵中,突出文本关注重点的情感词与转折词,使用长短记忆网络LSTM来捕捉文本前后情感语义关系,采用softmax线性函数实现情感分类。在4个数据集上进行的实验结果表明,在具有情感转折词的文本中,该模型能够更精准捕捉文本情感倾向,提高分类精度。  相似文献   

13.
首先分析微博文本新词出现规律,通过程度词发现微博新词,然后通过拓展的PMI算法,计算新词与情感基准词之间的点互信息值,根据点互信息值将新词分为褒贬2类后加入微博领域词典。接着构建基础情感词典,考虑到微博文本的独特性和汉语言特点,构建微博表情词典、否定词典、程度词词典、连词词典。最后结合情感词典与语义规则,通过与微博表情进行情感值加权的方式来对中文微博进行情感分析。通过对抓取的微博数据集进行测试,验证了本文提出的分析策略的有效性。  相似文献   

14.
情感倾向,就是人对人或事物的看法,即主观色彩,通常分为褒贬、积极消极、好坏等方面。情感词语的情感倾向判别和权值赋予问题是文本倾向性分析研究中的基础,情感权值的研究在文本倾向性分析、舆情分析、文本分类等研究领域有着广泛的应用,最具有代表性的方法是通过对《知网》中词语的义原相似度的计算来进行词语相似度的计算。在其词语相似度计算方法的基础上,对《知网》词语概念库glossary.dat文件进行提取、修剪和增删,并通过同义词、反义词和人工甄选种子词语,使其对于情感词的权值的计算研究更加精确,实验结果表明,该方法在情感词褒贬义判别、权值取值上和应用上都有不错的效果。  相似文献   

15.
大数据时代,文本的情感倾向对于文本潜在价值挖掘具有重要意义,然而人工方法很难有效挖掘网络上评论文本的潜在价值,随着计算机技术的快速发展,这一问题得到了有效解决。在文本情感分析中,获取词语的情感信息对于情感分析至关重要,词向量方法一般仅对词语的语法语义进行建模,但是忽略了词语的情感信息,无法更好地进行情感分析。通过TF-IDF算法模型获得赋权矩阵,构建停用词表,同时根据赋权矩阵生成Huffman树作为改进的CBOW算法的输入,引入情感词典生成情感标签辅助词向量生成,使词向量具有情感信息。实验结果表明,提出的方法对评论文本中获得的词向量能够较好地表达情感信息,情感分类结果优于传统模型。因此,该模型在评论文本情感分析中可以有效提升文本情感分类效果。  相似文献   

16.
龙珑  邓伟 《计算机应用研究》2013,30(4):1095-1098
由于目前博客基本是文本格式,提出基于语义理解分析博文倾向性的方法。算法以HowNet情感词语词库为基础,绿色网络云系统可以创建并不断完善绿色网络系统的情感字典云数据库,使用词语相似度方法计算词语的情感权值,同时利用词语的情感权值的计算对博文倾向性作初始判定,从而得到博文的情感倾向性判定结果。最后通过实验对该方法进行验证,结果表明该算法可以有效地判定博客文本情感倾向性,为绿色网络系统是否过滤该博客提供准确依据。  相似文献   

17.
用户的情感倾向与市场波动之间的联系,对金融市场的监控和股价异常处理有着重要作用,因此针对金融领域用户生成的文本进行情感分析很有意义。然而,由于金融领域文本的术语比较多,句子比较长,以及缺乏现成的情感语料库,所以针对该领域的情感分析研究目前还比较少。根据金融领域文本的特点,充分考虑到金融领域情感词的特征、单个句子中词语的位置权重以及情感词相互间的修饰关系,提出SVM分类结合Stanford句法依存分析方法,计算文档的情感值。利用重要财经网站上抽取的金融领域数据进行实验,综合值F达到了82.1%,比文献中其他方法更为精准。  相似文献   

18.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

19.
文本情感转换的任务需要调整文本的情感并保留与情感无关的内容。但是由于缺乏并行数据,很难提取独立于情感的内容并以无监督学习的方式对情感进行转换,并且由于GAN处理文本类的离散数据效果不如处理连续数据,为此使用了强化学习(Reinforcement Learning)的方法来解决GAN处理离散数据的问题。强化学习的奖励机制来自完整序列上的GAN的判别器,并且用蒙特卡罗搜索方法对生成器进行优化,从而提高生成文本的准确性。为了将源文本中的情感词的极性进行转换,在长短记忆神经网络(LSTM)中增加了自注意力机制(self-attention),再通过情感记忆模块(sentiment-memory)结合上下文来生成情感词极性反转后的文本作为SMRFGAN(Self-attention Memory Reinforcement learning GAN)预训练的真实数据。实验结果表明,该模型较好地解决了独立于情感内容进行情感转换的问题,BLEU评分有较好的提升。  相似文献   

20.
基于SVM的文本词句情感分析   总被引:2,自引:0,他引:2  
近年来,文本情感倾向性分析已成为自然语言处理领域的热点,在垃圾过滤、文本分类、网络舆情分析等领域有广泛的应用。将研究中文文本词句的情感分析问题,重点解决喜、怒、哀、惧四类粒度大的情感分析问题。首先构建喜、怒、哀、惧基准情感词,然后对情感词特征进行分析,进而挖掘潜在情感词,最后使用支持向量机分类的方法融合词特征、词性特征、语义特征等各种特征,对句子进行情感识别及分类。实验表明,在COAE2009评测任务情感词句识别此方法是合理和有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号