首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
改进的基于知网词汇语义褒贬倾向性计算   总被引:1,自引:0,他引:1       下载免费PDF全文
词汇语义褒贬倾向性研究是句子褒贬倾向性识别的基础,而句子褒贬倾向性识别又是文本倾向性识别和篇章结构褒贬倾向性识别的基础。以《知网》的词汇语义相似度计算为基础,针对目前采用计算基准词对与词汇相似度的方法识别词汇褒贬倾向性理论,从褒贬基准词和计算公式入手,提出了改进办法。实验证明,在同样基准词对下,准确率得到了很大的提高,达到98.94%,具有实际应用价值。  相似文献   

2.
基于语义理解的文本倾向性识别机制   总被引:20,自引:5,他引:20  
文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性;最后采用否定规则匹配文本中的语义否定的策略提高分类效果,同时处理程度副词附近的褒义词和贬义词,以加强对文本褒贬义强度的识别。  相似文献   

3.
褒贬倾向性识别在信息过滤、自动文摘、文本分类等领域有良好的应用前景.针对褒贬倾向性较为集中的论坛网页,提出了基于特定论坛主题的网页文本褒贬倾向性计算方法.结合句法分析和词语相似度计算方法,提取反映主题倾向的特征词,根据每个信息块的倾向性计算页面的褒贬倾向,实现了论坛网页句子级别、信息块级别和网页级别等三个层次的褒贬倾向性计算,在部分语料范围内的实验结果良好,对于此类网页的分析评价有一定的意义.  相似文献   

4.
互联网上大量的主观评论性信息蕴含着巨大的商业价值,同时也促使了倾向性识别研究的兴起。句子倾向性识别是文本倾向性识别的基础,现有句子倾向性识别方法存在着识别效果不理想、模式抽取困难等问题。将情感词视为基因,在不同的语境下呈现出不同的性状,通过构建情感词语义倾向分析器,先确定情感词的静态显性,然后根据不同的语境确定情感词的动态显性,最后提出基于情感词语义加权的句子倾向性识别算法。实验结果显示,该方法提高了句子倾向性识别的判全率和判准率,是合理和有效的。  相似文献   

5.
基于语义分析的词汇倾向识别研究   总被引:2,自引:0,他引:2  
随着互联网的安全发展和人们对信息需求的日益增强,文本倾向识别方向的研究在许多领域有着广阔的发展前景.作为文本语义倾向识别的研究基础,本文侧重于词汇的语义倾向性判别,利用《知网》中对汉语词汇的定义和描述,建立由褒贬倾向较强烈的词汇组成的种子集,并结合上下文环境因素的影响,采用一种度量方法获取种子词与普通词之间的语义倾向相似度,识别普通词的褒贬倾向.实验表明,本文方法对常用词的倾向识别效果较好,可为更大粒度的文本倾向识别打好基础,具有一定的实用价值.  相似文献   

6.
自动摘要是解决网络信息过载问题的关键技术之一.在对文本中旬子的特征和句子之间的语义距离分析的基础上,提出了一种基于句子特征和语义距离的自动文本摘要算法.首先计算文档中句子的各个特征权重,在此基础上决定句子的权重;然后,通过句子之间的语义距离计算,修改句子的权重,据此进行排序,权重大的作为文本的主题句;最后,对文摘句进行平滑处理,生成文字流畅的文本摘要.实验表明,该算法在不同的压缩率下生成的摘要接近于人工摘要,具有较好的性能.  相似文献   

7.
肖正  刘辉  李兵 《计算机科学》2014,41(9):248-252,284
情感倾向分析本质上可以看作是一个情感极性分类问题。在海量数据处理的大背景下,为了提高文本情感判断的准确率,提出了一种结合潜在语义分析LSA(Latent Semantic Analysis)和支持向量机SVM(Supported Vector Machine)的文本褒贬情感倾向分类方法。从语义的角度利用潜在语义分析方法建立"词-文档"的语义距离向量空间模型,然后使用具有良好分类精度和泛化能力的支持向量机进行情感分类。实验结果表明,该方法在句子简短、情感倾向比较明显的Web评论中的准确率较传统的SVM方法有了一定的提高,在测试集上的分类准确率接近88%。  相似文献   

8.
王忠林 《计算机科学》2011,38(8):239-241,274
句子语义距离计算是许多智能系统的一项基础技术。基于多尺度分析思想,提出一个多级语义距离计算方法。首先通过词汇级语义距离算法对句子对进行初步过滤,然后对于语义距离小于一定阂值的例子进行语法分析、语义分析;获得标准语义分析框架之后,再次对框架中的中心概念进行比较,最后对通过二级筛选的句子对使用基于动态权重的语义同构算法进行计算,得到最终的语义距离。最后通过实验验证,该方法总精度达到73.3%,对相关度比较高的情况,到达和基于语义级算法相近的91. 4%。  相似文献   

9.
一个基于语义分析的倾向性文档过滤系统   总被引:3,自引:0,他引:3  
目前的过滤系统大都是基于关键词的,这类系统适用于主题性过滤,而对倾向性过滤效果不好。本文提出一种适用于倾向性文档过滤的系统,通过语义分析,有效地识别和过滤倾向性文本信息。  相似文献   

10.
中文网络评论观点词汇语义褒贬倾向性判断   总被引:1,自引:0,他引:1  
李华  储荷兰  高旻 《计算机应用》2012,32(11):3023-3033
由于网络评论信息的庞大,因此通过计算机自动识别出用户评论观点的褒贬倾向性具有重要意义。以基于HowNet的词汇语义相似度方法的词汇语义倾向性分析为基础,根据观点词的褒贬特性改进词汇语义相似度计算方法以适用于评论词汇的倾向性判断,并且考虑词汇与多个基准词相似度较小时弱化个别有价值的较大相似度,从而提高倾向性判断的准确率。实验结果表明,改进后的方法在计算观点词词汇语义相似度时更为合理,并且判断倾向性时准确率有一定的提高。  相似文献   

11.
从现代汉语语义学角度,可将句义类型划分为简单句义、复杂句义、复合句义和多重句义4种。作为在整体上对句义结构进行描述的方式之一,句义类型识别是对汉语句子进行完整句义结构分析的重要步骤。该文基于谓词及句义类型块提出了一种汉语句义类型识别的方法,实现了4种句义类型的识别。该方法先通过句中谓词的个数进行初步识别判断出部分简单句,再对剩余的句子先用C4.5机器学习的方法得到句中谓词经过的最大句义类型块的个数,再结合句法结构中顶端句子节点进行判决,最终给出剩余句子的句义类型判定结果。实验采用BFS-CTC汉语标注语料库中10221个句子进行开集测试,句义类型的整体识别准确率达到97.6%,为基于现代汉语语义学的研究奠定了一定的技术研究基础。  相似文献   

12.
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。  相似文献   

13.
该文提出面向文本聚类分析的实体—动作关联模型EARM,探讨汉语语义实体及其行为的描述方法。汉语属于非形态语言,语句没有时态及语态的变化,词类跟句法成分之间也不是简单的一一对应关系。该文提出一种句法成分识别机制,根据词汇类别特征及位置特征识别实体及动作。在句法成分识别的基础上展开句法分析,通过匹配句型特征建立实体—动作关联模型EARM,描述实体的行为及状态。对于嵌套句型等较为复杂的句型结构,需要在句法分析过程中实施动作层次分解,将复杂语句分解为简单的基本句型,以便于挖掘实体—动作关联。考虑到汉语语法比较灵活,语句成分缺省和倒装现象相对普遍,该文提出了倒装句的识别机制,通过匹配接近的句型进行实体移位,调整语序。论述了基于统计模型的EARM权重量化策略,借助语法树的最大公共子图量化文本的相似度并实施聚类,设计并开展了EARM实体—动作分析实验和EARM聚类实验。实验结果表明EARM的分析是准确有效的,聚类结果是合理的。  相似文献   

14.
针对目前观点分析方法局限于传统的文本分析技术,只能将舆论观点句分为肯定和否定两极或确定每一极的程度(粗粒度),不能进一步给出舆论观点句是积极的还是消极的程度的问题。本文从认知学角度研究细粒度语义情感计算框架。提出了一种舆情观点句的定量分析方法,该方法将对于某话题的文本集合作为输入,输出一个实数表示文本中所表达观点的能量。本文在NLPIR共享平台上进行了相关实验,给出了粗粒度情感和细粒度情感对观点句识别的对比实验,实验表明,两种方法对观点句的识别性能相差不大;对非观点句细粒度方法好于粗粒度方法。  相似文献   

15.
文本情感倾向分析是意见挖掘和情感文摘中的一个重要环节,而在情感倾向分析中涉及到的是主观性文本,这就需要进行主客观文本分类。当前的主客观文本分类方法主要是基于特征词典的概率统计方法,并没有考虑特征之间的语法与语义关系。针对该问题,该文提出一种基于隐马尔可夫模型(HMM)的主观句识别方法。该方法首先从训练语料中抽取具有明显分类效果的七类主客观特征,然后每个句子应用HMM进行特征角色类别标注,并依据标注的结果计算句子的权重,最终识别主观句。该方法在第六届中文倾向性分析评测任务中能够有效地识别主观句。  相似文献   

16.
语义理解是自然语言理解的一项关键任务,传统上采用以语法为中心的词法和句法分析等技术来解析句义。该文提出了一种以语义块分析藏文句义的新方法,其中藏文语义块识别通过采用Bi-LSTM和ID-CNN 两种神经网络构架对该任务进行建模和对比分析。经实验,上述的两种模型在测试数据集上取得了良好的性能表现, F1值平均分别为89%和92%。这种语义块分析和识别技术能够较好地替代词义消歧和语义角色标注等工作。  相似文献   

17.
BFS-CTC汉语句义结构标注语料库   总被引:3,自引:0,他引:3  
句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus)。标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10 000句。同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展。  相似文献   

18.
INTERACTIVE SEMANTIC ANALYSIS OF TECHNICAL TEXTS   总被引:4,自引:0,他引:4  
Sentence syntax is the basis for organizing semantic relations in TANKA, a project that aims to acquire knowledge from technical text. Other hallmarks include an absence of precoded domain-specific knowledge; significant use of public-domain generic linguistic information sources; involvement of the user as a judge and source of expertise; and learning from the meaning representations produced during processing. These elements shape the realization of the TANKA project: implementing a trainable text processing system to propose correct semantic interpretations to the user. A three-level model of sentence semantics, including a comprehensive Case system, provides the framework for TANKA's representations. Text is first processed by the DIPETT parser, which can handle a wide variety of unedited sentences. The semantic analysis module HAIKU then semi-automatically extracts semantic patterns from the parse trees and composes them into domain knowledge representations. HAIKU's dictionaries and main algorithm are described with the aid of examples and traces of user interaction. Encouraging experimental results are described and evaluated.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号