首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
篇章句间关系识别(Discourse Relation Recognition)是篇章分析的重要内容,该文对中文篇章句间关系识别任务进行初步探索,包括显式篇章句间关系识别与隐式篇章句间关系识别两类任务。针对显式篇章句间关系,我们提出基于关联词规则的方法进行识别,取得了很好的效果;针对隐式篇章句间关系,我们抽取词汇、句法、语义等特征,采用有指导模型进行识别。该文的分析和实验结果为后续研究提供了参考和基本对照系统。  相似文献   

2.
篇章结构分析是自然语言处理领域的一个重要研究方向.篇章结构分析有助于理解篇章的结构和语义,并为自然语言处理的应用(如自动文摘、主题抽取、问答系统等)提供有力的支撑.目前篇章结构分析主要集中在微观的层面,分析重点是句子内部或句子与句子之间的关系和结构,而宏观层面的研究相对较少.因此,本文以篇章结构作为研究对象,并将研究重点放在宏观篇章结构的表示体系和语料资源建设上.本文探讨了篇章结构分析的重要性,从理论体系、语料资源、计算模型等三个方面阐述了篇章结构分析的研究现状,提出了以篇章主次关系为媒介的宏观和微观统一的篇章结构表示框架,并分别构建了宏观篇章的逻辑语义结构和功能语用结构.在此基础上本文标注了规模为720篇新闻报道的宏观篇章结构语料,并对标注的结果进行了一致性分析和标注统计分析.  相似文献   

3.
在中文语义角色标注体系中,"对象格"作为汉语语法体系的"自产物",有着区别于其他语义角色的句法和语义的特征。讨论"对象格"的语义特征及相关语义角色标注间的纠结现象,提出了面对自然语言处理的"对象"语义角色标注流程图,并进行了相关实验验证。  相似文献   

4.
自然语言的语义理解涉及多个层面的问题,包括以谓词为中心的基本命题义、命题义之外的概念义、逻辑补足义等。目前主流的浅层语义分析主要集中在对命题义的分析上,缺少对概念义和逻辑义的支持,难以辅助计算机对文本的深度理解与推理。该文借鉴论元结构理论、事件语义学等相关语言学理论,突破语义角色标注等浅层语义分析的局限,建立了一种融合概念与逻辑的中文深层语义描述体系;并在该体系基础上,采用层层渲染的标注策略,构建了基于真实语料的大规模中文深层语义标注语料库,通过语言工程实践验证该描述体系的完备性和覆盖度。这一理论体系的建立和语言资源的构建,有望推动中文自动语义分析技术和人工智能等相关工作的创新发展。  相似文献   

5.
篇章标注是自然语言处理中的重要任务,很多其他任务,如自动摘要、机器问答等都可以通过篇章标注得到对文本内容和语义的认识,从而获得更好的结果。与此同时,篇章理解的理论如篇章修辞结构(RST),向心理论(CT)等与实际问题的结合并不紧密,难以实用。该文中我们参考现有的语言学理论和一些语篇标注库(如RST-DT,PDTB),并结合自然语言处理任务特点,提出了一套用于篇章标注的汉语标注体系。这个体系能够比较准确和全面地描述出篇章的内容和逻辑关系,并很好地服务于实际任务的需要。  相似文献   

6.
为实现篇章连贯语义关系的判定与自动标注,提出一种综合运用关联词多种语法信息的自动标注方法。该方法利用关联词的词性分布规则排除非关联词,标注出潜在关联词,对比关联词库中的模式表,并综合利用搭配距离、搭配强度和句法位置获取合法的篇章连贯模式,在此基础上标注出其语义关系。通过实验验证了该方法的有效性。  相似文献   

7.
修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。  相似文献   

8.
篇章连贯性研究是篇章分析领域的重要课题之一。基于Chinese FrameNet(CFN),该文构建了汉语篇章连贯性描述体系,该描述体系研究了框架语义与篇章单元的关系,探讨了篇章如何通过框架与框架之间的语义关系实现篇章的连贯,为篇章连贯提供了合适的描写机制和计算基础。从《人民日报》选取了160篇文章进行标注实践,在篇章结构和篇章关系两方面均取得了大于0.8的kappa值,验证了描述体系具有较高的人工标注一致性,可作为进一步进行大规模篇章标注语料构建的依据。  相似文献   

9.
名词短语一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到了研究者的持续关注。英文方面,已建立了一定规模的名词短语语义关系知识库。但迄今为止,尚未建立相应或更大规模的描述名词短语语义关系的中文资源。该文借鉴国内外诸多学者对名词短语语义分类的研究成果,对大规模真实语料中的基本复合名词短语实例进行试标注与分析,建立了中文基本复合名词短语语义关系体系及相应句法语义知识库,该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有18 281条高频基本复合名词短语,每条短语均标注了语义关系、短语结构及是否指称实体等信息,每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库,该文还做了基本复合名词短语句法语义的初步统计与分析。  相似文献   

10.
作为一种新的句子语义表示方法,抽象语义表示(AMR)将一个句子抽象为单根有向无环图,目前已经建立了较大规模的英文语料库。然而,句子中的词语和AMR图的概念对齐信息缺失,使得自动分析效果和语料标注质量受到影响,同时中文尚无较大规模的AMR语料库。该文介绍了中文AMR语料库的构建工作,针对汉语特点调整了AMR的标注体系,增加对复句关系的标注,提出了融合概念对齐的一体化标注方案,解决了中英文输入法频繁切换的问题,增加了错别字纠正和未标注词高亮功能,提高了标注效率。然后,从CTB中选取了6 923句进行人工标注,形成中文AMR语料库,统计得到图和环的比例分别为48%和1%,以及利用对齐信息才能获取的非投影句的比例32%,为中文AMR的理论和自动分析研究奠定基础。  相似文献   

11.
篇章关系研究,旨在推断同一篇章内相邻或跨度在一定范围内的文本片段之间的语义连接关系。语义连接关系对篇章内容理解和结构分析都具有重要作用,成为目前篇章分析领域的重点研究内容。该文针对三个中英文篇章关系研究领域的语料库: 基于修辞结构理论的篇章树库(Rhetorical Structure Theory Discourse Treebank,RSTDT)、宾州篇章树库(Penn Discourse Treebank,PDTB)和哈尔滨工业大学中文篇章关系语料库(HIT Chinese Discourse Treebank,HIT-CDTB),主要介绍篇章关系分析理论的语料资源与研究背景、标注与评测体系以及国内外研究现状。此外,总结相关工作,指出目前篇章关系,尤其是隐式篇章关系研究的主要难题。  相似文献   

12.
汉英篇章结构平行语料库是为汉英翻译文本标注对齐篇章结构信息的语料库,对齐标注是其核心工作,基本原则是“结构对齐、关系对齐”。该文基于所开发的对齐标注平台,进行人工对齐标注实验,提出切分对齐、结构对齐、关系对齐、连接词对齐、关系角色与中心对齐等对齐标注任务的评估方法,并给出评估分析。实验表明,对齐标注是构建汉英篇章结构平行语料库的合理、有效工作方式。  相似文献   

13.
篇章结构分析旨在理解文章的整体结构及其各部分之间的语义联系.作为自然语言处理的研究热点,近年来篇章结构分析研究发展迅速.首先总结英语和汉语中篇章结构分析理论,然后介绍相关篇章语料库及其计算模型的研究.在此基础上,梳理了当前英语、汉语中篇章结构分析的相关工作脉络,构建了篇章结构分析研究框架,归纳总结出当前研究的趋势和热点.然后,简要介绍篇章结构在下游任务中的应用.最后,指出当前汉语篇章结构分析存在的问题与挑战,为今后的研究提供指导和帮助.  相似文献   

14.
篇章分析是自然语言处理领域研究的热点和重点。相较于基于形式语法篇章分析的快速发展,篇章作为一个整体的语义单位,其功能和语义却没有引起足够的重视。该文提出一种融合全局语义信息和结构特征信息模型(FPRGS)来识别篇章的功能语用。该模型在获取篇章单元交互信息的同时融合篇章单元所在文章的全局信息,并使用门控语义网络将篇章单元的结构信息与语义信息结合,从而在语义和结构两方面获得了更加丰富的篇章单元信息。在汉语宏观篇章树库上的实验结果证明,该文提出的模型能够有效地识别篇章单元的功能语用。  相似文献   

15.
该文通过20人对30篇汉语记叙文中语句焦点的标定结果,结合文本标注和统计分析,对焦点在词类和语义角色中的分布规律进行了探讨。结果主要发现,记叙文语篇中焦点词大约占实词总数的五分之一。形容词成为焦点的概率远高于其他词类。焦点在语义角色中分布的总体趋势是 客体论元的焦点化倾向最高,其次是外围论元,最低的是主体论元和谓词部分。  相似文献   

16.
篇章关系识别是篇章分析中一项具有挑战性的子任务。传统的篇章关系分析主要是用篇章的局部特征对篇章关系进行分析,但是局部特征无法直接诠释篇章单元的外部语义关系,因此该文基于汉语框架语义网识别篇章关系,在框架语义层面对篇章单元进行分析。该文主要利用汉语框架语义网中的目标词,对篇章单元进行分析,从而识别出篇章关系。实验结果表明,核心目标词能更完整地表达篇章单元的核心语义,对篇章关系的识别有较好的效果。  相似文献   

17.
隐式篇章关系分类是篇章分析领域的一个重要研究子任务,大部分已有研究都假设参与分类的正类样本和负类样本数量相等,采用随机欠采样等不平衡数据处理方法保持训练样本中数据平衡,然而,在实际语料中正类样本和负类样本的分布是不平衡的,这一现象往往制约隐式篇章关系分类性能的有效提升。针对该问题,该文提出一种基于框架语义向量的隐式篇章关系分类方法,该方法借助框架语义知识库,将论元表示成框架语义向量,在此基础上,从外部数据资源中挖掘有效的篇章关系样本,对训练样本进行扩展,解决数据不平衡问题。在宾州篇章树库(Penn Discourse Treebank, PDTB)语料上的实验结果表明,相较于目前主流的不平衡数据处理方法,该文方法能够明显提高隐式篇章关系分类性能。
  相似文献   

18.
句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。目前已在人民日报语料上完成了8000个句子的小句关系标注。抽取出其中1000个句子检测了双盲标注的一致性,揭示了汉语意合性语言小句关系标注的困难;并基于标注数据对关系类型进行了定量分析,指示了汉语句际关系自动分析将面临的重点和难点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号