共查询到15条相似文献,搜索用时 187 毫秒
1.
人们理解自然语言通常是在篇章级进行的,随着词汇级及句子级研究的日益成熟,自然语言处理研究的焦点已转向篇章级.篇章分析的主要任务就是从整体上分析出篇章结构及其构成单元之间的语义关系,并利用上下文理解篇章.根据不同的篇章分析目的,篇章单元及其关系可以表示为不同的篇章基本结构,不同篇章基本结构及其关系的研究可提供不同层面的篇章理解.目前对汉语篇章内在规律的研究较少,缺乏对篇章进行有效分析和深入理解的理论方法体系,这严重制约了篇章级的相关研究及应用.重点关注篇章的两个最基本特征,即衔接性和连贯性,从篇章结构分析的理论研究、资源建设和计算模型这3个方面,分别探讨篇章修辞结构(体现篇章连贯性)和话题结构(体现篇章衔接性),对篇章理解的国内外研究现状进行了归纳和整理,并给出了目前存在的主要问题和研究趋势. 相似文献
2.
篇章分析是自然语言处理领域的一个重要任务。分析篇章主次关系有助于理解篇章的结构和语义,并为自然语言处理的应用提供有力的支持。该文在微观篇章主次关系识别研究的基础上,重点研究宏观篇章主次关系,提出了一种基于word2vec和LDA的主题相似度的宏观篇章主次关系识别模型。基于word2vec的主题相似度和基于LDA的主题相似度在不同维度上计算语义相似度,两者在语义层面形成互补,因而增强了模型识别宏观篇章主次关系的能力。该模型在宏观汉语篇章树库(MCDTB)上实验的F1值达到79.9%,正确率达到81.82%,相较基准系统分别提升了1.7%和1.81%。 相似文献
3.
4.
篇章关系研究,旨在推断同一篇章内相邻或跨度在一定范围内的文本片段之间的语义连接关系。语义连接关系对篇章内容理解和结构分析都具有重要作用,成为目前篇章分析领域的重点研究内容。该文针对三个中英文篇章关系研究领域的语料库: 基于修辞结构理论的篇章树库(Rhetorical Structure Theory Discourse Treebank,RSTDT)、宾州篇章树库(Penn Discourse Treebank,PDTB)和哈尔滨工业大学中文篇章关系语料库(HIT Chinese Discourse Treebank,HIT-CDTB),主要介绍篇章关系分析理论的语料资源与研究背景、标注与评测体系以及国内外研究现状。此外,总结相关工作,指出目前篇章关系,尤其是隐式篇章关系研究的主要难题。 相似文献
5.
6.
7.
修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。 相似文献
8.
由于缺少连接词信息,隐式篇章关系识别模型需要基于两个论元(子句或者句子)的语义来推导它们之间的篇章关系,但目前性能还比较低.对于语料标注人员而言,隐式篇章关系的标注是很困难的,他们通常先插入一个合适的连接词用于辅助隐式篇章关系的标注.基于上述情况,文中提出了一种基于知识蒸馏的隐式篇章关系识别方法,其目的是利用语料标注时插入的连接词信息来提高识别的性能.具体地,先构建一个连接词增强的模型用于融合连接词信息,然后基于知识蒸馏的方式把连接词增强模型学到的知识迁移到隐式篇章关系识别模型中.实验结果表明,在常用的PDTB数据集上,所提方法取得了比同类基准方法更好的识别性能. 相似文献
9.
篇章结构解析作为篇章分析的子任务,对于篇章理解和下游篇章应用至关重要。该文基于中文连接依存树篇章标注语料,利用转移系统和深度学习的方法,给出了一个完整的从平文本到树形结构的篇章结构自动解析框架。该文统计了中文篇章语料的基本特点,提出了针对树形篇章结构的评测方法,并采用不同的方法对篇章解析过程的篇章子结构进行分布式表示,对比了不同方法下篇章结构解析的性能。 相似文献
10.
篇章分析系统性研究的开展依赖于大规模高质量的标注语料.现有标注语料以纯手工标注和单机辅助标注为主,难以满足标注效率和语料质量的需求.因此,该文提出了一套简洁的语料标注协同流程,并基于此实现了一个汉语篇章宏观结构语料协同标注系统,提供了一种流程简洁、分角色协同合作、自动流程控制、安全可靠的线上标注模式.该系统通过设立标注流程状态、收集标注流程中用户的行为数据和语料库辅助统计等方法,从流程控制角度,优化汉语宏观篇章的标注流程,实现质量管控和数据分析.项目实践表明,该系统有效减少了相关标注人员的工作量,提高了标注效率和标注质量,可为大规模、协同汉语篇章语料标注打下基础. 相似文献
11.
12.
篇章分析是自然语言处理领域研究的热点和重点。相较于基于形式语法篇章分析的快速发展,篇章作为一个整体的语义单位,其功能和语义却没有引起足够的重视。该文提出一种融合全局语义信息和结构特征信息模型(FPRGS)来识别篇章的功能语用。该模型在获取篇章单元交互信息的同时融合篇章单元所在文章的全局信息,并使用门控语义网络将篇章单元的结构信息与语义信息结合,从而在语义和结构两方面获得了更加丰富的篇章单元信息。在汉语宏观篇章树库上的实验结果证明,该文提出的模型能够有效地识别篇章单元的功能语用。 相似文献
13.
14.
Discourse parsing is an important research area in natural language processing (NLP), which aims to parse the discourse structure of coherent sentences. In this survey, we introduce several different kinds of discourse parsing tasks, mainly including RST-style discourse parsing, PDTB-style discourse parsing, and discourse parsing for multiparty dialogue. For these tasks, we introduce the classical and recent existing methods, especially neural network approaches. After that, we describe the applications of discourse parsing for other NLP tasks, such as machine reading comprehension and sentiment analysis. Finally, we discuss the future trends of the task. 相似文献