共查询到15条相似文献,搜索用时 140 毫秒
1.
2.
3.
汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetorical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。 相似文献
4.
篇章结构分析是自然语言处理领域的一个重要研究方向.篇章结构分析有助于理解篇章的结构和语义,并为自然语言处理的应用(如自动文摘、主题抽取、问答系统等)提供有力的支撑.目前篇章结构分析主要集中在微观的层面,分析重点是句子内部或句子与句子之间的关系和结构,而宏观层面的研究相对较少.因此,本文以篇章结构作为研究对象,并将研究重点放在宏观篇章结构的表示体系和语料资源建设上.本文探讨了篇章结构分析的重要性,从理论体系、语料资源、计算模型等三个方面阐述了篇章结构分析的研究现状,提出了以篇章主次关系为媒介的宏观和微观统一的篇章结构表示框架,并分别构建了宏观篇章的逻辑语义结构和功能语用结构.在此基础上本文标注了规模为720篇新闻报道的宏观篇章结构语料,并对标注的结果进行了一致性分析和标注统计分析. 相似文献
5.
6.
篇章翻译方法借助跨句的上下文信息以提升篇章的翻译质量.篇章具有结构化的语义信息,可以形式化地表示为基本篇章单元之间的依存关系.但是目前的神经机器翻译方法很少利用篇章的结构信息.为此,提出了一种篇章翻译模型,能够在神经机器翻译的编码器-解码器框架中显式地建模基本篇章单元切分、篇章依存结构预测和篇章关系分类任务,从而得到结构信息增强的篇章单元表示.该表示分别通过门控加权和层次注意力的方式,与编码和解码的状态向量进行融合.此外,为了缓解模型在测试阶段对篇章分析器的依赖,在训练时采用多任务学习的策略,引导模型对翻译任务和篇章分析任务进行联合优化.在公开数据集上的实验结果表明,所提出的方法能够有效地建模和利用篇章单元间的依存结构信息,从而达到提升译文质量的目的. 相似文献
7.
该文在研究了有监督的基于实体和基于篇章关系网格的篇章连贯性模型的基础上,提出了一个无监督的基于主位-述位结构理论的篇章连贯性模型。该模型通过引入词语的词干、上下位、近义和复述等语义方面的信息来计算相邻句子中主位和述位的相似度,并利用此相似度值来描述篇章的连贯性。同时,该文提出了一种简单有效的基于篇章关系计数的连贯性模型,并采用线性组合方法将其与基于主位-述位结构理论的连贯性模型加以集成。上述模型在国际基准英文作文语料上进行试验,实验结果表明采用线性组合的连贯性模型后,作文连贯性检测准确率与目前基于实体和篇章关系网格的模型相比得到显著提升。 相似文献
8.
篇章关系研究,旨在推断同一篇章内相邻或跨度在一定范围内的文本片段之间的语义连接关系。语义连接关系对篇章内容理解和结构分析都具有重要作用,成为目前篇章分析领域的重点研究内容。该文针对三个中英文篇章关系研究领域的语料库: 基于修辞结构理论的篇章树库(Rhetorical Structure Theory Discourse Treebank,RSTDT)、宾州篇章树库(Penn Discourse Treebank,PDTB)和哈尔滨工业大学中文篇章关系语料库(HIT Chinese Discourse Treebank,HIT-CDTB),主要介绍篇章关系分析理论的语料资源与研究背景、标注与评测体系以及国内外研究现状。此外,总结相关工作,指出目前篇章关系,尤其是隐式篇章关系研究的主要难题。 相似文献
9.
10.
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根据零元素对应的先行词的状况将指代关系分成实体类、事件类、组合类和其他等4类;最后,基于篇章视角的汉语零指代表示体系,选取汉语树库CTB、连接词驱动的汉语篇章树库CDTB和OntoNotes语料中重叠的325篇文本进行了汉语零指代的标注,构建了服务于篇章分析的汉语零指代语料库.一方面,借助系统检测来说明所提出的表示体系合理有效,构造的语料库质量上乘;另一方面构建了完整的汉语零指代消解基准平台,从可计算的角度验证了所构建的汉语零指代语料库能够为篇章视角的汉语零指代研究提供必要的支撑. 相似文献
11.
12.
13.
尽管抽取式自动文摘方法是目前自动文摘领域的主流方法,并且取得了长足的进步,但抽取式自动文摘形成的摘要由于缺乏句子之间的合理指代或篇章结构,使得文摘缺乏连贯性而影响可读性。为提高自动摘要的可读性,该文尝试将篇章修辞结构信息应用于中文自动文摘。首先,基于汉语篇章修辞结构抽取摘要,然后使用基于LSTM的方法对文本连贯性进行建模,并使用该模型对文摘的连贯性做出评价。实验结果表明: 在摘要抽取方面,基于篇章修辞结构的自动文摘相比于传统的抽取方法具有更好的ROUGE评价值;在使用基于LSTM连贯性模型评价摘要连贯性方面,篇章结构信息在自动抽取文摘时可以很好地提炼出文章的主旨,同时使摘要具有更好的结果。 相似文献
14.
篇章分析是自然语言处理领域研究的热点和重点。相较于基于形式语法篇章分析的快速发展,篇章作为一个整体的语义单位,其功能和语义却没有引起足够的重视。该文提出一种融合全局语义信息和结构特征信息模型(FPRGS)来识别篇章的功能语用。该模型在获取篇章单元交互信息的同时融合篇章单元所在文章的全局信息,并使用门控语义网络将篇章单元的结构信息与语义信息结合,从而在语义和结构两方面获得了更加丰富的篇章单元信息。在汉语宏观篇章树库上的实验结果证明,该文提出的模型能够有效地识别篇章单元的功能语用。 相似文献