共查询到16条相似文献,搜索用时 171 毫秒
1.
汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetorical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。 相似文献
2.
篇章关系研究,旨在推断同一篇章内相邻或跨度在一定范围内的文本片段之间的语义连接关系。语义连接关系对篇章内容理解和结构分析都具有重要作用,成为目前篇章分析领域的重点研究内容。该文针对三个中英文篇章关系研究领域的语料库: 基于修辞结构理论的篇章树库(Rhetorical Structure Theory Discourse Treebank,RSTDT)、宾州篇章树库(Penn Discourse Treebank,PDTB)和哈尔滨工业大学中文篇章关系语料库(HIT Chinese Discourse Treebank,HIT-CDTB),主要介绍篇章关系分析理论的语料资源与研究背景、标注与评测体系以及国内外研究现状。此外,总结相关工作,指出目前篇章关系,尤其是隐式篇章关系研究的主要难题。 相似文献
3.
4.
篇章结构分析是自然语言处理领域的一个重要研究方向.篇章结构分析有助于理解篇章的结构和语义,并为自然语言处理的应用(如自动文摘、主题抽取、问答系统等)提供有力的支撑.目前篇章结构分析主要集中在微观的层面,分析重点是句子内部或句子与句子之间的关系和结构,而宏观层面的研究相对较少.因此,本文以篇章结构作为研究对象,并将研究重点放在宏观篇章结构的表示体系和语料资源建设上.本文探讨了篇章结构分析的重要性,从理论体系、语料资源、计算模型等三个方面阐述了篇章结构分析的研究现状,提出了以篇章主次关系为媒介的宏观和微观统一的篇章结构表示框架,并分别构建了宏观篇章的逻辑语义结构和功能语用结构.在此基础上本文标注了规模为720篇新闻报道的宏观篇章结构语料,并对标注的结果进行了一致性分析和标注统计分析. 相似文献
5.
6.
篇章结构解析作为篇章分析的子任务,对于篇章理解和下游篇章应用至关重要。该文基于中文连接依存树篇章标注语料,利用转移系统和深度学习的方法,给出了一个完整的从平文本到树形结构的篇章结构自动解析框架。该文统计了中文篇章语料的基本特点,提出了针对树形篇章结构的评测方法,并采用不同的方法对篇章解析过程的篇章子结构进行分布式表示,对比了不同方法下篇章结构解析的性能。 相似文献
7.
尽管抽取式自动文摘方法是目前自动文摘领域的主流方法,并且取得了长足的进步,但抽取式自动文摘形成的摘要由于缺乏句子之间的合理指代或篇章结构,使得文摘缺乏连贯性而影响可读性。为提高自动摘要的可读性,该文尝试将篇章修辞结构信息应用于中文自动文摘。首先,基于汉语篇章修辞结构抽取摘要,然后使用基于LSTM的方法对文本连贯性进行建模,并使用该模型对文摘的连贯性做出评价。实验结果表明: 在摘要抽取方面,基于篇章修辞结构的自动文摘相比于传统的抽取方法具有更好的ROUGE评价值;在使用基于LSTM连贯性模型评价摘要连贯性方面,篇章结构信息在自动抽取文摘时可以很好地提炼出文章的主旨,同时使摘要具有更好的结果。 相似文献
8.
伴随信息时代的快速发展,网络中的数据资源呈现井喷式增长趋势。如何从无序繁多的信息中挖掘深层次的结构化信息,构建一定规模的可用知识库,对于自然语言处理相关任务的研究具有重要意义。上下位关系作为知识库的基本框架,受到国内外专家学者的一致青睐。而目前已经存在的语料库大多局限在通用领域,对跨句子的上下位关系的关注相对较少,而对跨篇章的上下位关系目前还未见到相关标注。该文提出了一种基于同义推理的篇章级实体上下位关系标注策略,并以国防科技领域的文本作为具体实施对象,最终构建了一个中等规模的篇章级上下位关系语料库,该语料库涵盖国防军事领域的新闻文本和科技文献两种题材,共计962篇文本,共标注了11 020个语义关系。实体上下位关系的标注一致性达到0.82,为国防科技领域的上下位关系识别研究奠定了语料基础。 相似文献
9.
10.
11.
12.
基于篇章结构的文本自动标引算法 总被引:3,自引:0,他引:3
通过对输入文本分析,划分文本的篇章结构,分为依次存在包含关系的全文章节、段落、复句、分句五个层次,用文本结构树来表示.给出了标记方法,并在此基础上讨论并实现了文本篇章结构的自动标引,提出了两个标引算法并给出了比较结果,为自动文摘后续工作给予了很大帮助. 相似文献
13.
基于Schema和RST的自然语言生成混合规划方法 总被引:3,自引:0,他引:3
在自然语言生成系统的内容规划阶段,主要的手段是基于Schema的规划方法和修辞结构理论RST方法,Schema方法只适用于模式固定、细节略有变化的文本的生成,而RST方法则比较灵活,但是它的数据结构、规则库比较难建立。把这两种方法集成起来,并对Schema方法进行改造,使之能与RST有机地结合起来。在规划文本时首先用Schema方法规划全局的组织,然后用RST方法控制局部话语的连贯。这种结构可弥补采用单一方法的不足,具有双方的优点。 相似文献
14.
人们理解自然语言通常是在篇章级进行的,随着词汇级及句子级研究的日益成熟,自然语言处理研究的焦点已转向篇章级.篇章分析的主要任务就是从整体上分析出篇章结构及其构成单元之间的语义关系,并利用上下文理解篇章.根据不同的篇章分析目的,篇章单元及其关系可以表示为不同的篇章基本结构,不同篇章基本结构及其关系的研究可提供不同层面的篇章理解.目前对汉语篇章内在规律的研究较少,缺乏对篇章进行有效分析和深入理解的理论方法体系,这严重制约了篇章级的相关研究及应用.重点关注篇章的两个最基本特征,即衔接性和连贯性,从篇章结构分析的理论研究、资源建设和计算模型这3个方面,分别探讨篇章修辞结构(体现篇章连贯性)和话题结构(体现篇章衔接性),对篇章理解的国内外研究现状进行了归纳和整理,并给出了目前存在的主要问题和研究趋势. 相似文献
15.
16.
汉语文本形式结构分析及其标引算法 总被引:3,自引:0,他引:3
本文从形式化的角度讨论了汉语文本的形式结构及有关的基本概念,给出了文本的标题、子标题、段落及其层次结构的一种划分与标记方法,提出了规范的与准规范的文本等概念,并以此为基础讨论了文本形式结构的标引问题,给出了两个标引算法。本文阐明的方法和结果对汉语文本的全文文本标引及结构化分析具有直接的现实意义。 相似文献