共查询到18条相似文献,搜索用时 109 毫秒
1.
2.
篇章关系研究,旨在推断同一篇章内相邻或跨度在一定范围内的文本片段之间的语义连接关系。语义连接关系对篇章内容理解和结构分析都具有重要作用,成为目前篇章分析领域的重点研究内容。该文针对三个中英文篇章关系研究领域的语料库: 基于修辞结构理论的篇章树库(Rhetorical Structure Theory Discourse Treebank,RSTDT)、宾州篇章树库(Penn Discourse Treebank,PDTB)和哈尔滨工业大学中文篇章关系语料库(HIT Chinese Discourse Treebank,HIT-CDTB),主要介绍篇章关系分析理论的语料资源与研究背景、标注与评测体系以及国内外研究现状。此外,总结相关工作,指出目前篇章关系,尤其是隐式篇章关系研究的主要难题。 相似文献
3.
篇章结构解析作为篇章分析的子任务,对于篇章理解和下游篇章应用至关重要。该文基于中文连接依存树篇章标注语料,利用转移系统和深度学习的方法,给出了一个完整的从平文本到树形结构的篇章结构自动解析框架。该文统计了中文篇章语料的基本特点,提出了针对树形篇章结构的评测方法,并采用不同的方法对篇章解析过程的篇章子结构进行分布式表示,对比了不同方法下篇章结构解析的性能。 相似文献
4.
5.
《计算机科学与探索》2017,(4):599-607
依存句法分析是自然语言处理的一个关键环节,目前对于越南语短语结构树的研究比较多,而依存结构树的研究就显得十分薄弱。提出了一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短语结构树转换成依存结构树。首先依据中文依存关系标注体系与越南语的语法规则,制定出依存关系列表;然后结合越南语的语言特点,制定出中心子节点过滤表,利用中心子节点过滤表的思想进行初步转化;最后使用依存关系标注器来进行依存关系标注。基于转换后得到的依存结构树,利用MSTParser工具进一步训练得到更多的越南语依存结构树。对实验结果进行了抽样评估,树库转换的准确率达到了89.4%,较好地解决了越南语由短语树到依存树的转换问题。 相似文献
6.
由于对越南语的研究工作相对较少,因此还没有建立规模相对较大的依存树库。相对于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法分析要困难得多,所以该文提出了一种借助汉-越双语词对齐语料构建越南语依存树库的方法。首先对汉语-越南语句子对进行词对齐处理,然后对汉语句子进行依存句法分析。最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉-越双语词对齐关系映射到越南语句子中,从而生成越南语的依存树库。实验表明,该方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间。实验结果表明,该方法相比采用机器学习的方法准确率明显提高。 相似文献
7.
构建藏语依存树库是实现藏语句法分析的重要基础,对藏语本体研究和信息处理具有重要价值。基于此,该文提出了一种基于树库转换的藏语依存树库构建方法。该方法首先扩充了前期构建的藏语短语结构树库,然后根据藏语短语结构树和依存树的特征设计树库转换规则,实现藏语短语结构树到依存结构树的初步转换,最后对自动转换结果进行人工校验,得到了2.2万句藏语依存树。为了对转换结果做出量化评价,该文抽取了依存树库中5%的依存树,对其依存关系进行校验和统计,最终依存关系的准确率达到89.36%,中心词的准确率达到92.09%。此外,该文使用基于神经网络的句法分析模型验证了依存树库的有效性。在该模型上,UAS值和LAS值分别达到83.62%和81.90%。研究证明,使用半自动的树库转换方法能够有效地完成藏语依存树库构建工作。 相似文献
8.
短语树到依存树的自动转换研究 总被引:1,自引:0,他引:1
不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(Tsinghua Chinese Treebank ,简称TCT) 标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(Dependency Structure) 的算法。这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型。我们对转换的效果进行了抽样评估,准确率可以达到97137 %。 相似文献
9.
该文以汉英机器翻译为应用目标,以概念层次网络理论的语义网络和句类分析方法为理论基础,探讨了句类依存树库构建的理论和标注实践等问题,描述了构建树库所需的概念类别标注集和句类关系标注集。并通过与已有汉语树库进行对比,以汉语显性轻动词句的标注为例,分析了汉语句类依存树库的特点。该文在应用层面定义了面向汉英机器翻译的融句法语义信息于一体的“句类依存子树到串”双语转换模板,尝试基于汉语句类依存树库提取汉英转换模板。 相似文献
10.
11.
12.
篇章分析是自然语言理解的基础。作为篇章分析的重要任务之一,汉语主次关系识别还处于探索阶段。该文提出了一种基于门控记忆网络(GMN)的汉语篇章主次关系识别方法。该方法首先使用Bi-LSTM和CNN分别获取每个篇章单元的全局信息和局部信息。然后,融合两部分篇章单元信息并从中计算得到一个门控单元。最后,使用这个门控单元捕获各个篇章单元相对于篇章整体来说相对重要的特征表示,从而识别出核心篇章单元。在Chinese Discourse Treebank(CDTB)语料库上的实验显示,和最好的基准系统相比,该文的方法在宏平均F1、微平均F1值上均得到了提高。 相似文献
13.
宏观篇章结构解析旨在通过分析篇章的整体结构,为理解篇章的内容和主旨奠定基础。现有的研究大都采用了单一的自顶向下或自底向上的构建策略逐级地构建结构树,而单向构建策略无法根据不同待解析序列选择合适的解析动作,在解析流程中容易陷入决策局限性并将错误向后传播。该文提出一种集成自顶向下和自底向上两种构建策略的指针网络模型,该模型能同时利用两种构建策略的语义信息,从而选择合适的构建方式。在汉语宏观篇章树库(MCDTB 2.0)上的实验表明,通过集成两种构建方式,该文模型能有效提升篇章单元间的局部语义交互能力并减少构建过程中的错误传播,从而取得性能最优值。 相似文献
14.
15.
16.
Wenliang Chen Jun’ichi Kazama Kiyotaka Uchimoto Kentaro Torisawa 《Computational Intelligence》2012,28(3):426-451
Dependency parsing has attracted considerable interest from researchers and developers in natural language processing. However, to obtain a high‐accuracy dependency parser, supervised techniques require a large volume of hand‐annotated data, which are extremely expensive. This paper presents a simple and effective approach for improving dependency parsing with subtrees derived from unannotated data, which are easy to obtain. First, we use a baseline parser to parse large‐scale unannotated data. Then, we extract subtrees from dependency parse trees in the auto‐parsed data. Next, the extracted subtrees are classified into several sets according to their frequency. Finally, we design new features based on the subtree sets for parsing algorithms. To demonstrate the effectiveness of our proposed approach, we conduct experiments on the English Penn Treebank and Chinese Penn Treebank. The results show that our approach significantly outperforms baseline systems. It also achieves the best accuracy for the Chinese data and an accuracy competitive with the best known systems for the English data. 相似文献
17.
汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库Penn Chinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。 相似文献