首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
本着构建维吾尔语依存树库的目的,该文根据黏着性语言的结构特点及其在依存属性中对依存角色的影响,提出构建维吾尔语依存树库时需要考虑的几点要素。其包含依存粒度的确定、维吾尔语依存关系、标注原则、依存树结构以及标注工具的设计与实现。然后根据《维吾尔语依存树库标注手册》人工标注了3 400多条句子并从三个角度对依存树库信息做了统计分析。  相似文献   

2.
篇章关系研究,旨在推断同一篇章内相邻或跨度在一定范围内的文本片段之间的语义连接关系。语义连接关系对篇章内容理解和结构分析都具有重要作用,成为目前篇章分析领域的重点研究内容。该文针对三个中英文篇章关系研究领域的语料库: 基于修辞结构理论的篇章树库(Rhetorical Structure Theory Discourse Treebank,RSTDT)、宾州篇章树库(Penn Discourse Treebank,PDTB)和哈尔滨工业大学中文篇章关系语料库(HIT Chinese Discourse Treebank,HIT-CDTB),主要介绍篇章关系分析理论的语料资源与研究背景、标注与评测体系以及国内外研究现状。此外,总结相关工作,指出目前篇章关系,尤其是隐式篇章关系研究的主要难题。  相似文献   

3.
孙成  孔芳 《中文信息学报》2018,32(12):48-56
篇章结构解析作为篇章分析的子任务,对于篇章理解和下游篇章应用至关重要。该文基于中文连接依存树篇章标注语料,利用转移系统和深度学习的方法,给出了一个完整的从平文本到树形结构的篇章结构自动解析框架。该文统计了中文篇章语料的基本特点,提出了针对树形篇章结构的评测方法,并采用不同的方法对篇章解析过程的篇章子结构进行分布式表示,对比了不同方法下篇章结构解析的性能。  相似文献   

4.
篇章依存结构一般表示为最小篇章单位(小句)间的支配与被支配关系,相比修辞结构等,其可以有效刻画最小篇章单位间的直接关系及其向心性。篇章依存结构的理论内涵及具体实践有待深入。该文结合汉语篇章依存结构语料库的标注实践,重点分析标注难点问题并给出处理方案,包括小句切分、小句关联、依存中心等重要分析任务。事实上,这些难点不仅是人工标注的难点,也是自动标注的难点,其处理不仅有利于指导构建高质量语料库,也有利于指导进一步的自动标注研究。  相似文献   

5.
依存句法分析是自然语言处理的一个关键环节,目前对于越南语短语结构树的研究比较多,而依存结构树的研究就显得十分薄弱。提出了一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短语结构树转换成依存结构树。首先依据中文依存关系标注体系与越南语的语法规则,制定出依存关系列表;然后结合越南语的语言特点,制定出中心子节点过滤表,利用中心子节点过滤表的思想进行初步转化;最后使用依存关系标注器来进行依存关系标注。基于转换后得到的依存结构树,利用MSTParser工具进一步训练得到更多的越南语依存结构树。对实验结果进行了抽样评估,树库转换的准确率达到了89.4%,较好地解决了越南语由短语树到依存树的转换问题。  相似文献   

6.
由于对越南语的研究工作相对较少,因此还没有建立规模相对较大的依存树库。相对于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法分析要困难得多,所以该文提出了一种借助汉-越双语词对齐语料构建越南语依存树库的方法。首先对汉语-越南语句子对进行词对齐处理,然后对汉语句子进行依存句法分析。最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉-越双语词对齐关系映射到越南语句子中,从而生成越南语的依存树库。实验表明,该方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间。实验结果表明,该方法相比采用机器学习的方法准确率明显提高。  相似文献   

7.
构建藏语依存树库是实现藏语句法分析的重要基础,对藏语本体研究和信息处理具有重要价值。基于此,该文提出了一种基于树库转换的藏语依存树库构建方法。该方法首先扩充了前期构建的藏语短语结构树库,然后根据藏语短语结构树和依存树的特征设计树库转换规则,实现藏语短语结构树到依存结构树的初步转换,最后对自动转换结果进行人工校验,得到了2.2万句藏语依存树。为了对转换结果做出量化评价,该文抽取了依存树库中5%的依存树,对其依存关系进行校验和统计,最终依存关系的准确率达到89.36%,中心词的准确率达到92.09%。此外,该文使用基于神经网络的句法分析模型验证了依存树库的有效性。在该模型上,UAS值和LAS值分别达到83.62%和81.90%。研究证明,使用半自动的树库转换方法能够有效地完成藏语依存树库构建工作。  相似文献   

8.
短语树到依存树的自动转换研究   总被引:1,自引:0,他引:1  
不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(Tsinghua Chinese Treebank ,简称TCT) 标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(Dependency Structure) 的算法。这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型。我们对转换的效果进行了抽样评估,准确率可以达到97137 %。  相似文献   

9.
该文以汉英机器翻译为应用目标,以概念层次网络理论的语义网络和句类分析方法为理论基础,探讨了句类依存树库构建的理论和标注实践等问题,描述了构建树库所需的概念类别标注集和句类关系标注集。并通过与已有汉语树库进行对比,以汉语显性轻动词句的标注为例,分析了汉语句类依存树库的特点。该文在应用层面定义了面向汉英机器翻译的融句法语义信息于一体的“句类依存子树到串”双语转换模板,尝试基于汉语句类依存树库提取汉英转换模板。  相似文献   

10.
依据依存句法理论,该文制订了藏语句法标注体系及层次结构。通过分析构建藏语依存树库中存在的问题,提出了半自动依存树库构建模式,针对藏语特性提出了融合丰富特征的词对依存分类模型和依存边标注模型,实现了依存树库构建可视化工具,校对构建了1.1万句藏语依存句法树后,在基线系统下经实验验证,依存识别正确率提高了3%,使构建藏语依存树库工作取得了有效进展。  相似文献   

11.
篇章句间关系(Discourse Relation)是篇章级语义分析的重要内容,该文在英文篇章句间关系研究的基础上分析了中英文间的差异,总结了中文篇章级语义分析的特点,并在此基础上提出面向中文篇章句间关系的层次化语义关系体系,对句间关系类型进行详细描述。为了验证体系的合理性和完备性,我们在互联网新闻语料上进行了标注实践,分析了标注中遇到的难点并给出解决方案,为进一步的中文篇章级语义分析工作奠定基础。  相似文献   

12.
篇章分析是自然语言理解的基础。作为篇章分析的重要任务之一,汉语主次关系识别还处于探索阶段。该文提出了一种基于门控记忆网络(GMN)的汉语篇章主次关系识别方法。该方法首先使用Bi-LSTM和CNN分别获取每个篇章单元的全局信息和局部信息。然后,融合两部分篇章单元信息并从中计算得到一个门控单元。最后,使用这个门控单元捕获各个篇章单元相对于篇章整体来说相对重要的特征表示,从而识别出核心篇章单元。在Chinese Discourse Treebank(CDTB)语料库上的实验显示,和最好的基准系统相比,该文的方法在宏平均F1、微平均F1值上均得到了提高。  相似文献   

13.
宏观篇章结构解析旨在通过分析篇章的整体结构,为理解篇章的内容和主旨奠定基础。现有的研究大都采用了单一的自顶向下或自底向上的构建策略逐级地构建结构树,而单向构建策略无法根据不同待解析序列选择合适的解析动作,在解析流程中容易陷入决策局限性并将错误向后传播。该文提出一种集成自顶向下和自底向上两种构建策略的指针网络模型,该模型能同时利用两种构建策略的语义信息,从而选择合适的构建方式。在汉语宏观篇章树库(MCDTB 2.0)上的实验表明,通过集成两种构建方式,该文模型能有效提升篇章单元间的局部语义交互能力并减少构建过程中的错误传播,从而取得性能最优值。  相似文献   

14.
篇章衔接性分析是理解篇章的基础,汉语和英语在指代、连接和省略等主要衔接方式上存在差异。该文分别给出子句、连接词、指代和省略的汉英篇章衔接对齐标注策略,创建了规模为200个对齐文档的语料库资源,对标注语料进行质量评估并讨论了标注中的难点问题及解决方法。语料库中的子句、连接词和指代标注一致率分别为0.909、0.876和0.920。在该文构建的语料库上分别进行子句切分和连接词识别实验,结果表明,该文语料标注策略切实可行,标注质量满足实际需要。  相似文献   

15.
蒙古语文信息处理已初步完成字、词处理阶段的基本任务,正在步入句处理阶段,并且在国家自然科学基金的资助下构建了蒙古语依存树库MDTB。该文以MDTB为训练和评测数据,设计实现了一种基于词汇依存概率的蒙古语依存句法分析模型。目前,该模型的无标记准确率、有标记准确率和核心词准确率分别达到了71.24%、61.42%和93.05%。  相似文献   

16.
Dependency parsing has attracted considerable interest from researchers and developers in natural language processing. However, to obtain a high‐accuracy dependency parser, supervised techniques require a large volume of hand‐annotated data, which are extremely expensive. This paper presents a simple and effective approach for improving dependency parsing with subtrees derived from unannotated data, which are easy to obtain. First, we use a baseline parser to parse large‐scale unannotated data. Then, we extract subtrees from dependency parse trees in the auto‐parsed data. Next, the extracted subtrees are classified into several sets according to their frequency. Finally, we design new features based on the subtree sets for parsing algorithms. To demonstrate the effectiveness of our proposed approach, we conduct experiments on the English Penn Treebank and Chinese Penn Treebank. The results show that our approach significantly outperforms baseline systems. It also achieves the best accuracy for the Chinese data and an accuracy competitive with the best known systems for the English data.  相似文献   

17.
汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库Penn Chinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。  相似文献   

18.
该文从蒙古文信息处理角度出发,着重参考了其他语言语义角色标注的理论方法和蒙古语语义角色相关研究成果,结合蒙古语依存句法树库的特征,通过手工标注分析研究,制定了基于依存语法的蒙古语语义角色分类及其标记。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号