首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
BFS-CTC汉语句义结构标注语料库   总被引:3,自引:0,他引:3  
句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus)。标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10 000句。同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展。  相似文献   

2.
基于特征结构的汉语主谓谓语句语义标注研究   总被引:1,自引:0,他引:1  
建构大规模的汉语语义资源,是当前中文信息处理的重要任务之一。但是其中语义分析的传统方法存在一些问题,不能很好的反映汉语中各个词语或成分之间的语义关联。该文提出了基于特征结构的语义标注方法,并在此基础上建构了一个大规模的汉语语义资源。以汉语主谓谓语句为例,探讨了特征结构的标注方法。结果表明,特征结构分析解决了以往传统标注方法对汉语特殊句型无法表示的难题,包含更多的语义信息,其标注效率更高, 标注精度也更高。  相似文献   

3.
杨海彤 《计算机工程》2019,45(1):172-177
针对语义角色标注中的多谓词现象,从图模型角度出发,提出一种中文多谓词语义角色标注方法。对句中的多个谓词进行联合语义分析,并采用随机爬山算法优化图模型。利用句中多个谓词之间的全局特征,提升语义角色的区分度。在中文命题库上的实验结果表明,该方法可以明显提高语义角色标注的分类效果。  相似文献   

4.
“V+V”是现代汉语中的常见结构,能够形成兼语、连动等多种完全不同的句法结构,给句法和语义解析造成困难。针对“V+V”形成的句法结构类型和序列关系识别问题,设计并制定了一套语料库标注规范,以解决语料库中存在的“V+V”结构的嵌套标注问题,并据此构建起一个包含5 381个兼语句子、7 987个连动句子,以及1 212个兼语连动嵌套句子的“V+V”语料库。提出一个基于BiLSTM-CRF和多头注意力机制的模型,能够同时识别结构中的多个动词和名词的句法、语义角色。相比于以往只研究单项识别兼语或者连动结构,该模型不仅可以同时识别兼语结构、连动结构,还可以解决兼语连动嵌套结构的识别问题。实验结果表明:该方法能够很好地解决“V+V”序列关系的识别问题,在测试集语料上达到92.12%的F1值。  相似文献   

5.
连动句是具备连动结构的句子,是汉语中一种特殊的句法结构,在现代汉语中十分常见且使用频繁.连动句语法结构和语义关系都很复杂,在识别中存在许多问题,对此该文针对连动句的识别问题进行了研究,提出了一种基于神经网络的连动句识别方法.该方法分两步:第一步,运用简单的规则对语料进行预处理;第二步,利用文本分类的思想,使用BERT编...  相似文献   

6.
多模型融合的多标签图像自动标注   总被引:1,自引:0,他引:1  
为了实现更为准确的复杂语义内容图像理解,提出一种融合多模型的多标签图像自动标注方法.该方法采用3个不同的模型分别对图像语义内容进行分析:在前景语义概念检测中,提出一种基于多特征的视觉显著性分析方法,并利用多Nystrm近似核对前景对象的语义进行判别分析;对于背景概念检测,提出一种区域语义分析的方法;通过构造基于潜语义分析的语义相关矩阵来消除标注错误的标签.根据前景和背景的语义和视觉特征,分别采用不同的模型提取前景和背景标注词,而语义相关分析能够有效地提高标注的准确性.实验结果表明,该多模型融合标注方法在图像的深层语义分析以及多标签标注方面具有较好的效果;与同类算法相比,能够有效地减少错误标注的标签数目,得到更加准确的标注结果.  相似文献   

7.
计算语言学领域多采取问句分类和句法分析相结合的方式处理疑问句,但精度和效率还不理想。疑问句的语言学研究成果丰富,比如疑问句的结构类型、疑问焦点等,但缺乏系统的形式化表示。该文采用基于图结构的句子语义整体表示方法——中文抽象语义表示来标注疑问句的语义结构,将疑问焦点和整句语义一体化表示出来,选取了宾州中文树库、小学语文教材等2万句语料中共计2 071个疑问句进行标注。统计结果表明,疑问焦点可通过疑问概念amr-unknown和语义关系的组合来表示。其次,根据疑问代词所关联的语义关系,统计了疑问焦点的概率分布,发现原因、修饰语和受事的占比最高,分别占26.45%、16.74%以及16.45%。基于抽象语义表示的疑问句标注与分析可以为汉语疑问句研究提供基础理论与资源。  相似文献   

8.
本文提出了一种基于循环神经网络的语义完整性分析方法,通过判断句子是否语义完整,将长文本切分成多个语义完整句.首先,对文本进行分词,映射为相应的词向量并进行标注,然后将词向量和标注信息通过循环窗口和欠采样方法处理后,作为循环神经网络的输入,经过训练最后得到模型.实验结果表明,该方法可以达到91.61%的准确率,为主观题自动评分工作提供了基础,同时对语义分析、问答系统和机器翻译等研究有一定的帮助.  相似文献   

9.
阅读理解中否定是一种复杂的语言现象,其往往会反转情感或态度的极性。因此,正确分析否定语义对语篇理解具有重要意义。现有否定语义分析方法存在两个问题:第一,研究的否定词较少达不到应用目的;第二,目前汉语否定语义标注只是标注整个句子,这无法明确否定语义。针对该问题提出基于汉语框架语义知识库(Chinese FrameNet)进行否定语义角色标注方法。在框架语义学理论指导下结合汉语否定语义特征对已由FrameNet继承的否定框架重新构建;为了解决捕捉长距离信息以及句法特征问题,提出一种基于Hybrid Attention机制的BiLSTMCRF语义角色标注模型,其中,Hybrid Attention机制层将局部注意与全局注意结合准确表示句子中的否定语义,BiLSTM网络层自动学习并提取语句上下文信息,CRF层预测最优否定语义角色标签。经过比对验证,该模型能够有效提取出含有否定语义信息,在否定语义框架数据集上F1值达到89.82%。  相似文献   

10.
语义角色标注是浅层语义分析的一种实现方式。目前汉语框架语义角色自动标注一般被看作以词为基本标注单元的序列标注问题,而已有研究中仅在词、词性层面来选取特征,标注结果并不理想。该文利用树条件随机场模型,通过在词、词性层面特征的基础上依次加入不同类型的依存特征,研究依存特征对汉语框架语义角色标注的影响。实验设置了8类,共24种特征模板,结果显示,加入依序特征的最优模版使标注结果的F值提高近3%,特别是对较长框架语义角色的标注结果有较好的改善。  相似文献   

11.
基于框架语义标注的自由文本信息抽取研究   总被引:1,自引:0,他引:1       下载免费PDF全文
信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE(图书内容简介信息抽取)系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。  相似文献   

12.
在中文语义角色标注体系中,"对象格"作为汉语语法体系的"自产物",有着区别于其他语义角色的句法和语义的特征。讨论"对象格"的语义特征及相关语义角色标注间的纠结现象,提出了面对自然语言处理的"对象"语义角色标注流程图,并进行了相关实验验证。  相似文献   

13.
汉语树库是汉语信息处理的宝贵资源,其中包含了丰富的句子结构及成分组合信息,对树库中的词性串组合进行考察,是有效利用树库信息的基础工作。该文对汉语树库中的歧义组合进行考察,发现汉语中的结构歧义很大程度上要靠词语的语义特征来消解,仅仅依靠词语的语法特征(如词类信息)是无法解决的。  相似文献   

14.
The Chinese Proposition Bank (CPB) is a corpus annotated with semantic roles for the arguments of verbal and nominalized predicates. The semantic roles for the core arguments are defined in a predicate-specific manner. That is, a set of semantic roles, numerically identified, are defined for each sense of a predicate lemma and recorded in a valency lexicon called frame files. The predicate-specific manner in which the semantic roles are defined reduces the cognitive burden on the annotators since they only need to internalize a few roles at a time and this has contributed to the consistency in annotation. It was also a sensible approach given the contentious issue of how many semantic roles are needed if one were to adopt of set of global semantic roles that apply to all predicates. A downside of this approach, however, is that the predicate-specific roles may not be consistent across predicates, and this inconsistency has a negative impact on training automatic systems. Given the progress that has been made in defining semantic roles in the last decade or so, time is ripe for adopting a set of general semantic roles. In this article, we describe our effort to “re-annotate” the CPB with a set of “global” semantic roles that are predicate-independent and investigate their impact on automatic semantic role labeling systems. When defining these global semantic roles, we strive to make them compatible with a recently published ISO standards on the annotation of semantic roles (ISO 24617-4:2014 SemAF-SR) while taking the linguistic characteristics of the Chinese language into account. We show that in spite of the much larger number of global semantic roles, the accuracy of an off-the-shelf semantic role labeling system retrained on the data re-annotated with global semantic roles is comparable to that trained on the data set with the original predicate-specific semantic roles. We also argue that the re-annotated data set, together with the original data, provides the user with more flexibility when using the corpus.  相似文献   

15.
随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术是必然的发展趋势。本文根据Web挖掘的特点,运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,以便使数据提取更加准确。  相似文献   

16.
作为主流的浅层语义表示形式,语义角色标注一直是自然语言处理领域的研究热点之一。目前学术界已有的语义角色标注规范(PropBank规范和北大规范)主要存在三个问题:①基于片段的论元表示让标注难度加大; ②PropBank中谓词框架的定义难度较大; ③北大规范缺乏省略论元的标注。经过充分调研,该文尝试融合已有的中英文语义角色标注规范的优点,同时结合实际标注中遇到的问题,制定了一种轻量级的适合非语言学背景的标注者参与的中文语义角色标注规范。第一,采用基于词的论元表示,避免了片段边界的确定,从而降低标注难度;第二,标注者直接根据句子上下文信息,标注谓词相关论元角色,而无须预先定义每个谓词的所有语义框架;第三,显式标注句子中省略的核心论元,更准确地刻画句子的语义信息。此外,为了保证标注一致性和提高数据标注质量,规范针对各种复杂语言现象,给出了明确的优先级规定和难点分析。  相似文献   

17.
篇章句间关系(Discourse Relation)是篇章级语义分析的重要内容,该文在英文篇章句间关系研究的基础上分析了中英文间的差异,总结了中文篇章级语义分析的特点,并在此基础上提出面向中文篇章句间关系的层次化语义关系体系,对句间关系类型进行详细描述。为了验证体系的合理性和完备性,我们在互联网新闻语料上进行了标注实践,分析了标注中遇到的难点并给出解决方案,为进一步的中文篇章级语义分析工作奠定基础。  相似文献   

18.
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。  相似文献   

19.
提出了一种足球视频的语义结构,即足球视频由多个语义事件构成,每个语义事件由数个语义镜头组成。为了分析这种语义结构,建立了“精彩事件”和“一般事件”两种语义事件的多个隐马尔科夫模型(HMMs),并提出了场地比率、人脸比率、边缘、运动强度四种特征作为HMMs的观测值输入。利用HMM的三种算法训练HMMs,分析出精彩事件,并为每个镜头标注语义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号