首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。  相似文献   

2.
一种基于角色匹配的事件抽取方法   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域一个重要的研究方向,事件抽取模式的定义和获取是其中的一个关键问题。提出了一种基于动词论元结构层次模型,将事件元素与动词的语义角色相对应,在实体、词性、关键词层次对事件元素进行语义约束的事件抽取模式定义方法。另外,为减轻模式建设的代价,提出了一种从标注语料中自动归纳事件抽取模式的方法。在此基础上,以发布事件为实例构建了实验系统,实验结果表明该方法的F指数达到71.7%。  相似文献   

3.
微博客蕴含交通事件信息抽取的自动标注方法   总被引:1,自引:0,他引:1  
微博客文本蕴含丰富的实时交通事件信息,能够为现有交通信息采集手段提供补充。然而,当前事件抽取方法缺少对地理实体关系的判断过程,对涉及多个地理实体及关系表达的地理空间要素抽取效果不佳,难以准确识别交通事件信息的位置描述。该文提出一种自动标注方法,将地理实体关系识别引入事件抽取过程来解决这一问题。该方法利用条件随机场模型实现交通事件角色标注,利用支撑向量机模型实现角色关系与要素关系标注,完成了交通事件信息空间要素识别。以新浪微博为数据源开展的实验分析表明,该文所提出的微博客蕴含交通事件抽取方法,正确率和召回率均达到90%,优于现有的基于模式匹配的抽取方法。  相似文献   

4.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。  相似文献   

5.
采用融合自注意力机制的双向长短期记忆模型(SelfAtt-BILSTM)和条件随机场模型(CRF),构建一种SelfAtt-BILSTM-CRF模型,对政策文本进行语义角色标注,以提取政策主要内容。采用某高校政策文件为实验数据集,利用BILSTM模型自动学习序列化语句上下文特征,融合自注意力机制增加重要特征元素的权重,通过CRF层利用特征进行序列标注,提取语义角色,以实现政策文件的主要内容挖掘。经过对比验证,该模型能够有效地提取政策文本内容,在标注数据集上F1值达到78.99%。实验结果同时表明,自注意力机制能够有效提高神经网络模型的语义角色标注效果。  相似文献   

6.
信息抽取技术用于从非结构化文本数据中提取关注度较高的信息。事件抽取技术是信息抽取研究领域中具有挑战的研究方向。事件抽取的目的是从非结构化文本数据中抽取描述事件的关键元素,并以结构化的方式呈现。事件抽取被看作序列标注任务,首先采用ALBERT预训练模型学习特征,其次引入条件随机场CRF模型提高序列标注性能,最后完成事件类型以及事件要素的识别分类。在ACE2005标准语料库上的实验结果表明,与现有模型相比,ALBERT-CRF模型在触发词识别和分类任务上的召回率和F值均有所提高。  相似文献   

7.
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础.  相似文献   

8.
事件抽取旨在把含有事件信息的非结构化文本以结构化的形式予以呈现。现有的基于监督学习的事件抽取方法往往受限于数据稀疏和分布不平衡问题,具有较低的召回率。针对这一问题,该文提出一种利用框架语义优化事件抽取的方法,引入框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回性能。实验结果显示,针对触发词(事件类型)识别任务,相较于仅使用事件类型识别模型,该文提出的框架语义辅助的事件类型识别模型能够提高抽取召回率6.44%(5.74%),提高F值1.45%(0.83%)。  相似文献   

9.
基于框架语义标注的自由文本信息抽取研究   总被引:1,自引:0,他引:1       下载免费PDF全文
信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE(图书内容简介信息抽取)系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。  相似文献   

10.
描述了一个基于依存关系的语义角色标注系统,该系统把依存关系作为语义角色标注的基本单元。通过手工或自动标注出来的依存关系,构造出依存关系树,并从树上抽取特征。用最大熵模型对句中谓词的语义角色进行识别和分类。为了消除不必要的结构化信息,在预处理阶段,依存关系树经过了Xue的剪枝算法处理。通过特征工程,丰富的特征及其组合被应用于系统。最终使用 CoNLL 2008 shared task提供的数据作为训练、开发和测试集,使用手工标注的依存关系,F1值达到了86.25%;使用MSTParser自动产生的依存关系,F1值达到了81.66%。  相似文献   

11.
基于语义组块分析的汉语语义角色标注   总被引:1,自引:1,他引:0  
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。  相似文献   

12.
李劲  张华  辜希武 《计算机科学》2012,39(7):154-160
个人简历(Curriculum Vitae,Vita)通常包含了丰富的数据,如个人信息、教育背景以及工作经历等。从大量的个人简历中抽取出有用的信息并提供检索服务,可以提供更加全面和完整的个人资料。个人简历中包含的信息可以看成是按时间排序的事件序列。进一步地,可以从不同的个人简历所包含的事件中挖掘出事件之间的关联关系。提出了一个从个人简历中提取并检索事件的框架,它可以自动地从互联网上搜索并下载个人简历文档,并从中提取出感兴趣的事件保存在数据库里,以进一步查询和检索事件。所完成的工作包括:(1)提出了一个事件表示模型,用于描述事件的基本属性及检索事件;(2)基于条件随机场提出了一个概率模型,用于从个人简历中自动提取事件;(3)通过挖掘事件属性之间的共现性,提出了基于事件的检索方法。  相似文献   

13.
在信息抽取越来越重要的今天,作为其重要研究方向,事件抽取也备受关注。选择了基于事件实例的方式,提出在对事件非事件句子分类的基础上,进行事件关键元素提取的研究。在句子分类上抓取句子特征进行分类,随后对包含事件句子中词进行特征抓取分类,选出特定事件元素。选取了SVM多元分类算法,并取得了一定成果。  相似文献   

14.
在基于依存的语义角色标注研究中,大多数系统采用机器学习方法进行论元识别和分类。该文分析了依存树的特点,发现论元集中分布于依存树上的特定局部范围内,因此提出一种基于依存树距离的论元识别方法。该方法将候选论元限制在与目标动词的依存树距离不超过3 的范围内,通过制订规则,提取目标动词的最佳候选论元集合。在CoNLL2009中文语料上采用正确的依存树,识别出了98.5%的论元。在此基础上,结合基于机器学习的角色分类,系统F值达到89.46%,比前人的方法 (81.68%)有了较为显著的提升。  相似文献   

15.
作为主流的浅层语义表示形式,语义角色标注一直是自然语言处理领域的研究热点之一。目前学术界已有的语义角色标注规范(PropBank规范和北大规范)主要存在三个问题:①基于片段的论元表示让标注难度加大; ②PropBank中谓词框架的定义难度较大; ③北大规范缺乏省略论元的标注。经过充分调研,该文尝试融合已有的中英文语义角色标注规范的优点,同时结合实际标注中遇到的问题,制定了一种轻量级的适合非语言学背景的标注者参与的中文语义角色标注规范。第一,采用基于词的论元表示,避免了片段边界的确定,从而降低标注难度;第二,标注者直接根据句子上下文信息,标注谓词相关论元角色,而无须预先定义每个谓词的所有语义框架;第三,显式标注句子中省略的核心论元,更准确地刻画句子的语义信息。此外,为了保证标注一致性和提高数据标注质量,规范针对各种复杂语言现象,给出了明确的优先级规定和难点分析。  相似文献   

16.
针对线性条件随机场模型不能清楚表达语义角色内部结构关系的问题,提出一种基于树状条件随机场模型的语义角色标注方法。对句法依存树上的层次依赖关系和兄弟依赖关系进行标注,处理状态变量之间的长距离依赖,利用CRFs模型能添加任意特征的优点,在系统中添加新的组合特征和介词短语角色。在CoNNL 2008 Shared Task语料库上进行实验,结果证明该方法能有效提高系统的准确率和召回率。  相似文献   

17.
汉语框架语义角色的自动标注   总被引:3,自引:0,他引:3  
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号