首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 140 毫秒
1.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。  相似文献   

2.
汉语核心框架语义分析是从框架语义角度,通过抽取句子的核心框架,获取汉语句子的核心语义骨架。该文将核心框架语义分析分为核心目标词识别、框架选择和框架元素标注三个子任务,基于各个子任务的不同特点,采取最大熵模型分别对核心目标词识别与框架选择任务进行建模;采用序列标注模型条件随机场对框架元素标注任务进行建模。实验在汉语框架网资源的10 831条测试语料中显示,核心目标词识别和框架元素标注F值分别达到99.51%和59.01%,框架选择准确率达到84.73%。  相似文献   

3.
语义知识库是自然语言处理的基础性工程,但现阶段语义知识库的构建,大部分工作基于人工.基于英语框架网络FrameNet,采用FrameNet的现有框架库作为汉语框架网络的框架库,通过FrameNet中现有标注英文例句训练一语义角色标注器,利用英汉双语平行语料,对英文语料进行语义角色标注并将其映射到中文句子上,从标注好的汉语句子中提取汉语词元和例句填充汉语框架,构建汉语词汇库和例句库,从而实现汉语语义框架网络的自动构造.  相似文献   

4.
该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。  相似文献   

5.
该文研究了汉语框架自动识别中的歧义消解问题,即对给定句子中的目标词,基于其上下文环境,从现有的框架库中,为该目标词自动标注一个合适的框架。该文将此任务看作分类问题,使用最大熵建模,选用词、词性、基本块、依存句法树上的若干特征,并使用开窗口技术和BOW策略,以目前汉语框架语义知识库中的88个词元的2 077条例句为训练、测试语料,进行了3-fold交叉验证实验,最好结果取得69.28%的精确率(Accuracy)。  相似文献   

6.
语义角色标注是浅层语义分析的一种实现方式。目前汉语框架语义角色自动标注一般被看作以词为基本标注单元的序列标注问题,而已有研究中仅在词、词性层面来选取特征,标注结果并不理想。该文利用树条件随机场模型,通过在词、词性层面特征的基础上依次加入不同类型的依存特征,研究依存特征对汉语框架语义角色标注的影响。实验设置了8类,共24种特征模板,结果显示,加入依序特征的最优模版使标注结果的F值提高近3%,特别是对较长框架语义角色的标注结果有较好的改善。  相似文献   

7.
汉语框架语义网(Chinese FrameNet,CFN)是一个以Fillmore的框架语义学为理论基础、以英文FrameNet为参照、以汉语语料事实为依据的供计算机使用的汉语词汇语义数据库。该文首先介绍了汉语框架语义网的构建基础——框架语义学以及英语的框架语义网工程,然后具体分析了汉语框架语义网的构建技术,并对基于汉语框架网的语义角色自动标注研究进行了介绍,25个框架的交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%,61.62%;最后,介绍了几个基于汉语框架语义网的研究课题的进展情况。  相似文献   

8.
框架排歧指的是在一个给定的句子中,判断句中目标词激起的语义场景与该目标词可能激起的哪个框架一致,则将该框架分配给当前的目标词。框架排歧最重要的一个步骤就是特征选择,目前常用的方法是人工特征选择方法,但是这种方法不能有效地利用每个目标词的语义特征,而且大量实验表明,不同的目标词取得最好的结果时所用的特征模板是不同的。因此,该文为每个目标词设置一个特征模板,并提出了特征模板的自动选择算法,首先从语料中抽取特征构成特征集,然后利用打分机制,把特征集中得分最高的特征逐个加入到特征模板中,直到相邻两次的得分不再增加。该文借助汉语框架网语义资源,利用最大熵模型建模,使用自动特征选择算法选出特征模板,并进行5-fold交叉验证,平均精确率可达到84.46%。  相似文献   

9.
汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于BiLSTM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于BERT特征融合与膨胀卷积的语义角色标注模型,该模型包括四层:BERT层用于表达句子的丰富语义信息,Attention层对BERT获取的每一层信息进行动态权重融合,膨胀卷积(IDCNN)层进行特征提取,CRF层修正预测标签。该模型在三个副词框架数据集上表现良好,F1值均达到了82%以上。此外,将该模型应用于CFN数据集上,F1值达到88.29%,较基线模型提升了4%以上。  相似文献   

10.
《软件工程师》2016,(11):17-19
对于一条给定的句子,目标词识别就是识别出句子中能够激起语义场景的目标词。针对目标词识别中的特征选择问题,本文把目标词识别任务看作是一个分类问题,在传统的词法特征和上下文特征基础上,加入了句法结构特征设计特征模板,识别句子中的目标词。在汉语框架网的标注语料集上进行测试,实验结果表明,相比于传统的词特征,基于句法结构分析的目标词识别率有显著地提升。  相似文献   

11.
计算机语义分析是当前制约中文信息检索、信息抽取与机器翻译等应用技术发展的瓶颈问题,而语义角色标注是语义分析的一个主要任务.即以框架语义理论为基础,以汉语框架语义知识库的核心框架元素为语义角色标注的范畴知识体系,以认知语义领域为研究实例,以真实语料为依据,根据短语类型、句法功能以及短语内、外部其他句法语义特征,获取中文语...  相似文献   

12.
框架语义角色标注(Frame Semantic Role Labeling, FSRL)是基于FrameNet标注体系的语义分析任务。语义角色标注通常对句法有很强的依赖性,目前的语义角色标注模型大多基于双向长短时记忆网络Bi-LSTM,虽然可以获取句子中的长距离依赖信息,但无法很好地获取句子中的句法信息。因此,引入Self-Attention机制来捕获句子中每个词的句法信息。实验结果表明,该模型在CFN(Chinese FrameNet,汉语框架网)数据集上的F1值得到了提升,证明了融入self-attention机制可以改进汉语框架语义角色标注模型的性能。  相似文献   

13.
汉语框架语义知识库概述   总被引:1,自引:0,他引:1  
介绍了汉语框架语义知识库(Chinese FrameNet,简称CFN)的语义描述体系。CFN是一个以Fillmore的框架语义学为理论基础、以伯克利FrameNet为参照、以汉语语料事实为依据的供计算机使用的汉语词汇语义知识库,它包括框架库、句子库和词汇库三部分。经过三年的努力,目前已取得了阶段性成果。CFN构建工程量大,难度很高,目前课题组只能在有限目标下开展工作,但是,已经探索了一条可行的技术路径,为实现语义Web中的语义知识共享以及智能化、个性化的Web服务提供了基础资源。  相似文献   

14.
框架消歧指的是在给定的句子中根据目标词的上下文语境,自动识别出有歧义的目标词所属的框架。针对传统FrameNet框架消歧方法使用单一分类模型时没有考虑到目标词之间的联系而导致隐性特征难以被提取,以及分类结果比较依赖分类模型的性能及参数的设置的问题,提出了一种基于SVM和CRF双层模型的FrameNet框架消歧方法。该方法利用分治思想将框架消歧问题转化为对目标词的分类及序列标注。第一层SVM模型对输入的语料进行粗分类,得到分类标签序列;第二层CRF模型将文本序列和SVM模型的分类标签序列作为输入,将分类标签加入特征模板进一步进行序列标注。实验选取了FrameNet语义知识库中能够激起多个框架的18个词元,2?614条例句作为实验数据。实验结果显示,与传统方法相比,基于SVM和CRF的双层模型有较高的准确率,证明了该方法是一种较为适用的FrameNet框架消歧方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号