首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 593 毫秒
1.
框架排歧指的是在一个给定的句子中,判断句中目标词激起的语义场景与该目标词可能激起的哪个框架一致,则将该框架分配给当前的目标词。框架排歧最重要的一个步骤就是特征选择,目前常用的方法是人工特征选择方法,但是这种方法不能有效地利用每个目标词的语义特征,而且大量实验表明,不同的目标词取得最好的结果时所用的特征模板是不同的。因此,该文为每个目标词设置一个特征模板,并提出了特征模板的自动选择算法,首先从语料中抽取特征构成特征集,然后利用打分机制,把特征集中得分最高的特征逐个加入到特征模板中,直到相邻两次的得分不再增加。该文借助汉语框架网语义资源,利用最大熵模型建模,使用自动特征选择算法选出特征模板,并进行5-fold交叉验证,平均精确率可达到84.46%。  相似文献   

2.
汉语核心框架语义分析是从框架语义角度,通过抽取句子的核心框架,获取汉语句子的核心语义骨架。该文将核心框架语义分析分为核心目标词识别、框架选择和框架元素标注三个子任务,基于各个子任务的不同特点,采取最大熵模型分别对核心目标词识别与框架选择任务进行建模;采用序列标注模型条件随机场对框架元素标注任务进行建模。实验在汉语框架网资源的10 831条测试语料中显示,核心目标词识别和框架元素标注F值分别达到99.51%和59.01%,框架选择准确率达到84.73%。  相似文献   

3.
汉语框架语义角色的自动标注   总被引:3,自引:0,他引:3  
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.  相似文献   

4.
框架排歧是根据句子中目标词的上下文语境,从框架库中为该目标词自动选择一个合适的框架。该任务在一定程度上解决了动词中一词多义的现象。该文基于词语及句子的分布式表征,提出了基于距离和基于词语相似度矩阵的框架排歧模型。与传统方法相比,该模型有效避免了人工选择特征,克服了特征空间维度过高、特征之间没有关联性等缺点,使框架排歧的准确率达到65.71%。并与当前最好的模型,进行显著性和一致性检验,进一步验证了词分布式表征对框架排歧任务的有效性。  相似文献   

5.
针对深度卷积神经网络模型缺乏对语义信息的表征能力,而细粒度视觉识别中种类间视觉差异微小且多集中在关键的语义部位的问题,提出基于语义信息融合的深度卷积神经网络模型及细粒度车型识别模型.该模型由定位网络和识别网络组成,通过定位网络FasterRCNN获取车辆目标及各语义部件的具体位置;借助识别网络提取目标车辆及各语义部件的特征,再使用小核卷积实现特征拼接和融合;最后经过深层神经网络得到最终识别结果.实验结果表明,文中模型在斯坦福BMW-10数据集的识别准确率为78.74%,高于VGG网络13.39%;在斯坦福cars-197数据集的识别准确率为85.94%,其迁移学习模型在BMVC car-types数据集的识别准确率为98.27%,比该数据集目前最好的识别效果提高3.77%;该模型避免了细粒度车型识别对于车辆目标及语义部件位置的依赖,并具有较高的识别准确率及通用性.  相似文献   

6.
该文基于汉语框架网,利用框架核心依存图形式化地表示一个汉语句子,使得对句子能够进行深层语义理解。为了得到框架核心依存图,需要提取其中框架元素的语义核心词。该文较为系统地描述了框架元素的语义核心词的识别问题。我们利用条件随机场模型、最大熵模型和支持向量机模型来识别框架元素语义核心词,并分别对这三种不同的模型所选的特征集进行了分析,且通过构造不同的特征模板进行对比实验,选取其中较优的特征模板和模型。结果表明,条件随机场模型具有较好的识别性能,在对其特征模板做进一步改进的基础上,识别效率也得到一定的提高。其中对简单型和复合型短语类型框架元素语义核心词识别的平均正确率分别达到了97.34%和94.03%。  相似文献   

7.
《软件工程师》2016,(11):17-19
对于一条给定的句子,目标词识别就是识别出句子中能够激起语义场景的目标词。针对目标词识别中的特征选择问题,本文把目标词识别任务看作是一个分类问题,在传统的词法特征和上下文特征基础上,加入了句法结构特征设计特征模板,识别句子中的目标词。在汉语框架网的标注语料集上进行测试,实验结果表明,相比于传统的词特征,基于句法结构分析的目标词识别率有显著地提升。  相似文献   

8.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。  相似文献   

9.
汉语框架语义角色识别是汉语框架语义分析的重要任务之一。该文基于汉语词语、词性等特征的分布式表示,使用一种多特征融合的神经网络结构来构建汉语框架语义角色识别模型。鉴于可用的训练语料规模有限,该文采用了Dropout正则化技术来改进神经网络的训练过程。实验结果表明,Dropout正则化的加入有效地缓解了模型的过拟合现象,使得模型的F值有了近7%的提高。该文进一步优化了学习率以及分布式表示的初始值,最终的汉语框架语义角色识别的F值达到70.54%,较原有的最优结果提升2%左右。  相似文献   

10.
该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。  相似文献   

11.
在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好语义角色的语料资源,以动词为分析核心,通过语义角色分析、标注句型的相似匹配、标注句型间相似度计算等步骤来实现句子语义的相似度量。为达到更好的实验效果,论文还综合比较了基于知网、词向量等多种计算词语相似度的算法,通过分析与实验对比,将实验效果最好的算法应用到句子相似度计算的研究中。实验结果显示,基于语义角色标注的句子相似度计算方法相对传统方法获得了更好的测试结果。  相似文献   

12.
高考语文阅读理解问答相对普通阅读理解问答难度更大,问句抽象表述的理解需要更深层的语言分析技术,答案候选句抽取更注重与问句的关联分析,答案候选句排序更注重答案句之间的语义相关性。为此,该文提出借助框架语义匹配和框架语义关系抽取答案候选句,在排序时引入流形排序模型,通过答案句之间的框架语义相关度将排序分数进行传播,最终选取分数较高的Top-4作为答案句。在北京近12年高考语文阅读理解问答题上的准确率与召回率分别达到了53.65%与79.06%。  相似文献   

13.
该文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个问题: 一是低频词的词向量质量难以保证;二是多义词的义项向量无法获得。该文提出了融合HowNet和大规模语料库的义原向量学习神经网络模型,并以义原向量为桥梁,自动得到义项向量及完善词向量。初步的实验结果表明该模型能有效提升在词相似度和词义消歧任务上的性能,有助于低频词和多义词的处理。作者指出,借重于人工知识库的神经网络语言模型应该成为今后一段时期自然语言处理的研究重点之一。  相似文献   

14.
该文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式。基于现有的LDA模型、段落向量、词向量等具体方法,提取出四种表征文本语义离散度的实例,应用于自动作文评分。该文从统计学角度将文本语义离散度向量化,从去中心化的角度将文本语义离散度矩阵化,并使用多元线性回归、卷积神经网络和循环神经网络三种方法进行对比实验。实验结果表明,在50篇作文的验证集上,在加入文本语义离散度特征后,预测分数与真实分数之间均方根误差最大降低10.99%,皮尔逊相关系数最高提升2.7倍。该表示方法通用性强,没有语种限制,可以扩展到任何语言。  相似文献   

15.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。  相似文献   

16.
基于语义树的中文词语相似度计算与分析   总被引:3,自引:1,他引:2  
词语相似度的分析与计算是自然语言处理关键技术之一,对句法分析、机器翻译、信息检索等能提供很好的帮助。基于语义资源Hownet的中文词语相似度计算是近年来的研究热点,但大多数的研究都是对中国科学院计算技术研究所刘群提出的计算方法的改进和完善。该文充分分析和利用新版Hownet(2007)的概念架构和语义多维表达形式,从概念的主类义原、主类义原框架以及概念特性描述三个方面综合分析词语相似度,并在计算中区分语义特征相似度和句法特征相似度。实验结果理想,与人的直观判断基本一致。  相似文献   

17.
蒙古文同形词歧义消除问题是蒙古文信息处理的难点之一。该文提出了基于蒙古语名词语义网的同形词歧义消除方法,设计实现了同形词歧义消除算法,最后给出了语料库中同形词歧义消除实验的设计过程及结果分析。  相似文献   

18.
语义知识资源蕴含了深刻的语言学理论,是语言学知识和语言工程的重要接口。该文以形容词句法语义词典为研究对象,探索对语义知识资源自动扩展的方法。该文的目标是利用大规模语料库,扩展原有词典的词表及其对应的句法格式。具体方法是根据词的句法格式将词典的词分类,将待扩展的新词通过分类器映射到原有词典的词中,以此把词典扩展问题转化为多类分类问题。依据的原理是词典词和待扩展新词在大规模语料中句法结构的相似性。该文通过远监督的方法构造训练数据,避免大量的人工标注。训练过程结合了浅层机器学习方法和深度神经网络,取得了有意义的成果。实验结果显示,深度神经网络能够习得句法结构信息,有效提升匹配的准确率。  相似文献   

19.
该文以联接理论、事件结构理论为指导,进行词汇语义类、语义角色、句法成分对应关系的研究。选择人教社中小学语文课文语料,标注语义角色、句法成分及中心词的词汇语义类。在标注语料库的基础上,统计分析了词汇语义类与语义角色的对应关系,重点分析各语义类语义角色映射为句法成分的规律,并进一步总结了各词汇语义类的语义角色与句法成分的对应的特点。尽管词汇语义类、语义角色、句法成分之间存在错综复杂的关系,但还是有规律的,可以为计算机句法分析提供一些依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号