首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 258 毫秒
1.
语义角色标注是自然语言处理的一个重要研究内容,性能对机器翻译等研究有重大影响。实现了一个基于依存关系的中文名词性谓词语义角色标注平台,并对名词性谓词进行识别,使用最大熵分类模型在Chinese NomBank的转换语料上进行系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到78.09,基于自动句法树的语料上的F1值达到67.42。  相似文献   

2.
语义知识库是自然语言处理的基础性工程,但现阶段语义知识库的构建,大部分工作基于人工.基于英语框架网络FrameNet,采用FrameNet的现有框架库作为汉语框架网络的框架库,通过FrameNet中现有标注英文例句训练一语义角色标注器,利用英汉双语平行语料,对英文语料进行语义角色标注并将其映射到中文句子上,从标注好的汉语句子中提取汉语词元和例句填充汉语框架,构建汉语词汇库和例句库,从而实现汉语语义框架网络的自动构造.  相似文献   

3.
该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。  相似文献   

4.
首次实现了一个基于依存关系的中文名词性谓词识别平台,作为语义角色标注的前提,谓词识别的结果直接影响语义角色标注的性能。使用两种方法进行实验:一种是基于传统的特征向量的方法在Chinese Nombank 的转换语料上进行了系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到89.65,自动语料上达到81.27。另一种是使用树核的方法进行探索性实验,在标准语料和自动语料上分别得到84.62和80.93的F1值。  相似文献   

5.
语义角色除了受句法结构限制之外,同词汇的语义特征也有着紧密的内在联系。对于一些仅依靠句法分析不能很好解决的角色标注问题,如句法结构相同的两个成分所对应的角色分别为完全不同的施事、受事角色的情况,可以通过引入一些词汇语义特征来进行处理。该文基于北京大学的语义词典CSD,引入了配价数、主客体语义类等词汇语义特征来进行语义角色标注研究。10折交叉验证的结果显示,通过引用词汇语义特征,所有角色标注的总体评价F值比单纯使用句法特征上升了1.11%,而其中Arg0和Arg1角色标注的F值达到93.85%和90.60%,比仅使用句法特征进行角色标注分别提高了1.10%和1.26%。  相似文献   

6.
在自然语言处理中,语义角色标注是一个比较重要的任务。语义角色标注任务以语义角色理论为基础。语义角色标注任务和语言学的相关理论都要求同一个动词在不同语句中相应的语义角色成分保持一致。该文统计了北京大学973课题语义角色标注语料库及中文PropBank中“施事”的语义分布,进而根据该语义分布,加上人工筛选,共找出了85个在“施事”语义角色的标注上无法保持一致的动词。该文指出,这些动词的 “施事”语义无法保持一致的原因在于它们是一类有致使语义特征、无自主语义特征的动词。该文的研究对于处理其他语义角色(如“客体”)也存在的标注不一致问题有一定的启示。  相似文献   

7.
在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好语义角色的语料资源,以动词为分析核心,通过语义角色分析、标注句型的相似匹配、标注句型间相似度计算等步骤来实现句子语义的相似度量。为达到更好的实验效果,论文还综合比较了基于知网、词向量等多种计算词语相似度的算法,通过分析与实验对比,将实验效果最好的算法应用到句子相似度计算的研究中。实验结果显示,基于语义角色标注的句子相似度计算方法相对传统方法获得了更好的测试结果。  相似文献   

8.
基于依存句法分析的中文语义角色标注   总被引:3,自引:0,他引:3  
依存句法是句法分析的一种,相比于短语结构句法分析,依存句法具有更简洁的表达方式。该文采用英文语义角色标注的研究方法,实现了一个基于中文依存句法分析的语义角色标注系统。该系统针对中文依存关系树,采用有效的剪枝算法和特征,使用最大熵分类器进行语义角色的识别和分类。系统使用了两种不同的语料,一种是由标准短语结构句法分析(CTB5.0)转换而来,另一种是CoNLL2009公布的中文语料。系统分别在两种语料的标准谓词和自动谓词的基础上进行实验,在标准谓词上取得的F1值分别为84.30%和81.68%,在自动谓词上的F1值为81.02%和81.33%。  相似文献   

9.
语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集。目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务。为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系。在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集。截至目前,该工程一共完成了9 550条汉语语句的语义角色标注,其中含有9 423个中枢语义角色,29 142个主要周边语义角色,3 745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注。我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验。实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据。  相似文献   

10.
中文语义角色标注的特征工程   总被引:3,自引:2,他引:3  
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征: 例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。  相似文献   

11.
问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。为了提高中文问答系统的性能,文章在问答系统CQAS中采用了语义角色标注的思想,利用Proposition Bank中文语料库作为训练和测试语料,以句法成分作为标注的基本单元,采用最大熵模型作为分类器,把与谓词动词相关的全部句法成分进行语义角色标注。实验结果表明,语义角色标注技术可以有效地提高问答系统的性能。  相似文献   

12.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。  相似文献   

13.
置信度加权在线序列标注算法   总被引:2,自引:2,他引:0  
序列标注问题是自然语言处理领域的基本问题之一. 序列标注任务是将连续输入的不定长序列, 标注成连续等长的标签序列. 在在线序列标注方法的基本框架下, 针对序列标注任务的特征稀疏特性, 采用置信度加权分类算法思想, 提出了一种新的线性判别式在线序列标注方法---置信度加权在线序列标注算法. 该方法对每个特征权值参数引入一个概率置信度, 取得了优于其他相关算法的性能. 在中文分词, 中文名实体识别以及英文组块分析等问题上, 验证了本文方法的有效性.  相似文献   

14.
汉语框架语义角色的自动标注   总被引:3,自引:0,他引:3  
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.  相似文献   

15.
基于特征组合的中文语义角色标注   总被引:1,自引:0,他引:1  
提出一种基于特征组合和支持向量机(support vector machine,简称SVM)的语义角色标注(semantic role labeling,简称SRL)方法.该方法以句法成分作为基本标注单元,首先从当前基于句法分析的语义角色标注系统中选出高效特征,构成基本特征集合.然后提出一种基于统计的特征组合方法.该方法能够根据正反例中组合特征的分布状况,以类间距离和类内距离之比作为统计量来衡量组合特征对分类所产生的效果,保留分类效果较好的组合特征.最后,在Chinese PropBank(CPB)语料上利用支持向量机进行分类实验,结果表明,引入该特征组合方法后,语义角色标注整体F值达91.81%,提高了近2%.  相似文献   

16.
作为主流的浅层语义表示形式,语义角色标注一直是自然语言处理领域的研究热点之一。目前学术界已有的语义角色标注规范(PropBank规范和北大规范)主要存在三个问题:①基于片段的论元表示让标注难度加大; ②PropBank中谓词框架的定义难度较大; ③北大规范缺乏省略论元的标注。经过充分调研,该文尝试融合已有的中英文语义角色标注规范的优点,同时结合实际标注中遇到的问题,制定了一种轻量级的适合非语言学背景的标注者参与的中文语义角色标注规范。第一,采用基于词的论元表示,避免了片段边界的确定,从而降低标注难度;第二,标注者直接根据句子上下文信息,标注谓词相关论元角色,而无须预先定义每个谓词的所有语义框架;第三,显式标注句子中省略的核心论元,更准确地刻画句子的语义信息。此外,为了保证标注一致性和提高数据标注质量,规范针对各种复杂语言现象,给出了明确的优先级规定和难点分析。  相似文献   

17.
语义角色标注中有效的识别论元算法研究   总被引:1,自引:1,他引:0  
语义角色标注中论元识别的结果对论元分类任务起着很重要的作用。以句法成分的中心词为依据,对论元识别算法进行研究,在训练集上识别出了98.78%的论元,在测试集识别出了97.17%的论元,并大大减少了不承担角色的训练样例。在此基础上以句法成分为标注单元,在自动句法分析上抽取和组合有用的特征,用支持向量机的方法进行学习分类,在测试集上获得77.84%的F1值。此结果是目前报告的基于单一句法分析的最好结果之一。  相似文献   

18.
基于语义组块分析的汉语语义角色标注   总被引:1,自引:1,他引:0  
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。  相似文献   

19.
挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助.该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据.该文首先在基于字符的BiLSTM-CRF神经网络模型上进行扩展,加入语言模型词向量(Embeddings from Language Mod...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号