共查询到18条相似文献,搜索用时 78 毫秒
1.
基于最大熵分类器的语义角色标注 总被引:24,自引:2,他引:24
语义角色标注是浅层语义分析的一种可行方案.描述了一个采用最大熵分类器的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,用最大熵分类器对句子中谓词的语义角色同时进行识别和分类.最大熵分类器中使用了一些有用的特征及其组合.在后处理阶段,在具有嵌套关系的结果中,只有概率最高的语义角色被保留.在预测了全部能够在句法分析树中找到匹配成分的角色以后,采用简单的后处理规则去识别那些找不到匹配成分的角色.最终在开发集和测试集上分别获得了75.49%和75.60%的F1值,此结果是已知的基于单一句法 相似文献
2.
3.
语义角色标注中特征优化组合研究 总被引:2,自引:0,他引:2
特征决定着语义角色标注的性能,但并非特征越多性能越高.因此,如何优化组合这些特征就显得非常重要.选取了当前语义角色标注系统中常用的56个特征,按其贡献进行了优化组合实验.在正确的句法分析上取得了91.22%的语义角色分类精确率,在自动句法分析上语义角色标注F1值达到了78.07%.实验表明提高性能并不需要很多特征,关键在于特征的优化组合;同时在句法分析中起重要作用的谓词和中心词特征在语义角色标中也发挥了重要作用. 相似文献
4.
基于依存句法分析的中文语义角色标注 总被引:3,自引:0,他引:3
依存句法是句法分析的一种,相比于短语结构句法分析,依存句法具有更简洁的表达方式。该文采用英文语义角色标注的研究方法,实现了一个基于中文依存句法分析的语义角色标注系统。该系统针对中文依存关系树,采用有效的剪枝算法和特征,使用最大熵分类器进行语义角色的识别和分类。系统使用了两种不同的语料,一种是由标准短语结构句法分析(CTB5.0)转换而来,另一种是CoNLL2009公布的中文语料。系统分别在两种语料的标准谓词和自动谓词的基础上进行实验,在标准谓词上取得的F1值分别为84.30%和81.68%,在自动谓词上的F1值为81.02%和81.33%。 相似文献
5.
中文语义角色标注的特征工程 总被引:3,自引:2,他引:3
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征: 例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。 相似文献
6.
7.
描述了一个基于依存关系的语义角色标注系统,该系统把依存关系作为语义角色标注的基本单元。通过手工或自动标注出来的依存关系,构造出依存关系树,并从树上抽取特征。用最大熵模型对句中谓词的语义角色进行识别和分类。为了消除不必要的结构化信息,在预处理阶段,依存关系树经过了Xue的剪枝算法处理。通过特征工程,丰富的特征及其组合被应用于系统。最终使用 CoNLL 2008 shared task提供的数据作为训练、开发和测试集,使用手工标注的依存关系,F1值达到了86.25%;使用MSTParser自动产生的依存关系,F1值达到了81.66%。 相似文献
8.
该文提出了一个基于多层长短期记忆神经网络的语义角色标注方法,并装置了新颖的“直梯单元”(elevator unit, EU)。EU包含了对单元内部输入和输出的线性连接,使信息可以通畅地在不同层之间传播。通过EU,一个20层的LSTM网络可以得到比较充分的优化。重要的是,这个线性连接包含的“门”函数可以正则和控制信息在时间方向和空间方向上的传播。不同层次的抽象信息也可以被EU直接带到输出层进行语义角色标注。尽管这个模型非常简单,不需要任何额外的特征输入,但是它取得了理想的实验结果,在CoNLL-2005公开数据集上取得了F=81.56%的结果,在CoNLL-2012公开数据集上取得了F=82.53%的结果,比之前最好的结果分别提高了0.5%和1.26%。另外,在领域外的数据集上我们也取得了F值2.2%的显著提升,这是当前世界上最好的性能。该模型比较简洁,非常容易实现和并行,在单一的K40 GPU上取得了每秒11.8K单词的解析速度,远远高于之前的方法。 相似文献
9.
语义角色标注(Semantic Role Labeling,SRL)旨在识别给定句子中所包含的谓词及对应的语义论元,从而为信息抽取、自动问答和阅读理解等任务的语义理解提供帮助.构建句法特征作为实现语义角色标注任务的关键步骤,在很大程度上影响着任务的性能.针对现有的神经网络模型未能有效构建句法特征,例如现有研究采取离线式的人工定式句法裁剪方案,不可避免地造成关键句法信息丢失或者裁剪效果减弱等问题,本文提出基于动态句法剪枝机制的端到端神经网络模型,并将其用于中文语义角色标注任务.具体地,我们提出两种创新的动态句法剪枝机制:基于递归神经网络模型的动态句法剪枝机制(Recur-DSP)和基于带句法标签的图卷积网络模型的句法剪枝机制(SGCN-DSP).Recur-DSP采用递归神经网络模型进行句法结构编码与融合,并对句法树的每一个连接处通过Gumbel-Softmax函数离散化实现动态句法裁剪.SGCN-DSP采用图卷积神经网络模型为句法依存树的依存弧结构以及对应的标签进行统一建模,并提出对应的动态句法裁剪机制.在基准数据集上的实验结果显示所提方法超过当前的最好模型,获得当前中文语义角色标注的... 相似文献
10.
11.
答案抽取是开放领域问答系统中的关健部分,主要由检索结果句子的重排和最终候选实体的抽取构成.通过把依存分析到引入到这两个步骤中,并结合改进的关键词密度算法,增强了对句法和语义知识的利用和系统的鲁棒性,在实验中答案抽取的效果明显提高. 相似文献
12.
复述(Paraphrase)句的识别可看作文本蕴含(Text Entailment)识别的一个子问题,传统的解决方法是通过词频或句法上的相似度来判断。即使用相同的文字书写的句子其含义也可能差别很大,而相同句法结构也不能保证意义一致。该文根据新闻语料的特点,提出了一种通过引入深层的语义角色标注来帮助识别新闻领域复述句的方法。该方法通过在语义角色这种结构化的含义表达形式中提取的特征来弥补传统方法的不足 先识别待判断的两个句子中所有谓词的语义角色,然后计算两个句子间对应语义角色的相似度,最后结合传统的句子相似度计算方法来进行相似性计算。实验证明,该文提出的方法能有效地提高复述语句的识别效果。 相似文献
13.
14.
基于浅层句法分析的中文语义角色标注研究 总被引:1,自引:1,他引:1
语义角色标注是获取语义信息的一种重要手段。许多现有的语义角色标注都是在完全句法分析的基础上进行的,但由于现阶段中文完全句法分析器性能比较低,基于自动完全句法分析的中文语义角色标注效果并不理想。因此该文将中文语义角色标注建立在了浅层句法分析的基础上。在句法分析阶段,利用构词法获得词语的“伪中心语素”特征,有效缓解了词语级别的数据稀疏问题,从而提高了句法分析的性能,F值达到了0.93。在角色标注阶段,利用构词法获得了目标动词的语素特征,细粒度地描述了动词本身的结构,从而为角色标注提供了更多的信息。此外,该文还提出了句子的“粗框架”特征,有效模拟了基于完全句法分析的角色标注中的子类框架信息。该文所实现的角色标注系统的F值达到了0.74,比前人的工作(0.71)有较为显著的提升,从而证明了该文的方法是有效的。 相似文献
15.
16.
17.
文中研究的是基于常问问题库(FAQ库)的智能答疑系统。FAQ库是很多智能答疑系统中的一个重要组成部分,它把用户常问的问题和相关答案保存起来,对于用户输入的问题,可以首先在FAQ库中查找答案。如果能够找到相似的问题,就可以直接将问题所对应的答案返回给用户。为解决智能答疑系统因词的同义或多义现象而导致的“漏答”或“错答”,采用一种基于加权潜在语义分析模型的相似度计算方法。针对特定教育领域的智能答疑系统.改进了反映词与词之间相关性的权值计算。通过对特定课程中常问问题的实验,结果显示明显优于向量空间模型。 相似文献
18.
当前信息环境下,非结构化文本是各类信息的重要组成部分,如何针对用户信息需求,从文本数据中快速提取所需信息,为用户提供快速高效的信息获取方式成了当前信息服务领域亟待解决的问题.该文基于语义检索以及抽取式文档阅读理解模型,研究了如何快速有效地从大型文档库中根据用户问题提取出所需答案信息的技术,构建了基于文档库的信息服务问答系统.对于解决当前海量信息环境下快速有效的帮助用户获取所需信息,提升信息服务效率具有重要意义.实验表明,该系统可以快速精确的定位用户所提问题的答案,帮助用户快速有效的获取所需信息. 相似文献