首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
中文名词性谓词语义角色标注的特征研究   总被引:1,自引:0,他引:1  
在语义角色标注中,相对于动词性谓词,名词性谓词与其角色之间的结构更灵活和复杂。为了更好地捕获这些结构化信息,通过对名词性谓词语义角色标注相关特征集的研究,探索了新的单词特征和句法特征,用于名词性谓词语义角色标注。基于正确句法树和正确谓词识别,中文名词性谓词语义角色标注的F1值达到了73.99,优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为57.16。最后,讨论了使用动词性谓词的特征实例来提高名词性谓词SRL的准确率,然而性能的提高并不是很明显。  相似文献   

2.
实体消歧和谓词匹配是中文知识库问答系统(CKBQA)中的两个核心任务。针对开放域知识库中实体和谓词数量巨大,且中文问句与知识库知识在表现形式上存在差异的问题,提出一种基于特征增强的BERT的流水线式问答系统(BERT-CKBQA),改进了上述两个子任务。采用BERT-CRF模型识别问句中提及的实体,得到候选实体集合。将问题和拼接谓词特征的候选实体输入BERT-CNN模型进行实体消歧。根据实体生成候选谓词集合,提出通过注意力机制引入答案实体谓词特征的BERT-BiLSTM-CNN模型进行谓词匹配。结合实体和谓词的得分确定查询路径来检索最终答案。该方法设计了一个中文简单问题的开放域知识库问答系统,引入预训练模型与谓词特征增强子任务特征以提升其性能,并在NLPCC-ICCPOL-2016KBQA 数据集上取得了88.75%的平均F1值,提高了系统的回答准确率。  相似文献   

3.
中文名词性谓词语义角色标注   总被引:2,自引:0,他引:2  
研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.在中文NomBank上的实验结果表明,中文动词性谓词的SRL合理使用能够大幅度提高中文名词性谓词的SRL性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL性能F1值达到了72.67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为55.14.  相似文献   

4.
语义角色标注是自然语言处理的一个重要研究内容,性能对机器翻译等研究有重大影响。实现了一个基于依存关系的中文名词性谓词语义角色标注平台,并对名词性谓词进行识别,使用最大熵分类模型在Chinese NomBank的转换语料上进行系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到78.09,基于自动句法树的语料上的F1值达到67.42。  相似文献   

5.
语义角色标注中特征优化组合研究   总被引:2,自引:0,他引:2  
特征决定着语义角色标注的性能,但并非特征越多性能越高.因此,如何优化组合这些特征就显得非常重要.选取了当前语义角色标注系统中常用的56个特征,按其贡献进行了优化组合实验.在正确的句法分析上取得了91.22%的语义角色分类精确率,在自动句法分析上语义角色标注F1值达到了78.07%.实验表明提高性能并不需要很多特征,关键在于特征的优化组合;同时在句法分析中起重要作用的谓词和中心词特征在语义角色标中也发挥了重要作用.  相似文献   

6.
首次实现了一个基于依存关系的中文名词性谓词识别平台,作为语义角色标注的前提,谓词识别的结果直接影响语义角色标注的性能。使用两种方法进行实验:一种是基于传统的特征向量的方法在Chinese Nombank 的转换语料上进行了系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到89.65,自动语料上达到81.27。另一种是使用树核的方法进行探索性实验,在标准语料和自动语料上分别得到84.62和80.93的F1值。  相似文献   

7.
语言学组合特征在语义关系抽取中的应用   总被引:1,自引:0,他引:1  
语义关系抽取是信息抽取中的一个重要的研究领域。目前基于特征向量的语义关系抽取已经很难通过发掘新的特征来提高抽取的性能。本文提出了一种特征组合方法,通过在各种词法、语法、语义的基本特征内部及特征之间进行合理的组合形成组合特征,使用基于支持向量机的学习方法,使得关系抽取的准确率和召回率得到了提高。在ACE 2004语料库的7个关系大类和23个关系子类抽取实验中F值分别达到了66.6%和59.50%。实验结果表明通过对基本语言学特征进行组合所得到的组合特征能够显著地提高语义关系抽取的性能。  相似文献   

8.
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。
  相似文献   

9.
中文语义角色标注的特征工程   总被引:3,自引:2,他引:3  
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征: 例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。  相似文献   

10.
基于查询扩展的人名消歧   总被引:1,自引:0,他引:1  
针对现有很多基于特征的人名消歧方法不适用于文档本身特征稀疏的问题,提出一种借助丰富的互联网资源,使用搜索引擎查询并扩展出更多与文档相关特征的方法。首先根据搜索引擎的特性构建了四类查询规则,然后通过这些查询规则进行搜索并返回前k个文档,最后对这些文档使用文档频率(DF)方法进行特征选择,并将选择的特征加入到原文档中。实验证明,该方法能显著提高人名消歧系统的性能,平均F值由76%增加到81%。  相似文献   

11.
谓词的自动识别是浅层句法分析的重要内容。本文提出了基于支持向量机分类算法的谓词自动识别方法,重点描述了在特征构建过程中基于信息增益的特征筛选方法与基于同义词词林的特征词度量方法。信息增益方法选取对分类影响较大的特征,降低了特征维度;同义词词林的度量方法将特征词映射为深层次的语义概念,增强了特征的表达能力,强调了属性特征与模型的相关度。在小规模语料库上的实验表明,谓词识别的最好F-Score达到了84.0%,相较于对数据无任何处理的情况F-Score提高了4.6%。结果表明,这种新的特征筛选与特征度量方法在谓词识别中十分有效,可以极大提高分类器的性能。  相似文献   

12.
利用主语和谓语的句法关系识别谓语中心词   总被引:4,自引:0,他引:4  
谓语中心词识别对于整个句子的句法分析起着重要的作用。目前已有的谓语中心词识别方法,利用谓语中心词候选项的静态语法特征和动态语法特征来确定谓语中心词。在此基础上,本文提出一种利用句子的主语和谓语之间的句法关系来识别谓语中心词的方法。该方法除了利用谓语中心词候选项的静态语法特征和动态语法特征外,还利用主谓语之间的句法关系识别谓语中心词。实验表明,与传统方法相比,这种方法对谓语中心词的识别正确率可以提高3%左右。  相似文献   

13.
实现一个基于机器学习的中文缺省项识别系统,对语料库进行预处理,选取多个特征及其组合,通过支持向量模型(SVM)构建的缺省识别模型进行中文缺省识别。研究系统在不同句法分析树上的性能。实验结果证明,该识别系统在标准的句法分析树上F值能达到84.01%,在自动句法树上能达到68.22%。  相似文献   

14.
方超  杨怡玲黄宇 《计算机应用》2013,33(12):3363-3367
当前,开发灵活的适应环境变化的上下文感知应用较为复杂。在上下文感知应用开发过程中,很多未知情况无法事先被充分考虑到,实际的开发又需要处理很多意外情形,因此有效地表示和处理上下文尤为重要。谓词检测作为实现上下文感知的重要方法之一,能够有效对上下文信息进行建模,但在实际应用中对于真实物理设备的支持如何在很大程度上仍然是未知的。为了应对以上问题,通过构建一个简单的物理场景,将谓词检测方法应用于真实的机器小车上,支持其在一个既定轨道上完成运行任务。在该场景下对原始的上下文环境进行建模,将环境特性逐步规约成特定的快照谓词和序列谓词,并在案例研究中,对规约化的谓词进行检测,将谓词检测应用于真实的机器小车实验上。实验分析的结果表明,谓词检测的方法能有效检测小车的上下文特性并成功支撑小车完成既定的行走目标。  相似文献   

15.
汉语复句关系识别是对复句语义关系的识别,复句关系类别的自动识别对促进语言学和中文信息处理的研究有重要的价值。因果类复句是使用频率最高的复句,文中以二句式有标广义因果复句为研究对象, 使用语言技术平台LTP 进行依存句法分析, 获得词性、依存父节点的词序、与父节点的依存关系等特征,将特征的不同组合与预训练的词向量拼接,得到新的向量,将新的向量输入到 DPCNN 模型中来进行关系类别识别。通过实验对提出的方法进行检验,实验结果显示: 与未融合任何特征相比,DPCNN模型中融合语句特征使实验结果的指标均有提升,表明融合语句特征能取得更好的识别效果。在各种特征组合中,融合POS特征组合得到的准确度和F1值最高, 分别为98.41%, 98.28%。  相似文献   

16.
对于英语等"重音节拍语言",重音是一个非常重要的韵律学特征。针对传统特征提取中固定帧长方式存在的缺点,使用基音同步帧特征分析方法,提出了基于动态帧长的基音同步能量和基音同步峰值特征。在使用新特征对英语连续语音进行词重音检测时发现,联合使用新特征与传统特征,可使误识率下降6.65%。  相似文献   

17.
周强 《中文信息学报》2016,30(3):196-203
谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的新方法。从知网、北大语法信息词典和大规模事件句式实例中提取汉语谓词的不同句法语义分布特征,融合形成CCG原型范畴表示,将它们指派给各资源信息完全重合的谓词形成核心词库。然后通过自动分类和隶属度分析相结合方法对其他谓词的CCG范畴进行预测,并对两者结果进行融合得到扩展词库,最终合并形成包含约15,000个词条的汉语谓词CCG词库。通过在随机均匀抽样的1000个谓词上通过多人独立标注形成的标准测试库上进行不同角度的性能分析实验,表明该词库的预期准确率达到了96.3%。
  相似文献   

18.
In the context of content-based multimedia indexing gender identification based on speech signal is an important task. In this paper a set of acoustic and pitch features along with different classifiers are compared for the problem of gender identification. We show that the fusion of features and classifiers performs better than any individual classifier. Based on such conclusions we built a system for gender identification in multimedia applications. The system uses a set of Neural Networks with acoustic and Pitch related features.90% of classification accuracy is obtained for 1 second segments and with independence to the language and the channel of the speech. Practical considerations, such as the continuity of speech and the use of mixture of experts instead of one single expert are shown to improve the classification accuracy to 93%. When used on a subset of the Switchboard database, the classification accuracy attains 98.5% for 5 seconds segments.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号