共查询到17条相似文献,搜索用时 156 毫秒
1.
名词短语一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到了研究者的持续关注。英文方面,已建立了一定规模的名词短语语义关系知识库。但迄今为止,尚未建立相应或更大规模的描述名词短语语义关系的中文资源。该文借鉴国内外诸多学者对名词短语语义分类的研究成果,对大规模真实语料中的基本复合名词短语实例进行试标注与分析,建立了中文基本复合名词短语语义关系体系及相应句法语义知识库,该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有18 281条高频基本复合名词短语,每条短语均标注了语义关系、短语结构及是否指称实体等信息,每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库,该文还做了基本复合名词短语句法语义的初步统计与分析。 相似文献
2.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。 相似文献
3.
4.
伴随信息时代的快速发展,网络中的数据资源呈现井喷式增长趋势。如何从无序繁多的信息中挖掘深层次的结构化信息,构建一定规模的可用知识库,对于自然语言处理相关任务的研究具有重要意义。上下位关系作为知识库的基本框架,受到国内外专家学者的一致青睐。而目前已经存在的语料库大多局限在通用领域,对跨句子的上下位关系的关注相对较少,而对跨篇章的上下位关系目前还未见到相关标注。该文提出了一种基于同义推理的篇章级实体上下位关系标注策略,并以国防科技领域的文本作为具体实施对象,最终构建了一个中等规模的篇章级上下位关系语料库,该语料库涵盖国防军事领域的新闻文本和科技文献两种题材,共计962篇文本,共标注了11 020个语义关系。实体上下位关系的标注一致性达到0.82,为国防科技领域的上下位关系识别研究奠定了语料基础。 相似文献
5.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。 相似文献
6.
7.
8.
指代消解中语义角色特征的研究 总被引:1,自引:0,他引:1
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT①语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。 相似文献
9.
语义知识库是自然语言处理的基础性工程,但现阶段语义知识库的构建,大部分工作基于人工.基于英语框架网络FrameNet,采用FrameNet的现有框架库作为汉语框架网络的框架库,通过FrameNet中现有标注英文例句训练一语义角色标注器,利用英汉双语平行语料,对英文语料进行语义角色标注并将其映射到中文句子上,从标注好的汉语句子中提取汉语词元和例句填充汉语框架,构建汉语词汇库和例句库,从而实现汉语语义框架网络的自动构造. 相似文献
10.
对蒙古语语料库基本名词短语的定界与统计分析 总被引:2,自引:0,他引:2
解决蒙古语基本名词短语的定界问题,是在蒙古语词性标注语料库的基础上进行的探索性研究。基本名词短语的内部结构信息对其定界问题具有重要作用。确定基本名词短语内部结构的因素有多种,但基本名词短语成分的词类信息是最基本的因素。我们以词类信息为核心,附加一些限定条件,构建识别基本名词短语的形式规则集,并在实际语料中进行基本名词短语标注测试。 相似文献
11.
熊壮 《计算机工程与应用》2012,48(10):160-163
产品特征抽取是文本观点抽取和倾向性分析中的重要研究课题之一,提出了一种基于无监督学习的产品特征自动抽取方法。该方法从产品评论语句中抽取文本模式,以文本模式作为特征,将产品评论中所有的名词和名词短语(除产品名称)表示为向量,采用聚类算法将表示为向量的名词和名词短语聚为两类,以产品名称作为外部知识,利用表示“整体-部件”关系的文本模式识别产品特征集合。实验结果表明,该方法在电子产品领域的产品评论语料上取得了较好的实验效果。 相似文献
12.
名词短语的识别对句法分析等自然语言处理任务有着基础性的意义。目前,老挝语名词短语识别研究仍处于起步阶段,相较于其他语言,老挝语名词短语识别存在边界模糊、界定描述模糊、语料有限、句式过长等问题。针对以上问题,该文研究了老挝语名词短语的结构,并构建了融合其短语结构的多通道老挝语名词短语模型。模型通过将字符、词和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从不同的方面提取更多隐藏信息,同时改善低资源语料存在大量未登录名词短语的问题。此外,由于老挝语句式过长,模型引入Attention机制,增加重要特征的权重,有效减少了无用信息的干扰。实验结果表明,该模型在有限标注语料下F1值达到85.25%,优于其他模型方法。 相似文献
13.
14.
15.
16.
17.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。 相似文献