首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
名词短语一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到了研究者的持续关注。英文方面,已建立了一定规模的名词短语语义关系知识库。但迄今为止,尚未建立相应或更大规模的描述名词短语语义关系的中文资源。该文借鉴国内外诸多学者对名词短语语义分类的研究成果,对大规模真实语料中的基本复合名词短语实例进行试标注与分析,建立了中文基本复合名词短语语义关系体系及相应句法语义知识库,该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有18 281条高频基本复合名词短语,每条短语均标注了语义关系、短语结构及是否指称实体等信息,每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库,该文还做了基本复合名词短语句法语义的初步统计与分析。  相似文献   

2.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。  相似文献   

3.
复合名词短语的语义解释的主要目的是恢复修饰语和中心词之间隐含的语义关系。该文针对汉语复合名词短语的语义解释,首次采用动态的策略,提出了“基于动词的短语释义”的方法,利用语料库及Web数据,自动获取复合名词短语的释义短语,实验结果表明,该方法不仅可以为复合名词短语提供多种可能的语义解释,而且能够反应相似的复合名词短语之间细微的语义差别。此外,该文的研究结果可以服务于问答系统、信息检索、词典编纂等多个应用领域。  相似文献   

4.
伴随信息时代的快速发展,网络中的数据资源呈现井喷式增长趋势。如何从无序繁多的信息中挖掘深层次的结构化信息,构建一定规模的可用知识库,对于自然语言处理相关任务的研究具有重要意义。上下位关系作为知识库的基本框架,受到国内外专家学者的一致青睐。而目前已经存在的语料库大多局限在通用领域,对跨句子的上下位关系的关注相对较少,而对跨篇章的上下位关系目前还未见到相关标注。该文提出了一种基于同义推理的篇章级实体上下位关系标注策略,并以国防科技领域的文本作为具体实施对象,最终构建了一个中等规模的篇章级上下位关系语料库,该语料库涵盖国防军事领域的新闻文本和科技文献两种题材,共计962篇文本,共标注了11 020个语义关系。实体上下位关系的标注一致性达到0.82,为国防科技领域的上下位关系识别研究奠定了语料基础。  相似文献   

5.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。  相似文献   

6.
该文阐述了对词一级的维吾尔语框架语义网络构建过程中,制订和规范化维吾尔语框架语义角色的语义类型和标注标记符集、短语类型和标注符号集、句法功能的标注符号集的研究。研究内容对基于阿拉伯字符的维吾尔语框架语义成分的依存关系、语义角色分解与自动识别技术,语义角色知识库的构建和自动标注等相关技术提供基础研究服务。  相似文献   

7.
该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。  相似文献   

8.
指代消解中语义角色特征的研究   总被引:1,自引:0,他引:1  
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。  相似文献   

9.
语义知识库是自然语言处理的基础性工程,但现阶段语义知识库的构建,大部分工作基于人工.基于英语框架网络FrameNet,采用FrameNet的现有框架库作为汉语框架网络的框架库,通过FrameNet中现有标注英文例句训练一语义角色标注器,利用英汉双语平行语料,对英文语料进行语义角色标注并将其映射到中文句子上,从标注好的汉语句子中提取汉语词元和例句填充汉语框架,构建汉语词汇库和例句库,从而实现汉语语义框架网络的自动构造.  相似文献   

10.
对蒙古语语料库基本名词短语的定界与统计分析   总被引:2,自引:0,他引:2  
解决蒙古语基本名词短语的定界问题,是在蒙古语词性标注语料库的基础上进行的探索性研究。基本名词短语的内部结构信息对其定界问题具有重要作用。确定基本名词短语内部结构的因素有多种,但基本名词短语成分的词类信息是最基本的因素。我们以词类信息为核心,附加一些限定条件,构建识别基本名词短语的形式规则集,并在实际语料中进行基本名词短语标注测试。  相似文献   

11.
产品特征抽取是文本观点抽取和倾向性分析中的重要研究课题之一,提出了一种基于无监督学习的产品特征自动抽取方法。该方法从产品评论语句中抽取文本模式,以文本模式作为特征,将产品评论中所有的名词和名词短语(除产品名称)表示为向量,采用聚类算法将表示为向量的名词和名词短语聚为两类,以产品名称作为外部知识,利用表示“整体-部件”关系的文本模式识别产品特征集合。实验结果表明,该方法在电子产品领域的产品评论语料上取得了较好的实验效果。  相似文献   

12.
名词短语的识别对句法分析等自然语言处理任务有着基础性的意义。目前,老挝语名词短语识别研究仍处于起步阶段,相较于其他语言,老挝语名词短语识别存在边界模糊、界定描述模糊、语料有限、句式过长等问题。针对以上问题,该文研究了老挝语名词短语的结构,并构建了融合其短语结构的多通道老挝语名词短语模型。模型通过将字符、词和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从不同的方面提取更多隐藏信息,同时改善低资源语料存在大量未登录名词短语的问题。此外,由于老挝语句式过长,模型引入Attention机制,增加重要特征的权重,有效减少了无用信息的干扰。实验结果表明,该模型在有限标注语料下F1值达到85.25%,优于其他模型方法。  相似文献   

13.
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。  相似文献   

14.
本文提出了一种在汉英双语语料库句子对齐的基础上,自动进行汉英名词短语划分和对应的方法。该方法的主要特点在于在无需严格识别汉语名词短语的情况下,对高频短语和低频短语分别进行处理,对于高频短语,利用英语短语和汉语词在双语语料库中的关联信息,采用一种迭代重估算法进行双语短语的对应;对于低频短语,根据双语词典中源词和译词之间的对应信息,结合一套人工编写的句法规则进行双语低频短语的对应。该方法能够从整体上把握对应信息,并具有很高的覆盖率。  相似文献   

15.
汉语最长名词短语的自动识别   总被引:22,自引:0,他引:22  
周强  孙茂松  黄昌宁 《软件学报》2000,11(2):195-201
通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法.实验结果显示,后者的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果.  相似文献   

16.
隐喻知识的表示和获取是进行隐喻计算的基础。该文把隐喻知识看作是本体和喻体的特征和属性之间的关联。主要通过惯用语导入和句法模式识别两种机制,来获取名词的隐喻知识。惯用语的隐喻比较固定和单一,从专门的词典释义中就能获取准确的隐喻特征和属性。而一般名词的隐喻知识比较复杂,该文主要依托语料库和搜索引擎,通过关键词和句法匹配来获取同一名词不同的隐喻特征及对应属性。该项工作的结果,对隐喻句隐喻意义的获取和名词语义属性特征的描述体系构建具有一定的价值。  相似文献   

17.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号