共查询到18条相似文献,搜索用时 109 毫秒
1.
2.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。 相似文献
3.
4.
汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果. 相似文献
5.
基于转换的汉语基本名词短语识别模型 总被引:28,自引:10,他引:18
基本名词短语的识别在自然语言信息处理领域具有重要作用。本文首先从语言学的角度提出了汉语基本名词短语的概念,然后从语言信息处理的角度将用于基本名词短语识别的知识分为两部分,即表示基本名词短语句法组成的基本结构模板(静态知识)与表示基本名词短语出现的上下文环境特征的转换规则(动态知识)。在此基础上设计了一种基于转换的基本名词短语识别模型,该模型可同时结合这两类知识识别基本名词短语。实验结果显示了较高的识别正确率。 相似文献
6.
钱小飞 《计算机工程与应用》2010,46(18):138-141
以“的”字结构为核心的最长名词短语是汉语最长名词短语的一个特殊子类。以该短语的自动识别为基础重新分化了汉语MNP的识别任务。在考察其结构和分布特征的基础上,提出“先识别右边界,识别成果参与左边界识别”的策略,并使用边界分布概率模型分治了左右边界。实验基于85万字的新闻语料上进行训练,并在42万字的同质语料上进行了开放测试,取得了80.63%的正确率和75.68%的召回率。 相似文献
7.
该文提出了最长名词短语(MNP)的操作性定义,分析了其构造和分布特征,并设计了一种基于baseNP归约的识别方法,利用MNP结构特性及起始有定成分、语义核心等语言学特征,缓解了最长名词短语长距离依赖与模型观察窗口受限的矛盾。开放测试取得了88.68%的正确率和89.21%的召回率;归约方法全面提升了识别性能,特别是将多词结构的调和平均值提高1%,优化幅度达6%以上,并且对长距离复杂结构有着更好的识别效果。 相似文献
8.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。 相似文献
9.
为了改善专利机器翻译中复杂名词短语的翻译效果,提出了一种基于规则的复杂名词短语识别和转换方法.通过分析汉英复杂名词短语的语义块和组合单元,利用边界感知策略,抽取汉语语言特征词,为汉语复杂名词短语中组合单元边界识别编制了57条识别规则,设计了合并策略,得到汉语复杂名词短语的形式化结构.通过对比汉英复杂名词短语的差异,确定了汉英复杂名词短语的转换策略.最后,将识别规则、合并策略和转换策略应用到一个机器翻译系统中.测试结果表明,所提方法可以有效地实现复杂名词短语的识别和转换,提高专利文本中复杂名词短语的机器翻译效果. 相似文献
10.
11.
12.
汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的基本复合名词语义关系知识库。该库的标注重点是标注句子中基本复合名词短语的边界以及短语内部成分之间的语义关系,总共收录27 007条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,使用基线模型对基本复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。 相似文献
13.
以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基本名词短语自动识别系统,实现了对30万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可行,识别精确率达到80.8%。 相似文献
14.
15.
基本名词短语识别是自然语言处理领域非常重要的子任务。文中总结了一些有代表性的基本名词短语识别方法,并对多种典型英语基本名词短语识别的结果进行了比较和对照,提出并实现了边界统计和词性串校正相结合的英语基本名词短语识别方法。该方法把基本名词短语识别分成主次分明的两部分,边界统计作为主要部分能够正确识别出大部分基本名词短语,词性串规则作为辅助手段在对前者识别出的基本名词短语进行核对和校正的同时还对边界统计方法遗漏的基本名词短语进行再回收。此方法中,词性串规则弥补了边界统计无法顾及基本名词短语内部组合规律的缺点,提高了精确率和召回率。采用此方法,基本名词短语识别的精确率达到96.22%,召回率97.59%,Fβ=196.90%,F值超出了目前报道的最好结果。 相似文献
16.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。 相似文献
17.
18.
国际汉语教学领域中存在大量的动态词。深入细致地研究分析国际汉语教材语料中真实出现的动态词,一方面有助于国际汉语教学的词汇研究与词汇教学;另一方面,对面向国际汉语教学的信息处理工作具有重要的促进作用。三音节名词是国际汉语教学中一种常见的词汇类型,在词汇教学中占有重要的位置,而其中三音节名词型动态词又占有较高的比重。该文首先介绍三音节名词型动态词结构模式的一种知识表示方法;然后通过标注一定规模的国际汉语教材语料,获取三音节名词型动态词的所有结构模式类型以及对应的动态词及词频信息,构建基于国际汉语教学的三音节名词型动态词结构模式知识库;最后在结构模式知识库的基础上对三音节名词型动态词进行分析。 相似文献