首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基本名词短语自动识别系统,实现了对30万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可行,识别精确率达到80.8%。  相似文献   

2.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。  相似文献   

3.
名词短语作为语言中一种普遍的语法现象,在自然语言处理领域日益受到了研究人员的关注.目前,对其研究范围主要集中在边界识别、语法分析、语义分析及其分类等方面.该文通过研究分析韩国语书面语名词短语的左右边界规则,从大规模标注语料库中自动提取出名词短语.实验结果表明:语料中的高频名词短语相对集中于8个类型之中.根据提取结果分别建立不同类型的名词短语库,为进一步建立双语平行短语语料库打下基础,以便于以后的机器翻译、信息检索等自然语言信息处理工作.  相似文献   

4.
基于条件随机域的复杂最长名词短语识别   总被引:3,自引:1,他引:3  
识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性.  相似文献   

5.
对蒙古语语料库基本名词短语的定界与统计分析   总被引:2,自引:0,他引:2  
解决蒙古语基本名词短语的定界问题,是在蒙古语词性标注语料库的基础上进行的探索性研究。基本名词短语的内部结构信息对其定界问题具有重要作用。确定基本名词短语内部结构的因素有多种,但基本名词短语成分的词类信息是最基本的因素。我们以词类信息为核心,附加一些限定条件,构建识别基本名词短语的形式规则集,并在实际语料中进行基本名词短语标注测试。  相似文献   

6.
通过对语料库中越南语名词短语的邻接词与邻接词性进行统计调查,发现越南语名词短语蕴含着丰富的边界信息,这对越南语名词短语识别具有重要价值。提出两种将越南语名词短语边界信息融入深度学习模型的方法。一是计算每个词与预训练名词短语(Noun Phrase,NP)向量的相似度得到边界相似度向量(Border Similarity Vector,BS Vector);二是计算每个词与每个预训练标签类别向量的相似度得到(Label Similarity Vector,LS Vector)。实验结果表明,在加入BS Vector后,模型的整体标注准确率提升了0.43%,在加入LS Vector后,模型的整体标注准确率提升了0.6%。该方法不仅对越南语名词短语识别任务具有提升作用,对其他语种、其他领域的识别任务也有很大的参考和借鉴意义。  相似文献   

7.
统计和规则相结合的汉语最长名词短语自动识别   总被引:2,自引:0,他引:2  
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法 通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。  相似文献   

8.
汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的基本复合名词语义关系知识库。该库的标注重点是标注句子中基本复合名词短语的边界以及短语内部成分之间的语义关系,总共收录27 007条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,使用基线模型对基本复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。  相似文献   

9.
名词短语的识别对句法分析等自然语言处理任务有着基础性的意义。目前,老挝语名词短语识别研究仍处于起步阶段,相较于其他语言,老挝语名词短语识别存在边界模糊、界定描述模糊、语料有限、句式过长等问题。针对以上问题,该文研究了老挝语名词短语的结构,并构建了融合其短语结构的多通道老挝语名词短语模型。模型通过将字符、词和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从不同的方面提取更多隐藏信息,同时改善低资源语料存在大量未登录名词短语的问题。此外,由于老挝语句式过长,模型引入Attention机制,增加重要特征的权重,有效减少了无用信息的干扰。实验结果表明,该模型在有限标注语料下F1值达到85.25%,优于其他模型方法。  相似文献   

10.
刘小蝶 《计算机科学》2021,48(z1):299-305
为了改善专利机器翻译中复杂名词短语的翻译效果,提出了一种基于规则的复杂名词短语识别和转换方法.通过分析汉英复杂名词短语的语义块和组合单元,利用边界感知策略,抽取汉语语言特征词,为汉语复杂名词短语中组合单元边界识别编制了57条识别规则,设计了合并策略,得到汉语复杂名词短语的形式化结构.通过对比汉英复杂名词短语的差异,确定了汉英复杂名词短语的转换策略.最后,将识别规则、合并策略和转换策略应用到一个机器翻译系统中.测试结果表明,所提方法可以有效地实现复杂名词短语的识别和转换,提高专利文本中复杂名词短语的机器翻译效果.  相似文献   

11.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

12.
提出了一种基于句法分析与词语相关性相结合的方法实现英文专利文献中名词短语的翻译,建立了一个面向专利文献的名词短语双语实例库,形成名词短语(NP)树库.对待翻译的术语NP,先进行句法分析,再在NP树库中搜索与该术语NP匹配的NP树,对匹配的NP树,用<知网>计算词语间语义相似度,找到最相似NP树,然后计算词语的翻译候选之间的相关性找到词语翻译,最后调整语序生成译文;若不存在匹配的NP树,搜索与该NP树的子NP相匹配的NP树,递归生成译文.使用BLEU作为机器评价准则,实验结果表明,该方法优于基于短语的统计翻译系统(Pharaoh).  相似文献   

13.
该文提出一种融入简单名词短语信息的介词短语识别方法。该方法首先使用CRF模型识别语料中的简单名词短语,并使用转换规则对识别结果进行校正,使其更符合介词短语的内部短语形式;然后依据简单名词短语识别结果对语料进行分词融合;最后,通过多层CRFs模型对测试语料进行介词短语识别,并使用规则进行校正。介词短语识别的精确率、召回率及F-值分别为: 93.02%、92.95%、92.99%,比目前发表的最好结果高1.03个百分点。该实验结果表明基于简单名词短语的介词短语识别算法的有效性。
  相似文献   

14.
基本名词短语识别是自然语言处理领域非常重要的子任务。文中总结了一些有代表性的基本名词短语识别方法,并对多种典型英语基本名词短语识别的结果进行了比较和对照,提出并实现了边界统计和词性串校正相结合的英语基本名词短语识别方法。该方法把基本名词短语识别分成主次分明的两部分,边界统计作为主要部分能够正确识别出大部分基本名词短语,词性串规则作为辅助手段在对前者识别出的基本名词短语进行核对和校正的同时还对边界统计方法遗漏的基本名词短语进行再回收。此方法中,词性串规则弥补了边界统计无法顾及基本名词短语内部组合规律的缺点,提高了精确率和召回率。采用此方法,基本名词短语识别的精确率达到96.22%,召回率97.59%,Fβ=196.90%,F值超出了目前报道的最好结果。  相似文献   

15.
中文Base NP识别: 错误驱动的组合分类器方法   总被引:2,自引:0,他引:2  
本文采用一种新的错误驱动的组合分类器方法来实现中文Base NP识别。本文首先对中文和英文Base NP识别技术现状进行了简要分析和概述,明确了中文Base NP识别的任务,然后,基于前人的工作提出了错误驱动的组合分类器方法,其基本思路是: 通过对比两种不同类型的分类器—基于转化的方法和条件随机场方法的分类结果,再利用支持向量机学习其中的错误规律,对两分类器产生的不同结果进行纠错,从而达到提高系统整体性能的效果。我们在宾州中文树库转化得到的Base NP语料集上进行了Base NP识别交叉验证实验,与单独使用基于转化的方法、条件随机场方法以及支持向量机方法相比较,错误驱动的组合分类器方法的实验结果都有所提高,最佳结果F值达到了89.72%,相对于文中Base NP识别的其他方法,最大提高幅度为2.35%。  相似文献   

16.
语义知识资源蕴含了深刻的语言学理论,是语言学知识和语言工程的重要接口。该文以形容词句法语义词典为研究对象,探索对语义知识资源自动扩展的方法。该文的目标是利用大规模语料库,扩展原有词典的词表及其对应的句法格式。具体方法是根据词的句法格式将词典的词分类,将待扩展的新词通过分类器映射到原有词典的词中,以此把词典扩展问题转化为多类分类问题。依据的原理是词典词和待扩展新词在大规模语料中句法结构的相似性。该文通过远监督的方法构造训练数据,避免大量的人工标注。训练过程结合了浅层机器学习方法和深度神经网络,取得了有意义的成果。实验结果显示,深度神经网络能够习得句法结构信息,有效提升匹配的准确率。  相似文献   

17.
名词短语一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到了研究者的持续关注。英文方面,已建立了一定规模的名词短语语义关系知识库。但迄今为止,尚未建立相应或更大规模的描述名词短语语义关系的中文资源。该文借鉴国内外诸多学者对名词短语语义分类的研究成果,对大规模真实语料中的基本复合名词短语实例进行试标注与分析,建立了中文基本复合名词短语语义关系体系及相应句法语义知识库,该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有18 281条高频基本复合名词短语,每条短语均标注了语义关系、短语结构及是否指称实体等信息,每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库,该文还做了基本复合名词短语句法语义的初步统计与分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号