首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 875 毫秒
1.
汉语最长名词短语的自动识别   总被引:22,自引:0,他引:22  
周强  孙茂松  黄昌宁 《软件学报》2000,11(2):195-201
通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法.实验结果显示,后者的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果.  相似文献   

2.
统计和规则相结合的汉语最长名词短语自动识别   总被引:2,自引:0,他引:2  
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法 通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。  相似文献   

3.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。  相似文献   

4.
汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果.  相似文献   

5.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。  相似文献   

6.
命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。  相似文献   

7.
名词短语的识别对句法分析等自然语言处理任务有着基础性的意义。目前,老挝语名词短语识别研究仍处于起步阶段,相较于其他语言,老挝语名词短语识别存在边界模糊、界定描述模糊、语料有限、句式过长等问题。针对以上问题,该文研究了老挝语名词短语的结构,并构建了融合其短语结构的多通道老挝语名词短语模型。模型通过将字符、词和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从不同的方面提取更多隐藏信息,同时改善低资源语料存在大量未登录名词短语的问题。此外,由于老挝语句式过长,模型引入Attention机制,增加重要特征的权重,有效减少了无用信息的干扰。实验结果表明,该模型在有限标注语料下F1值达到85.25%,优于其他模型方法。  相似文献   

8.
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。  相似文献   

9.
刘小蝶 《计算机科学》2021,48(z1):299-305
为了改善专利机器翻译中复杂名词短语的翻译效果,提出了一种基于规则的复杂名词短语识别和转换方法.通过分析汉英复杂名词短语的语义块和组合单元,利用边界感知策略,抽取汉语语言特征词,为汉语复杂名词短语中组合单元边界识别编制了57条识别规则,设计了合并策略,得到汉语复杂名词短语的形式化结构.通过对比汉英复杂名词短语的差异,确定了汉英复杂名词短语的转换策略.最后,将识别规则、合并策略和转换策略应用到一个机器翻译系统中.测试结果表明,所提方法可以有效地实现复杂名词短语的识别和转换,提高专利文本中复杂名词短语的机器翻译效果.  相似文献   

10.
庞宁  杨尔弘 《中文信息学报》2008,22(2):24-27,54
共指是突发事件新闻报道中的常见现象。良好的处理共指现象,是进行信息提取的基本必要过程。本文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一实体的名词、代词和名词短语。根据问题特点,算法选择了8类特征作为模型的特征,该模型在20万字的新闻语料上进行训练,在10万字规模的语料上进行测试,最终的测试得到系统的F值为64.5%。  相似文献   

11.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

12.
霍亚格  黄广君 《计算机工程》2011,37(16):206-208
为提高计算机对汉语信息的处理能力,更好地进行浅层句法分析,提出一种基于最大熵的汉语短语结构识别方法.利用词语之间的互信息知识对句子的短语结构边界进行预测,应用最大熵模型建立原子模板与复合模板,选择有效的特征构成特征集,实现对句子短语结构的识别.实例证明,基于互信息的最大熵模型能取得较好的精确率和召回率.  相似文献   

13.
汉语语句中短语间停顿的自动预测方法   总被引:2,自引:2,他引:2  
在文语转换(TTS)系统中,正确标记短语间的停顿对提高合成语音的自然度起着重要作用。本文介绍了一种在汉语语句中自动预测短语间停顿的方法。首先,文本进行分词,并转换为一列由词性标记所组成的序列;然后使用马尔可夫模型,利用人工标注数据库训练词语连接处词性标注序列的概率分布和连接类型序列的距离信息,得到输入的词性标记序列对应的具有最大似然概率的连接类型序列,最后利用后处理规则进行适当的纠错。本文针对不同的模型参数进行了测试,短语间停顿自动预测的召回率和连接类型正确率分别达到了68.2%和85.1% ,取得了比较满意的结果。  相似文献   

14.
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。  相似文献   

15.
人民币光变油墨(OVI)识别技术是针对我国人民币中防伪变色油墨的真伪识别而开发的防伪识别技术。阐述了基于色敏传感器的人民币纸币变色油墨字样真伪鉴别的基本原理和设计方案,给出了传感器结构、放大器电路和测试试验结果数据。采用色敏传感器对人民币光变油墨字样真伪的识别正确率达到99%。  相似文献   

16.
目前,实体识别与依存关系分析,采用的主要是基于监督学习的深度端到端方法.这种方法存在两个问题:不能引入背景知识;不能识别出自然语言的多粒度、嵌套特征.为了解决以上问题,提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时设计了配套的多维端到端短语识别模型(MDM模型).该标注规则以短语为最...  相似文献   

17.
针对中文短文本分类问题,从集成学习的角度提出一种基于多元概率推理模型的书写纹识别方法。将初始样本集划分为等粒度、可交叉的样本子集,构造具有差异性的子空间,在各子空间上采用基于概率推理模型的基分类器训练样本,通过概率求和法融合所有基分类器的输出得到训练样本的最终识别结果。实验结果表明,该方法对于网络书写纹具有较好的识别效果,查全率、查准率和Fl度量值分别高达81.6%、85.9%和83.69%。  相似文献   

18.
针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分词、词语过滤和特征计算方法,提出了一种改进的TAKE算法,并应用于中文文本关键短语挖掘中。与多种传统关键短语提取算法的对比实验结果表明,该算法提取的精确率、召回率和[F]值指标的量化结果相比于传统算法有比较明显的提升。  相似文献   

19.
短语结构的语法关系判定是自然语言处理领域的关键问题之一,应用支持向量机进行分类判定,其核心问题是如何将汉语短语结构转换为适合支持向量机使用的数值向量的形式。在自建N1+N2结构语料库的基础上,利用《同义词词林》对N1+N2结构内部两个名词进行语义编码,并将编码转换为数值向量,运用支持向量机的方法判定该结构的语法关系,按照训练集与测试集9∶1的比例使用随机交叉验证的方法进行检验,平均正确率达到86.2%。实验结果证明了所提算法的有效性,也证明了运用人工智能方法处理自然语言处理领域的问题势在必行。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号