首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
叶琳莉  黄日茂 《福建电脑》2007,(12):184-184,161
机构名称层出不穷,本文以高校名称为例,采用一种结合决策树的方法对机构名称进行识别,实验结果表明该方法效果良好,能应用于一定范围的中文专名识别工作.  相似文献   

2.
中文组织机构名称与简称的识别   总被引:2,自引:0,他引:2  
本文提出了一种基于规则识别中文组织机构全称和简称的方法。全称的识别首先借助机构后缀词库获得其右边界,然后通过规则匹配并借助贝叶斯概率模型加以决策获得其左边界。简称的识别是在全称的基础上应用其对应的简称规则实现的。在开放性测试中,该方法的总体查全率为85.19%,查准率为83.03%,F Measure为84.10%;简称的查全率为67.18%,查准率为74.14%。目前该方法已应用于中文关系的抽取系统。  相似文献   

3.
提出了一种基于类语言模型的中文机构名称自动识别方法,将分词和机构名称自动识别有机地结合起来。在机构名称识别的类语言模型中采用等级结构,使得嵌套有人名、地名等实体的机构名称能够较好地识别出来。在实验过程中,逐步增加实验条件,依次加入启发信息、缓存模型和机构名缩写处理,使得实验结果显著提高。在开放测试中,中文机构名称最终识别的查准率和查全率分别为85.47%和72.81%。  相似文献   

4.
目前,实体识别与依存关系分析,采用的主要是基于监督学习的深度端到端方法.这种方法存在两个问题:不能引入背景知识;不能识别出自然语言的多粒度、嵌套特征.为了解决以上问题,提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时设计了配套的多维端到端短语识别模型(MDM模型).该标注规则以短语为最...  相似文献   

5.
目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。  相似文献   

6.
基于最大熵方法的中英文基本名词短语识别   总被引:33,自引:2,他引:33  
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。  相似文献   

7.
结合决策树方法的中文姓名识别   总被引:4,自引:2,他引:4  
中文姓名识别是自然语言处理中专名识别的一个重要的子问题,本文将中文姓名的识别过程细分为三个步骤:抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息,在文本中抽取潜在的中文姓名,以及其相关的上下文词法、语法和语义特征,并将潜在姓名是否是真实姓名的判别看作是两分类问题,并利用决策树算法来实现初步判别,最后消除初步判别结果中的歧义现象。实验结果表明,该方法的召回率和准确率都可达到90%以上。  相似文献   

8.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

9.
结合句法组成模板识别汉语基本名词短语的概率模型   总被引:5,自引:0,他引:5  
文中首先给出了汉语基本名词短语的形式化定义,并通过抽取baseNP句法组成模板,显示了这个定义的可操作性,文中指出,句法组成模板只是识别baseNP的必要条件,而非充要条件,仅靠句法组成模板并不能解决baseNP识别中的边界模糊歧义和短语类型歧义问题。据此,把体现baseNP内部组成的句法组成模板与体现上下文约束条件的N元模型结合起来,形成了汉语baseNP识别的新模型。实验证明,该模型的性能优于  相似文献   

10.
汉语短语结构定界歧义类型分析及分布统计   总被引:10,自引:2,他引:8  
本文对汉语短语结构的定界歧义做了全面考察,从歧义格式的组成成分,歧义对外造成的影响,模式歧义和实例歧义的对应关系三方面考察了短语结构定界歧义的不同类型,并对汉语短语结构定界歧义的不同类型进行了初步统计。希望能将计算机处理汉语时碰到的短语结构边界歧义问题进一步清晰化,供理论研究者和应用系统开发人员参考。  相似文献   

11.
在对大量银行机构名分析之后,采用分支限界策略[3],来得到这个将机构名定位的寻路算法(PFA,Pathfinding algorithm)。基本思路是:将中文金融机构名分成银行名、省名、市名和尾部混合名四部分,逐层剥离,去类型关键字,然后分别匹配来获取一系列原始匹配矩阵系数,再根据分支限界思想逐步修正匹配矩阵,最终得到...  相似文献   

12.
简称是自然语言词汇的重要组成部分,其获取是自然语言处理中的一个基本而又关键的问题。提出了一种根据汉语全称从Web中获取对应汉语简称的方法。该方法包括获取和验证两个步骤。获取步骤通过选择查询模式从Web上获得候选简称集合。为了验证候选简称,定义了全简称关系约束,分别定性和定量地表示全称和对应简称之间的约束,构建了全简称关系图来表示所有全称和简称之间的联系,在验证过程中,先分别用约束公理和关系图对候选简称进行过滤,再用约束函数对候选简称分类,并以分类类别、语料标记和约束函数值作为属性构建决策树,利用决策树对候选简称进行验证。实验结果表明,获取方法的最终准确率为94.63%,召回率为84.09%,验证方法的准确率为94.81%。  相似文献   

13.
该文研究了一种维吾尔语中汉族人名的识别和翻译方法。该方法在词典等传统方法的基础上,运用语言模型实现维语中的汉族人名的识别和翻译。针对维语人名的构词和拼写特点,增加了名词词缀识别预处理模块,补充了维语字母到汉语拼音的映射规则,有效提高了人名识别的正确率及召回率。在1 000句含有汉族人名的维语语料上进行测试,汉族人名识别的正确率和召回率分别达到75.2%和91.5%。  相似文献   

14.
基于统计方法的中文姓名识别   总被引:27,自引:4,他引:23  
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试,主要采用基于统计方法,进行中文姓名识别。本文建立了有监督学习机制,提出了句子切分结果可信度等概念,并在此基础上建立了较好的统计模型,系统闭式精确率和召回率分别达95.97%和95.52% ,开式精确率和召回率分别达92.37%和88.62%。  相似文献   

15.
提出了一个基于规则的中文零指代项识别方法,即输入一个句法分析树,根据这个句法分析树得到当前词的最小IP子树,再依据得到的IP子树提出中文零指代识别的一些规则。所用的语料是Ontonotes。从实验结果可以看到,该方法在标准的句法分析树上F值能达到82.45%,在自动句法树上其也能达到66.45%。从实验结果可以看出,该方法在中文零指代识别上具有很好的性能。  相似文献   

16.
中文地名的自动识别   总被引:8,自引:0,他引:8  
以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放测试结果表明,召回率为92.23%,精确率为83.88%。  相似文献   

17.
搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不足,因而该文提出了一种在搜索日志中识别中文人名的方法。该方法将搜索日志中人名内部用字的概率特征引入条件随机场,再根据搜索日志的特点计算人名可信度提取搜索日志中的中文人名。在搜狗查询日志上进行实验,正确率平均达到了81.97%、召回率平均达到了85.81%,综合指标F值平均达到了83.79%。  相似文献   

18.
基于姓氏驱动的中国姓名自动识别方法   总被引:3,自引:3,他引:3  
文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。  相似文献   

19.
提出了一种基于类向量模型的中文姓名识别方法.该方法通过类向量的生成来模拟人工识别姓名的过程,采用Viterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名.该方法是完全数据驱动的,不需要姓名识别的模式和规则.通过对互联网上随机抽取的1 000篇文章进行测试,结果表明,中文姓名识别召回率为82.2%,准确率为70.3%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号