共查询到19条相似文献,搜索用时 93 毫秒
1.
机构名称层出不穷,本文以高校名称为例,采用一种结合决策树的方法对机构名称进行识别,实验结果表明该方法效果良好,能应用于一定范围的中文专名识别工作. 相似文献
2.
3.
4.
目前,实体识别与依存关系分析,采用的主要是基于监督学习的深度端到端方法.这种方法存在两个问题:不能引入背景知识;不能识别出自然语言的多粒度、嵌套特征.为了解决以上问题,提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时设计了配套的多维端到端短语识别模型(MDM模型).该标注规则以短语为最... 相似文献
5.
目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。 相似文献
6.
基于最大熵方法的中英文基本名词短语识别 总被引:33,自引:2,他引:33
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。 相似文献
7.
8.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。 相似文献
9.
结合句法组成模板识别汉语基本名词短语的概率模型 总被引:5,自引:0,他引:5
文中首先给出了汉语基本名词短语的形式化定义,并通过抽取baseNP句法组成模板,显示了这个定义的可操作性,文中指出,句法组成模板只是识别baseNP的必要条件,而非充要条件,仅靠句法组成模板并不能解决baseNP识别中的边界模糊歧义和短语类型歧义问题。据此,把体现baseNP内部组成的句法组成模板与体现上下文约束条件的N元模型结合起来,形成了汉语baseNP识别的新模型。实验证明,该模型的性能优于 相似文献
10.
汉语短语结构定界歧义类型分析及分布统计 总被引:10,自引:2,他引:8
本文对汉语短语结构的定界歧义做了全面考察,从歧义格式的组成成分,歧义对外造成的影响,模式歧义和实例歧义的对应关系三方面考察了短语结构定界歧义的不同类型,并对汉语短语结构定界歧义的不同类型进行了初步统计。希望能将计算机处理汉语时碰到的短语结构边界歧义问题进一步清晰化,供理论研究者和应用系统开发人员参考。 相似文献
11.
在对大量银行机构名分析之后,采用分支限界策略[3],来得到这个将机构名定位的寻路算法(PFA,Pathfinding algorithm)。基本思路是:将中文金融机构名分成银行名、省名、市名和尾部混合名四部分,逐层剥离,去类型关键字,然后分别匹配来获取一系列原始匹配矩阵系数,再根据分支限界思想逐步修正匹配矩阵,最终得到... 相似文献
12.
简称是自然语言词汇的重要组成部分,其获取是自然语言处理中的一个基本而又关键的问题。提出了一种根据汉语全称从Web中获取对应汉语简称的方法。该方法包括获取和验证两个步骤。获取步骤通过选择查询模式从Web上获得候选简称集合。为了验证候选简称,定义了全简称关系约束,分别定性和定量地表示全称和对应简称之间的约束,构建了全简称关系图来表示所有全称和简称之间的联系,在验证过程中,先分别用约束公理和关系图对候选简称进行过滤,再用约束函数对候选简称分类,并以分类类别、语料标记和约束函数值作为属性构建决策树,利用决策树对候选简称进行验证。实验结果表明,获取方法的最终准确率为94.63%,召回率为84.09%,验证方法的准确率为94.81%。 相似文献
13.
14.
15.
16.
17.
18.
基于姓氏驱动的中国姓名自动识别方法 总被引:3,自引:3,他引:3
文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。 相似文献