首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
该文提出了最长名词短语(MNP)的操作性定义,分析了其构造和分布特征,并设计了一种基于baseNP归约的识别方法,利用MNP结构特性及起始有定成分、语义核心等语言学特征,缓解了最长名词短语长距离依赖与模型观察窗口受限的矛盾。开放测试取得了88.68%的正确率和89.21%的召回率;归约方法全面提升了识别性能,特别是将多词结构的调和平均值提高1%,优化幅度达6%以上,并且对长距离复杂结构有着更好的识别效果。  相似文献   

2.
汉语基本名词短语结构分析模型   总被引:19,自引:0,他引:19  
赵军  黄昌宁 《计算机学报》1999,22(2):141-146
本文提出了用词语潜在依存关系分析汉语baseNP结构的模型,它有以下的特点:①将依存语法知识融入概率模型中,使得baseNP结构分析在依存语法知识的指导下进行,其性能优于纯粹的概率模型-相依模型;②词语潜在依存强度的获取算法是基于MDL原则的,在模型建造时既考虑数据拟合性,又考虑模型归纳性,其性能优于基于极大似然原则的词语在依存强度获取算法;③词语潜在依存强度获取算法在复杂特性集上进行,可以有效地  相似文献   

3.
采用一种基于混合统计模型的方法来实现中文基本名词短语识别。首先简要分析目前的研究现状,明确中文Base NP识别的任务,然后采用以基于转换的标注和条件随机域模型为底层,支持向量机模型为高层的混合统计模型来进行中文BaseNP的识别。在ACE2005中文语料上的实验表明,F值比使用单一模型提高了1.37%,达到了88.67%,能提高中文基本名词短语的识别性能。  相似文献   

4.
该文提出一种基于语言知识评价的分类器集成方法,利用自动获得的搭配资源和人工评价规则,融合了基于支持向量机的最长名词短语识别结果和基于条件随机场的归约识别结果,进一步基于确定性规则有针对性地识别了分类器易出错的特殊结构,提高了对连续动词介词和连续名词造成的边界歧义的识别能力。实验取得了89.30%的正确率和89.62%的召回率,多词结构F1值较归约方法提高了0.75%。  相似文献   

5.
结合句法组成模板识别汉语基本名词短语的概率模型   总被引:5,自引:0,他引:5  
文中首先给出了汉语基本名词短语的形式化定义,并通过抽取baseNP句法组成模板,显示了这个定义的可操作性,文中指出,句法组成模板只是识别baseNP的必要条件,而非充要条件,仅靠句法组成模板并不能解决baseNP识别中的边界模糊歧义和短语类型歧义问题。据此,把体现baseNP内部组成的句法组成模板与体现上下文约束条件的N元模型结合起来,形成了汉语baseNP识别的新模型。实验证明,该模型的性能优于  相似文献   

6.
以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基本名词短语自动识别系统,实现了对30万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可行,识别精确率达到80.8%。  相似文献   

7.
以哈萨克语基本名词短语识别为目标,实现了哈萨克语基本名词短语自动识别系统。采用基于规则自动识别及人工标注的方法建立基本名词短语标注语料库,在此基础上,采用统计和规则相结合的识别方法,利用互信息进行基本名词短语边界预测,然后根据哈萨克语基本名词短语构成规则对预测边界进行调整,加入标注符,得到最终的识别结果。实验结果表明,两种方法封闭测试的识别精确率分别为80.2%和82.5%。  相似文献   

8.
基于知识图的汉语基本名词短语分析模型   总被引:2,自引:0,他引:2  
本文提出了一种基于知识图的汉语baseNP分析模型。它以知识图为知识表示方法,利用《知网》为语义知识资源,采用以语义为主、语法为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”而组成“短语图”,最后得到一个关于汉语baseNP结构信息和语义信息的知识图。因此它不仅分析了汉语baseNP结构的内部句法关系,而且分析了汉语baseNP结构成分间的语义关系并以知识图的形式表示出了这种语义关系。实验结果表明这个模型对于汉语baseNP的分析是有效的。  相似文献   

9.
本文提出了一种基于粗糙集的基本名词短语(BaseNP)识别方法。该方法首先进行BaseNP标注,然后实现BaseNP识别。它把BaseNP标注看作一个决策问题用粗糙集理论解决,因而具有特征约简和规则优化的特点。文章介绍了基于粗糙集的规则学习方法和相应的算法,同时也给出了BaseNP标注和识别的算法流程,提出了解决实例冲突问题的方法,并提高了识别效果。文章最后给出了详细的实验步骤和结果,并与几个典型系统进行了比较与分析,提出了进一步改进的方向。  相似文献   

10.
基于最大熵方法的中英文基本名词短语识别   总被引:33,自引:2,他引:33  
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。  相似文献   

11.
方应谦  王鲁 《中文信息学报》2000,14(2):26-30,,48,
汉字识别中,以往的分类器设计都是以字为单位的“字分类器”。字分类器的输出总是与待识字结构相似的一个侯选字集合。这是使后级识别容易产生误识的主要原因。为克服字分类器的缺点,本文给出了以词为单位的词分类器设计的策略与方法,并实验验证了词分类器在分类率及分类速度方面均优于字分类器。  相似文献   

12.
该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交的方法抽取藏语中心语块,再以扩展可信度为依据扩展中心语块。实验结果表明,基于序列相交的方法所抽取的汉藏基本名词短语对能够节省人工校正的工作量,有效辅助于汉藏基本名词短语库的建设。  相似文献   

13.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

14.
该文提出一种融入简单名词短语信息的介词短语识别方法。该方法首先使用CRF模型识别语料中的简单名词短语,并使用转换规则对识别结果进行校正,使其更符合介词短语的内部短语形式;然后依据简单名词短语识别结果对语料进行分词融合;最后,通过多层CRFs模型对测试语料进行介词短语识别,并使用规则进行校正。介词短语识别的精确率、召回率及F-值分别为: 93.02%、92.95%、92.99%,比目前发表的最好结果高1.03个百分点。该实验结果表明基于简单名词短语的介词短语识别算法的有效性。
  相似文献   

15.
中文人称名词短语单复数自动识别   总被引:1,自引:1,他引:1  
名词短语的单复数信息在共指消解中是必不可少的特征. 与英语不同, 中文属于汉藏语系, 名词本身不能明显体现单复数信息, 需要借助其所在的名词短语来进行体现. 本文在自动内容抽取(Automatic content extraction, ACE)语料上抽取得到人称名词短语的单复数信息, 分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别. 基于规则的方法, 在一些知识资源的基础上定义了规则模板库, 每条规则采用槽和槽值的方法来进行体现; 机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征. 两种方法分别达到了48.24\%和87.48\%的正确率. 实验结果显示, 基于规则的方法能够保证精确率而不能保证召回率, 机器学习的方法可以更好地完成单复数信息的识别任务.  相似文献   

16.
以概念层次网络(HNC)概念基元符号为基础,探索汉语语句中基本命名的构成方式与特点,为计算机识别基本命名提供了关键信息.最后在语料中对规则进行了测试并给出了结果.  相似文献   

17.
指代消解是自然语言处理领域中的一个重要问题。本文引入图对汉语名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并应用关联聚类算法来实现对图的自动划分。相对于传统的link-first和link-best聚类机制,该方法并不是孤立地针对每一对名词短语分别进行共指决策,而是充分考虑了多个名词短语之间的相关性,且不需事先给出聚类的数量以及距离闻值。通过在ACE中文语料上名词短语消解的实验结果表明,该方法是一个有效的指代消解算法。  相似文献   

18.
统计和规则相结合的汉语最长名词短语自动识别   总被引:2,自引:0,他引:2  
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法 通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号