首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
结合句法组成模板识别汉语基本名词短语的概率模型   总被引:5,自引:0,他引:5  
文中首先给出了汉语基本名词短语的形式化定义,并通过抽取baseNP句法组成模板,显示了这个定义的可操作性,文中指出,句法组成模板只是识别baseNP的必要条件,而非充要条件,仅靠句法组成模板并不能解决baseNP识别中的边界模糊歧义和短语类型歧义问题。据此,把体现baseNP内部组成的句法组成模板与体现上下文约束条件的N元模型结合起来,形成了汉语baseNP识别的新模型。实验证明,该模型的性能优于  相似文献   

2.
基于知识图的汉语基本名词短语分析模型   总被引:2,自引:0,他引:2  
本文提出了一种基于知识图的汉语baseNP分析模型。它以知识图为知识表示方法,利用《知网》为语义知识资源,采用以语义为主、语法为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”而组成“短语图”,最后得到一个关于汉语baseNP结构信息和语义信息的知识图。因此它不仅分析了汉语baseNP结构的内部句法关系,而且分析了汉语baseNP结构成分间的语义关系并以知识图的形式表示出了这种语义关系。实验结果表明这个模型对于汉语baseNP的分析是有效的。  相似文献   

3.
基于转换的汉语基本名词短语识别模型   总被引:28,自引:10,他引:18  
基本名词短语的识别在自然语言信息处理领域具有重要作用。本文首先从语言学的角度提出了汉语基本名词短语的概念,然后从语言信息处理的角度将用于基本名词短语识别的知识分为两部分,即表示基本名词短语句法组成的基本结构模板(静态知识)与表示基本名词短语出现的上下文环境特征的转换规则(动态知识)。在此基础上设计了一种基于转换的基本名词短语识别模型,该模型可同时结合这两类知识识别基本名词短语。实验结果显示了较高的识别正确率。  相似文献   

4.
基于最大熵方法的中英文基本名词短语识别   总被引:33,自引:2,他引:33  
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。  相似文献   

5.
混合的汉语基本名词短语识别方法   总被引:3,自引:2,他引:1       下载免费PDF全文
提出一种混合的汉语基本名词短语(BaseNP)识别模型,包括采用语法规则、统计方法和组合分类器方法。利用BaseNP词的信息、词性信息及上下文句法信息,构建组合分类器,提高判断的准确性。在中文树库(CTB5.0)上进行实验,F值达到了90.09%,证明该方法能有效地识别BaseNP。  相似文献   

6.
以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基本名词短语自动识别系统,实现了对30万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可行,识别精确率达到80.8%。  相似文献   

7.
以哈萨克语基本名词短语识别为目标,实现了哈萨克语基本名词短语自动识别系统。采用基于规则自动识别及人工标注的方法建立基本名词短语标注语料库,在此基础上,采用统计和规则相结合的识别方法,利用互信息进行基本名词短语边界预测,然后根据哈萨克语基本名词短语构成规则对预测边界进行调整,加入标注符,得到最终的识别结果。实验结果表明,两种方法封闭测试的识别精确率分别为80.2%和82.5%。  相似文献   

8.
该文提出了最长名词短语(MNP)的操作性定义,分析了其构造和分布特征,并设计了一种基于baseNP归约的识别方法,利用MNP结构特性及起始有定成分、语义核心等语言学特征,缓解了最长名词短语长距离依赖与模型观察窗口受限的矛盾。开放测试取得了88.68%的正确率和89.21%的召回率;归约方法全面提升了识别性能,特别是将多词结构的调和平均值提高1%,优化幅度达6%以上,并且对长距离复杂结构有着更好的识别效果。  相似文献   

9.
本文提出了一种基于粗糙集的基本名词短语(BaseNP)识别方法。该方法首先进行BaseNP标注,然后实现BaseNP识别。它把BaseNP标注看作一个决策问题用粗糙集理论解决,因而具有特征约简和规则优化的特点。文章介绍了基于粗糙集的规则学习方法和相应的算法,同时也给出了BaseNP标注和识别的算法流程,提出了解决实例冲突问题的方法,并提高了识别效果。文章最后给出了详细的实验步骤和结果,并与几个典型系统进行了比较与分析,提出了进一步改进的方向。  相似文献   

10.
汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的基本复合名词语义关系知识库。该库的标注重点是标注句子中基本复合名词短语的边界以及短语内部成分之间的语义关系,总共收录27 007条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,使用基线模型对基本复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。  相似文献   

11.
数据库NL界面上汉语查询的EAAD模型   总被引:6,自引:0,他引:6  
张亚南  徐洁磐 《计算机学报》1993,16(12):881-888
本文给出一种旨在描述数据库NL界面上汉语查询的语法,语义结构的EAAD模型。通过该模型,数据库自然语言界面上的查询分析与理解,可以与其相应的背景知识 机地结合起来,EAAD模型适合于描述任意构形上的ER模型或与其相应的关系模型上的汉语查询,尤其是描述涉及多实体,多路径的查询的结构规律,有利于增强数据库NL界面的理解力和可移植性。  相似文献   

12.
本文在分析了现有切词方法和汉语特点的基础上,提出一各上具有多知识支持的分词方法SSK。SSK方法采用一种分层结构的词典,使每个词在匹配过程中能自动生成 其所有可能的重切,使切词失败时的歧义处理变得十分简单、有效。SSK方法不但得到字、词层次上知识的支持,肯得到语法、语义知识的支持。该方法通过语法、语义检查可及时晚报除一些切分错误,减少了歧义切分,且SSK方法具有简单的词汇学习功能,提高了切词正确率。  相似文献   

13.
在文本信息数量迅速增长的环境下,为提升阅读效率,提出一种基于深度学习的多文档自动文本摘要模型.在传统文摘模型的基础上将Siamese LSTM深度学习网络应用到文本相似度计算中,计算曼哈顿距离来表征文本相似度,并采用去除停用词的方法改进该网络模型以提升计算效率.实验结果表明,使用Siamese LSTM与传统余弦相似度...  相似文献   

14.
CSCW支撑平台的结构模型   总被引:27,自引:2,他引:27  
传统分布式系统中面向系统的控制及分布透明性不能满足CSCW对面向用户的显式协作的要求。本文提出了一个CSCW系统的结构模型,该结构以一个CSCW支撑平台作为一般分布式系统与协作应用之间的适配层,来支持协作任务平台具有客户/服务器模式,它用面向对象方法处理各种异构性,将协作规则与协作机制分开,这样它就可以仅利用基本的分布功能,提供方便灵活的面向用户协作的服务。在此平台上可有各种多媒体协同应用,从而充  相似文献   

15.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

16.
基于遗传算法的汉语未登录词识别   总被引:1,自引:0,他引:1  
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率.  相似文献   

17.
提出了一个结合统计和规则的口语理解方法.首先,用统计分类器对输入进行主题分类,然后用语义规则提取主题相关的语义槽.该方法在主题分类和语义槽提取方面都具有较低的错误率,同时具有很好的鲁棒性,并在图书馆查询系统的查询需求理解中取得了很好的结果.  相似文献   

18.
基于统计方法的汉语自动文摘系统研究   总被引:11,自引:0,他引:11  
本文简要介绍了文本的向量空间模型表示,并提出了用该模型进行非受限真实文本的自动文摘方法。其基本思想是对输入文本进行项(本文为词和概念)的统计,根据不同项在文本中的分布评估其重要性,据此和其它信息形成句子的综合权重,生成摘要。文中较详细地介绍了系统的实现及实验结果,同时提出了对文摘系统的评价方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号