首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 83 毫秒
1.
贾宁  张全 《计算机工程》2007,33(9):31-33
最大熵模型可以对非常广泛的自然语言现象建立概率模型,该文提出了一种使用统计模型的中文姓名识别方法,采用最大熵原则建立统计模型,并运用该模型计算姓名概率。系统采用真实语料进行开放测试的结果表明,在保证一定准确率的情况下,系统召回率可达90%以上。  相似文献   

2.
本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。  相似文献   

3.
刘竞  苏万力 《福建电脑》2006,(7):92-92,96
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部分,其中的中文姓名的识别对中文自动分词的研究具有重要的意义。本文针对基于统计的和基于规则的中文姓名识别方法的不足,使用统计和规则相结合的方法来识别中文姓名。利用统计方法对中文姓名进行初步识别,采用规则方法对统计识别的中文姓名进行校正,进一步提高中文姓名识别的精度。  相似文献   

4.
现有的命名实体识别算法多半采用统计与规则相结合的办法,但是这些方法有的没有考虑全局信息,有的没有解决好统计模型的时间复杂性问题.提出一个简约语法规则和最大熵模型相结合的混合命名实体识别方法,该方法采用简约语法规则与最大熵模型级联,首先使用简约语法规则模型进行识别,降低了使用复杂语法规则的时间复杂度,并把它的输出进行部分匹配,很好的弥补了由于简约语法规则带来的召回率偏低的问题,然后将得到的中间结果作为输入传递给最大熵模型,再由最大熵模型进行识别,得到最终的识别结果.实验结果表明,在MUC-7的命名实体识别评测中,系统的准确率、召回率和F值分别达到了94%,91%和92.48%,与已有的系统相比在性能上有很大的提升.  相似文献   

5.
提出了一种基于类向量模型的中文姓名识别方法.该方法通过类向量的生成来模拟人工识别姓名的过程,采用Viterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名.该方法是完全数据驱动的,不需要姓名识别的模式和规则.通过对互联网上随机抽取的1 000篇文章进行测试,结果表明,中文姓名识别召回率为82.2%,准确率为70.3%.  相似文献   

6.
基于统计方法的中文姓名识别   总被引:31,自引:6,他引:25  
本文介绍一个中文姓名的自动识别系统,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据,以提高系统识别性能。我们从1994年人民日报中随机抽取100篇文章作为测试样本,实验结果表明,准确率和召回率可同时达到90%以上。  相似文献   

7.
隐喻是我们日程生活中常见的语言现象,利用计算机识别隐喻已经成为自然语言处理、人工智能乃至应用语言学领域中的一个具有重要价值的研究课题。本文根据隐喻特点,基于最大熵原理建立了一个隐喻识别模型,并论证了利用统计手段建立该模型的合理性。实验结果表明,该模型具有较高的准确度和召回率,以及较为理想的f值,是非常有前途的  相似文献   

8.
基于词性探测的中文姓名识别算法   总被引:1,自引:0,他引:1  
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。  相似文献   

9.
基于结合性自动识别中文姓名   总被引:7,自引:1,他引:6  
汉字分词系统中,姓名的识别一直是一个比较难处理的部分。本文以姓名和其前后语实的结合性为突破口,在分词预处理中将姓名加以标识。对新华社语料测试的结果令人满意,而县系统还具有独特的开放性和自我学习功能。  相似文献   

10.
中文名词短语识别在自然语言处理已经得到了广泛应用。该文首先对名词短语识别问题进行描述,然后利用最大熵模型建立名词短语识别系统,通过实验选取最大熵模型的特征,最后利用选取的特征进行名词短语识别,实验结果表明系统达到了较高的准确率和召回率。  相似文献   

11.
基于最大熵模型的中国人名自动识别   总被引:1,自引:0,他引:1       下载免费PDF全文
用最大熵模型自动识别中国人名。首先对语料库的词性进行角色替换,然后用特征模板从角色替换后的语料库中提取出特征集,接着用IIS算法训练特征集的最大熵参数,最后用viterbi算法对初分词文本进行角色标注,并在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%、91.2%、88.2%。  相似文献   

12.
提出了一个汉语基本短语分析模型,将汉语短语的边界划分和短语标识分开,假定这两个过程相互独立,采用最大熵方法分别建立模型解决。最大熵模型的关键是如何选取有效的特征,文中给出了两个步骤相关的特征空间以及特征选择过程和算法。实验表明,模型的短语定界精确率达到95.27%,标注精确率达到96.2%。  相似文献   

13.
方明  刘培玉 《计算机应用研究》2011,28(10):3714-3716
在分析酒店评论文本倾向性过程中,针对某些评价词语所产生的歧义性问题,提出一种基于最大熵的评价搭配识别的方法。该方法通过构建极性词表,挖掘出评价词语类别作为语义特征,将其与词、词性、距离、否定词特征结合构成最大熵的复合模板,采用最大熵模型进行评价搭配识别。实验结果证明,采用构建的最大熵复合模板进行评价搭配识别具有较高的准确率和识别性能。  相似文献   

14.
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。  相似文献   

15.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

16.
正确标记短语间的停顿,对提高文语转换系统合成语音的自然度起着重要作用。介绍一种采用最大熵模型从真实自然的语音流中自动识别汉语短语间停顿的方法。模型的特征集包含语音和词法两类特征,采用半自动的方式获得。首先由人工根据经验设计候选特征集,然后采用特征选择算法对候选特征进行筛选,选择更有效的特征构成最终特征集,并训练生成用于汉语短语间停顿识别的最大熵模型。3组实验的结果表明,模型能够取得比较满意的短语间停顿识别效果。  相似文献   

17.
本文提出了一种基于最大熵马尔科夫模型的绩效评价方法.该方法采用马氏模型来定量化建模专家打分过程,采用特征函数表征打分规则,通过在训练集上最大化熵来获得符合专家经验的最优的打分模型.与传统方法相比,所提出的方法可以融合各种打分规则、专家经验和指标逻辑关系得到综合打分结果.为了提高模型的训练和打分的效率,本文提出了基于改进迭代算法的参数估计方法,并利用Viterbi算法进行快速打分计算.利用中国大洋协会绩效评价指标体系历史数据进行的仿真实验表明,与BP神经网络方法和最大熵方法进行对比,本文所提出的方法具有更高的打分正确率.  相似文献   

18.
基于最大熵的经济预警研究   总被引:1,自引:0,他引:1  
经济预警通过对经济发展趋势进行综合的判断,可以辅助人工决策。然而在实际经济预警中,经常出现多值警度难于方便处理以及某些经济指标的数据无法搜集完全的问题,这也是经济预警当前面临的主要问题。本文将最大熵方法引入经济预警,认为在对预警警度的所有相容的预测中,熵最大的预测出现的概率占绝对优势,以此通过特征补偿的方法有效处理了经济预警中经济数据缺失的问题,并通过计算各个警度出现的概率解决多值经济警度问题;同时,此方法无须满足特征独立性假设,训练速度快。最后,通过实验验证了该方法的有效性和高效性  相似文献   

19.
搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。通过对已标注真实文本的分析,构造了动词搭配对的上下文变量信息特征模板,给出利用最大熵方法抽取动词—动词搭配,对待测的1 000句汉语句子应用最大熵方法自动识别出搭配,其中封闭测试抽取正确率为85.6%,召回率达到70.6%。  相似文献   

20.
语义块切分是HNC理论的重要课题,与以往的处理策略不同,采用统计建模的方法来解决这一问题。采用词语、词性、概念等信息组成特征模板,并应用增量方法进行特征选择,构建了一个基于最大熵模型的语义块切分系统。在HNC标注语料库上的测试取得了较好的效果,开放测试的正确率和召回率分别达到了83.78%和91.17%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号