首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
基于统计方法的中文姓名识别   总被引:27,自引:4,他引:23  
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试,主要采用基于统计方法,进行中文姓名识别。本文建立了有监督学习机制,提出了句子切分结果可信度等概念,并在此基础上建立了较好的统计模型,系统闭式精确率和召回率分别达95.97%和95.52% ,开式精确率和召回率分别达92.37%和88.62%。  相似文献   

2.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。  相似文献   

3.
结合决策树方法的中文姓名识别   总被引:4,自引:2,他引:4  
中文姓名识别是自然语言处理中专名识别的一个重要的子问题,本文将中文姓名的识别过程细分为三个步骤:抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息,在文本中抽取潜在的中文姓名,以及其相关的上下文词法、语法和语义特征,并将潜在姓名是否是真实姓名的判别看作是两分类问题,并利用决策树算法来实现初步判别,最后消除初步判别结果中的歧义现象。实验结果表明,该方法的召回率和准确率都可达到90%以上。  相似文献   

4.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。  相似文献   

5.
提出了一种基于类向量模型的中文姓名识别方法.该方法通过类向量的生成来模拟人工识别姓名的过程,采用Viterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名.该方法是完全数据驱动的,不需要姓名识别的模式和规则.通过对互联网上随机抽取的1 000篇文章进行测试,结果表明,中文姓名识别召回率为82.2%,准确率为70.3%.  相似文献   

6.
本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。  相似文献   

7.
论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下文用字规律,将确定真姓氏并识别姓名的过程看作对句子的姓氏用字集进行划分的过程,设计实现了一个中文姓名自动识别试验系统。同时提出多级阈值的概念,即姓名右边界阈值和识别阈值均是优先级的函数。对系统的开放测试召回率和准确率分别为80.62%、89.27%。  相似文献   

8.
刘竞  苏万力 《福建电脑》2006,(7):92-92,96
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部分,其中的中文姓名的识别对中文自动分词的研究具有重要的意义。本文针对基于统计的和基于规则的中文姓名识别方法的不足,使用统计和规则相结合的方法来识别中文姓名。利用统计方法对中文姓名进行初步识别,采用规则方法对统计识别的中文姓名进行校正,进一步提高中文姓名识别的精度。  相似文献   

9.
基于统计的中文姓名识别方法研究   总被引:13,自引:2,他引:13  
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。  相似文献   

10.
中文姓名的自动辨识   总被引:48,自引:16,他引:32  
中文姓名的辨识对汉语自动分词研究具有重要意义。本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本。实验结果表明, 召回率达到了99.77%。  相似文献   

11.
该文根据中国人名的形成方式,总结和统计了人名的用字特征和边界模板特征,通过计算人名内聚度、人名区分度和边界模板可信度的综合概率作为人名可信度,对文本中人名进行识别或对已识别的人名进行纠正。该文将可信度检测模块嵌入到一个简易的命名实体平台中,在MSRA的语料上进行测试,实验结果说明可信度模型使得平台的人名识别F值提高了2.27%,整个系统的人名识别F值达到了91.72%。  相似文献   

12.
中国地名自动识别系统的设计与实现   总被引:11,自引:0,他引:11  
谭红叶  郑家恒  刘开瑛 《计算机工程》2002,28(8):128-129,270
按照统计与规则相结合的策略,设计实现了一个中国地名自动识别实验系统;同时提出了地名可信度的计算方法。对系统开放测试后,准确度为90.92%,召回率为97%。  相似文献   

13.
李波  张蕾 《计算机工程》2012,38(12):179-181
针对统计与规则这2种方法的优缺点,提出一种基于转换的错误驱动学习与知网相结合的中文人名自动识别方法。利用标注语料库,根据在人名识别中的作用对人名上下文环境进行角色标注,提取标注后的实例,并采用基于转换的错误驱动方法和知网对提取的实例进行可用规则提取,结合规则和实例对文本进行人名识别。实验结果表明,与其他方法相比,该方法的中文人名识别准确率、召回率和 F值均有明显提高。  相似文献   

14.
为了减少分词的负面效果,提出了基于用字共现频率统计的外国译名自动识别方法.对译名的用字特征进行了统计,提出译名共现字串的概念,并由译名用字表与汉语常用字表得到了非译名用字表.在上述工作的基础上定义了译名的边界,在边界定义的基础上设计了一种对分词错误的调整方法.对开放语料的测试结果表明,与最大词频分词算法相比,该算法在译名识别中的准确率、召回率、F值均有所提高.  相似文献   

15.
当前中文人名识别的研究主要针对中国人名,而对日本人名及音译人名的专门研究相对较少,识别效果也亟待提高。提出利用CRRM方法进行中、日及音译人名同步识别。该方法基于CRF(Conditional Random Fields)并结合了上下文规则及人名可信度模型。此外,利用局部统计算法对边界识别错误的人名进行修正,并利用扩散操作召回未被识别的人名。实验结果表明,中、日、音译人名识别的F值均高于90%,提出的方法可以取得较好的识别效果。  相似文献   

16.
贾宁  张全 《计算机工程》2007,33(9):31-33
最大熵模型可以对非常广泛的自然语言现象建立概率模型,该文提出了一种使用统计模型的中文姓名识别方法,采用最大熵原则建立统计模型,并运用该模型计算姓名概率。系统采用真实语料进行开放测试的结果表明,在保证一定准确率的情况下,系统召回率可达90%以上。  相似文献   

17.
藏文地名识别是藏文命名实体识别中必须要解决的问题。通过分析藏文地名的特点及识别难点,阐述了藏文地名的音节、触发词、地名后续词和格助词等特性适用基于CRF模型的地名识别,通过实验,验证了6种特征对藏文地名识别的有效性。实验结果表明该方法对藏文地名识别的准确率、召回率和[F]值分别达到了96.12%、81.92%和88.45%,实验结果与已有的系统相比,取得了较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号