首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于统计的中文姓名识别方法研究   总被引:13,自引:2,他引:13  
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。  相似文献   

2.
中文姓名自动识别系统的设计与实现   总被引:1,自引:1,他引:0  
论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下文用字规律,将确定真姓氏并识别姓名的过程看作对句子的姓氏用字集进行划分的过程,设计实现了一个中文姓名自动识别试验系统。同时提出多级阈值的概念,即姓名右边界阈值和识别阈值均是优先级的函数。对系统的开放测试召回率和准确率分别为80.62%、89.27%。  相似文献   

3.
结合决策树方法的中文姓名识别   总被引:4,自引:2,他引:4  
中文姓名识别是自然语言处理中专名识别的一个重要的子问题,本文将中文姓名的识别过程细分为三个步骤:抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息,在文本中抽取潜在的中文姓名,以及其相关的上下文词法、语法和语义特征,并将潜在姓名是否是真实姓名的判别看作是两分类问题,并利用决策树算法来实现初步判别,最后消除初步判别结果中的歧义现象。实验结果表明,该方法的召回率和准确率都可达到90%以上。  相似文献   

4.
本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。  相似文献   

5.
基于语料库的中文姓名识别方法研究   总被引:25,自引:7,他引:25  
本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95.23%;精确率为87.31% 。  相似文献   

6.
刘竞  苏万力 《福建电脑》2006,(7):92-92,96
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部分,其中的中文姓名的识别对中文自动分词的研究具有重要的意义。本文针对基于统计的和基于规则的中文姓名识别方法的不足,使用统计和规则相结合的方法来识别中文姓名。利用统计方法对中文姓名进行初步识别,采用规则方法对统计识别的中文姓名进行校正,进一步提高中文姓名识别的精度。  相似文献   

7.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。  相似文献   

8.
陈桂鑫 《电脑迷》2013,(6):70-71
公司的员工记录表经常需要查询,就做了一个按姓名查询的界面。但实际使用中总觉得输入人名还是挺麻烦的。有没有更省事的输入姓名方法呢?使用下拉列表选择显然是比较方便的,但全部姓名都在列表中的话估计也很难找到。下面我们就来介绍两种可以更轻松输入姓名的方法吧。  相似文献   

9.
我们有时需要在Word中对大量姓名按笔画或拼音排序,可能会利用"表格→转换"功能将姓名转换为表格的一列(或者逐个在姓名后敲回车换行),排序后再将表格转换为文字,比较繁琐。其实巧用"替换"功能便可事半功倍。  相似文献   

10.
办公     
《电脑爱好者》2012,(14):62
1输入常用特定内容序列有一些序列是大家经常需要使用的,比如说学生的姓名。一个班级的学生姓名是相对固定的,如何实现重复利用?我们可以一次性定义好"学生姓名序列",以后输入时就快捷多了。首先将学生姓名输入连续的单元格中,并选中它们,选择"工具"菜单中的"选项"命令,在弹出的"选项"对话框中,选择"自定义序列"选项,先后按下"导入"按钮,这时刚才输入的学生姓名就成为了一个新的序列(图1),  相似文献   

11.
中文姓名的自动辨识   总被引:48,自引:16,他引:32  
中文姓名的辨识对汉语自动分词研究具有重要意义。本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本。实验结果表明, 召回率达到了99.77%。  相似文献   

12.
公司的员工记录表经常需要查询,就做了一个按姓名查询的界面。但实际使用中总觉得输入人名还是挺麻烦的。有没有更省事的输入姓名方法呢?使用下拉列表选择显然是比较方便的,但全部姓名都在列表中的话估计也很难找到。下面我们就来介绍两种可以更轻松输入姓名的方法吧。  相似文献   

13.
基于词性探测的中文姓名识别算法   总被引:1,自引:0,他引:1  
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。  相似文献   

14.
中文姓名识别是中文信息处理中未登录词处理的范畴,同时也是中文文本特征词处理的重要部份。针对中文姓名构成的一般规律和特征,本文进行姓氏用字驱动与统计相结合的中文姓名识别方法的研究,该方法以中文姓氏为驱动,并以此为线索,再结合统计方法评价姓名的真实性。  相似文献   

15.
为克服传统的先分词再识别方法的缺点,提出了一种基于场景信息融合的姓名识别方法。该方法结合中文姓名的特点,综合考虑上下文信息、词本身信息、词典信息和姓名自身信息等场景资源对中文名实体的影响,将它们作为姓名识别的依据,同时引入了证据理论,通过场景资源信息的融合,最终识别出人名。通过对互联网上随机抽取的大规模真实语料的开放测试表明,该方法可以取得较高的召回率并同时保证较高的准确率。  相似文献   

16.
汉字型姓名(以下简称姓名)转换为首音码的技术在各个领域已得到广泛应用.由于汉字的首音重码较多,一个姓名经转换会产生多个编码,通常的做法是根据建立者的理解确定一种编码方式.当其它用户使用首音码进行记录定位时,往往不知建立者选择重码音为何音,造成记录定位的失败.另外,当姓名转换首音码时,出现重码时需要选择,大大地降低了转换速度.在GBK汉字库范围内,通过分析汉字读音重码的情况,建立汉字首音码库,设计姓名自动转换成首音码编码和使用首音码进行记录定位的算法.  相似文献   

17.
本文描述由日文假名到汉字转换的日本汉字姓名输入系统。姓名输入通过假名键盘转换成一组可能同音异义的汉字姓名,显示在 CRT 监视器上。然后由操作人员从中把真正要输入的姓名选出来。为便于迅速而准确地操作,该系统具有的主要特点是采用两级选择名单的办法和转换表(以出现频度为基础)的优先树结构。该系统适用于人员情报的检索。  相似文献   

18.
公司的员工记录表经常需要查询,就做了一个按姓名查询的界面。但实际使用中总觉得输入人名还是挺麻烦的。有没有更省事的输入姓名方法呢?使用下拉列表选择显然是比较方便的,但全部姓名都在列表中的话估计也很难找到。下面我们就来介绍两种可以更轻松输入姓名的方法吧。  相似文献   

19.
我们在编制各种表格的时候,为了使姓名能够前后对齐,经常需要在两个字的姓名中间加上空格。这样做,美观倒是美观了,但是在很多情况下也会给我们造成不便,比如不能再使用VLOOKUP函数进行一些数据的查询。那么,怎么能够快速删除姓名中的那些空格,又能使表格看起来美观呢?  相似文献   

20.
自动标引中中文姓名的切分   总被引:2,自引:2,他引:2  
靳从  唐振民  杨静宇 《计算机工程》2003,29(22):153-154
主题词的分割是计算机自动标引的第1步,由于中文姓名不像英文、欧洲语言那样可以通过大写字母来辨别,这就给姓名的识别带来一定的困难。该文根据自动标引系统的要求,充分利用姓名的特点及相关信息,给出了一个基于姓名基本结构的切分方法。通过系统标引结果证明了方法的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号