共查询到20条相似文献,搜索用时 15 毫秒
1.
基于统计的中文姓名识别方法研究 总被引:13,自引:2,他引:13
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。 相似文献
2.
中文姓名自动识别系统的设计与实现 总被引:1,自引:1,他引:0
论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下文用字规律,将确定真姓氏并识别姓名的过程看作对句子的姓氏用字集进行划分的过程,设计实现了一个中文姓名自动识别试验系统。同时提出多级阈值的概念,即姓名右边界阈值和识别阈值均是优先级的函数。对系统的开放测试召回率和准确率分别为80.62%、89.27%。 相似文献
3.
4.
5.
6.
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部分,其中的中文姓名的识别对中文自动分词的研究具有重要的意义。本文针对基于统计的和基于规则的中文姓名识别方法的不足,使用统计和规则相结合的方法来识别中文姓名。利用统计方法对中文姓名进行初步识别,采用规则方法对统计识别的中文姓名进行校正,进一步提高中文姓名识别的精度。 相似文献
7.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。 相似文献
8.
公司的员工记录表经常需要查询,就做了一个按姓名查询的界面。但实际使用中总觉得输入人名还是挺麻烦的。有没有更省事的输入姓名方法呢?使用下拉列表选择显然是比较方便的,但全部姓名都在列表中的话估计也很难找到。下面我们就来介绍两种可以更轻松输入姓名的方法吧。 相似文献
9.
10.
11.
12.
公司的员工记录表经常需要查询,就做了一个按姓名查询的界面。但实际使用中总觉得输入人名还是挺麻烦的。有没有更省事的输入姓名方法呢?使用下拉列表选择显然是比较方便的,但全部姓名都在列表中的话估计也很难找到。下面我们就来介绍两种可以更轻松输入姓名的方法吧。 相似文献
13.
基于词性探测的中文姓名识别算法 总被引:1,自引:0,他引:1
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。 相似文献
14.
15.
为克服传统的先分词再识别方法的缺点,提出了一种基于场景信息融合的姓名识别方法。该方法结合中文姓名的特点,综合考虑上下文信息、词本身信息、词典信息和姓名自身信息等场景资源对中文名实体的影响,将它们作为姓名识别的依据,同时引入了证据理论,通过场景资源信息的融合,最终识别出人名。通过对互联网上随机抽取的大规模真实语料的开放测试表明,该方法可以取得较高的召回率并同时保证较高的准确率。 相似文献
16.
汉字型姓名(以下简称姓名)转换为首音码的技术在各个领域已得到广泛应用.由于汉字的首音重码较多,一个姓名经转换会产生多个编码,通常的做法是根据建立者的理解确定一种编码方式.当其它用户使用首音码进行记录定位时,往往不知建立者选择重码音为何音,造成记录定位的失败.另外,当姓名转换首音码时,出现重码时需要选择,大大地降低了转换速度.在GBK汉字库范围内,通过分析汉字读音重码的情况,建立汉字首音码库,设计姓名自动转换成首音码编码和使用首音码进行记录定位的算法. 相似文献
17.
18.
公司的员工记录表经常需要查询,就做了一个按姓名查询的界面。但实际使用中总觉得输入人名还是挺麻烦的。有没有更省事的输入姓名方法呢?使用下拉列表选择显然是比较方便的,但全部姓名都在列表中的话估计也很难找到。下面我们就来介绍两种可以更轻松输入姓名的方法吧。 相似文献
19.
宋志明 《数字社区&智能家居》2006,(16)
我们在编制各种表格的时候,为了使姓名能够前后对齐,经常需要在两个字的姓名中间加上空格。这样做,美观倒是美观了,但是在很多情况下也会给我们造成不便,比如不能再使用VLOOKUP函数进行一些数据的查询。那么,怎么能够快速删除姓名中的那些空格,又能使表格看起来美观呢? 相似文献