首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 734 毫秒

1.  基于最大熵模型和规则的中文姓名识别  
   贾 宁  张 全《计算机工程与应用》,2007年第43卷第35期
   中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。    

2.  中文姓名自动识别系统的设计与实现  被引次数:1
   余祖波  高庆狮  方淼《计算机工程与应用》,2006年第42卷第10期
   论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下文用字规律,将确定真姓氏并识别姓名的过程看作对句子的姓氏用字集进行划分的过程,设计实现了一个中文姓名自动识别试验系统。同时提出多级阈值的概念,即姓名右边界阈值和识别阈值均是优先级的函数。对系统的开放测试召回率和准确率分别为80.62%、89.27%。    

3.  基于统计的中文姓名识别方法研究  被引次数:14
   张锋  樊孝忠  许云《计算机工程与应用》,2004年第40卷第10期
   该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。    

4.  基于场景信息融合的中文姓名识别方法研究  
   张腾飞  王晓磊  王保云《计算机工程与应用》,2009年第45卷第34期
   为克服传统的先分词再识别方法的缺点,提出了一种基于场景信息融合的姓名识别方法。该方法结合中文姓名的特点,综合考虑上下文信息、词本身信息、词典信息和姓名自身信息等场景资源对中文名实体的影响,将它们作为姓名识别的依据,同时引入了证据理论,通过场景资源信息的融合,最终识别出人名。通过对互联网上随机抽取的大规模真实语料的开放测试表明,该方法可以取得较高的召回率并同时保证较高的准确率。    

5.  中文姓名的自动辨识  被引次数:47
   孙茂松 高海燕《中文信息学报》,1995年第9卷第2期
   中文姓名的辨识对汉语自动分词研究具有重要意义,本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本,实验结果表明,召回率达到了99.77%。    

6.  统计和规则相结合的中文姓名识别方法研究  
   刘竞  苏万力《福建电脑》,2006年第7期
   无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部分,其中的中文姓名的识别对中文自动分词的研究具有重要的意义。本文针对基于统计的和基于规则的中文姓名识别方法的不足,使用统计和规则相结合的方法来识别中文姓名。利用统计方法对中文姓名进行初步识别,采用规则方法对统计识别的中文姓名进行校正,进一步提高中文姓名识别的精度。    

7.  基于HMM的中文姓名识别方法研究  
   杨霞  黄陈英《硅谷》,2009年第3期
   以2000年1月-12月《人民日报》大约80万汉字语料为基础,利用基于隐马尔可夫模型并结合统计来评价在真实文本中构成中文姓名的能力.实现中文姓名的自动识别。实验测试表明:准确率达91.5%,召回率为89.5%。    

8.  西方姓名译名的自动识别研究  
   孔祥龙  卢鹏  陆汝占  刘绍明《计算机仿真》,2004年第21卷第8期
   西方姓名译名的自动识别为汉语自动分词不可或缺的组成部分。该文以西方姓名译名用字信息为基础,充分利用标准词表来限制西方姓名译名的过度生长能力,并使用首尾逼近和局部频率等方法来进一步改善识别效果,并且针对西方姓名译名的特点进行了有针对性的处理。对真实语料进行测试,正确率达到96.87%,召回率达到97.20%。    

9.  基于人工免疫原理的中文姓名识别方法  
   孙飞显  李涛  蒋亚平《四川大学学报(工程科学版)》,2006年第38卷第1期
   为提高姓名识别的准确性并加快识别的速度,受生物免疫系统自学习、免疫记忆等特征启发,基于人工免疫原理,提出了一种新的中文姓名识别模型。给出了自体/非自体、抗体/抗原的定义,建立了免疫学习、免疫识别和免疫记忆机制。对模型进行了仿真,并完成了验证实验。实验结果表明该方法较传统的基于统计、基于语料库和结合决策树的姓名识别方法更有效,为文本挖掘提供了一种较好的解决方案。    

10.  基于姓氏用字驱动与统计的中文姓名识别方法的研究  
   方玉萍  罗陈红  陈恳《计算机与现代化》,2013年第3期
   中文姓名识别是中文信息处理中未登录词处理的范畴,同时也是中文文本特征词处理的重要部份。针对中文姓名构成的一般规律和特征,本文进行姓氏用字驱动与统计相结合的中文姓名识别方法的研究,该方法以中文姓氏为驱动,并以此为线索,再结合统计方法评价姓名的真实性。    

11.  基于最大熵模型的中文姓名识别  
   贾宁  张全《计算机工程》,2007年第33卷第9期
   最大熵模型可以对非常广泛的自然语言现象建立概率模型,该文提出了一种使用统计模型的中文姓名识别方法,采用最大熵原则建立统计模型,并运用该模型计算姓名概率。系统采用真实语料进行开放测试的结果表明,在保证一定准确率的情况下,系统召回率可达90%以上。    

12.  基于统计和规则的中文姓名识别  
   赵伟  张学  安诚《信息与电脑》,2011年第5期
   本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。    

13.  基于类向量模型的中文姓名识别研究  
   贾品贵  杨一平  卢朋《计算机应用研究》,2007年第24卷第4期
   提出了一种基于类向量模型的中文姓名识别方法.该方法通过类向量的生成来模拟人工识别姓名的过程,采用Viterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名.该方法是完全数据驱动的,不需要姓名识别的模式和规则.通过对互联网上随机抽取的1 000篇文章进行测试,结果表明,中文姓名识别召回率为82.2%,准确率为70.3%.    

14.  基于条件随机场与规则相结合的中文地名识别  
   高国洋  戚银城  潘德锋《电脑开发与应用》,2009年第22卷第8期
   对中文地名识别进行了研究,提出了一种结合多知识的地名识别方法,该方法首先以条件随机场模型为框架,充分利用地名的外部特征和内部颗粒特征,将局部特征、复合特征以及专家知识相融合进行中文地名识别;在此结果上,利用构建的专家规则库对实验结果进行修正。实验结果表明,本文的方法是有效的,实验语料为1998年1月的《人民日报》,开放测试准确率、召回率、和F-值分别达到了93.64%、90.36%、92.03%。    

15.  基于混合统计模型的中文基本名词短语识别  
   谭魏璇  孔芳  倪吉  周国栋《计算机应用与软件》,2011年第28卷第8期
   采用一种基于混合统计模型的方法来实现中文基本名词短语识别。首先简要分析目前的研究现状,明确中文Base NP识别的任务,然后采用以基于转换的标注和条件随机域模型为底层,支持向量机模型为高层的混合统计模型来进行中文BaseNP的识别。在ACE2005中文语料上的实验表明,F值比使用单一模型提高了1.37%,达到了88.67%,能提高中文基本名词短语的识别性能。    

16.  基于统计方法的中文姓名识别  被引次数:31
   刘秉伟  黄萱菁  郭以昆  吴立德《中文信息学报》,2000年第14卷第3期
   本文介绍一个中文姓名的自动识别系统,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据,以提高系统识别性能。我们从1994年人民日报中随机抽取100篇文章作为测试样本,实验结果表明,准确率和召加回率可同时达到90%以上。    

17.  基于GATE的油田信息抽取技术研究  
   文必龙  李云静  王琪超  金宗泽  高快《计算机与数字工程》,2014年第7期
   针对目前国内油田信息抽取系统中文信息抽取不准确的现状,提出了更为准确的基于油田的中文信息抽取的解决方案。在GA T E框架下,开发中文信息抽取插件,解决了基于油田的中文分词、中文语料词表和中文命名实体识别,并在企业实际中进行了应用,取得了较好的应用效果,并为后续的油田信息抽取技术研究提供了研究基础。    

18.  基于统计方法的中文姓名识别研究  
   贾品贵  杨一平  卢朋《计算机工程与应用》,2006年第42卷第31期
   采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。    

19.  中文电子病历命名实体标注语料库构建  
   曲春燕  关毅  杨锦锋  赵永杰  刘雅欣《高技术通讯》,2015年第25卷第2期
   针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建.参考2010年美国国家集成生物与临床信息学研究中心(I2B2)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上.该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义.    

20.  中文人名自动识别的一种有效方法  被引次数:9
   李建华  王晓龙《高技术通讯》,2000年第10卷第2期
   介绍了一种基于大量实验的有效的中文姓名自动识别方法。实验结果表明,该方法在兼顾准确率与召回率的同时获得了较好的识别效果。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号