首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
基于层叠隐马模型的汉语词法分析   总被引:65,自引:2,他引:65  
提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理.未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度.在切分排歧方面,提出了一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到.不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用.实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS.该系统在2002年的“九七三”专家组评测中获得第1名,在2003年汉语特别兴趣研究组(ACL Special Interest Groupon Chinese Language Processing,SIGHAN)组织的第1届国际汉语分词大赛中综合得分获得两项第1名、一项第2名.这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层叠隐马模型能够解决好汉语词法问题.  相似文献   

2.
李波  张蕾 《计算机工程》2012,38(12):179-181
针对统计与规则这2种方法的优缺点,提出一种基于转换的错误驱动学习与知网相结合的中文人名自动识别方法。利用标注语料库,根据在人名识别中的作用对人名上下文环境进行角色标注,提取标注后的实例,并采用基于转换的错误驱动方法和知网对提取的实例进行可用规则提取,结合规则和实例对文本进行人名识别。实验结果表明,与其他方法相比,该方法的中文人名识别准确率、召回率和 F值均有明显提高。  相似文献   

3.
摘要:该研究以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于的规则的系统取得了较好的结果。  相似文献   

4.
基于最大熵模型的中国人名自动识别   总被引:1,自引:0,他引:1       下载免费PDF全文
用最大熵模型自动识别中国人名。首先对语料库的词性进行角色替换,然后用特征模板从角色替换后的语料库中提取出特征集,接着用IIS算法训练特征集的最大熵参数,最后用viterbi算法对初分词文本进行角色标注,并在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%、91.2%、88.2%。  相似文献   

5.
一种基于可信度的人名识别方法   总被引:10,自引:0,他引:10  
罗智勇  宋柔 《中文信息学报》2005,19(3):68-72,86
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998 年1 月、2000 年12 月(共约379 万字) 语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。  相似文献   

6.
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩.  相似文献   

7.
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。  相似文献   

8.
本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。  相似文献   

9.
中文文本中外国人名与中国人名同步识别方法   总被引:1,自引:0,他引:1  
根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值.使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国人名,该方法可以避免由分词结果造成的人名不能被召回的现象,提高了人名识别的召回率.通过对真实语料的测试,在封闭测试中该方法对中国人名和外国人名识别的综合指标F值为97.30%.  相似文献   

10.
首次实现了一个基于依存关系的中文名词性谓词识别平台,作为语义角色标注的前提,谓词识别的结果直接影响语义角色标注的性能。使用两种方法进行实验:一种是基于传统的特征向量的方法在Chinese Nombank 的转换语料上进行了系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到89.65,自动语料上达到81.27。另一种是使用树核的方法进行探索性实验,在标准语料和自动语料上分别得到84.62和80.93的F1值。  相似文献   

11.
自然手写汉字FS识别法   总被引:3,自引:0,他引:3  
提出联机识别自然手写汉字的FS识别法。在剖析五笔字根结构和编码原则基础上,对五笔字根作适应性改造,将键盘输入技术与联机识别技术有机融合的一种识别体系。在多库识别体系中首次采用层间分级技术。分析和实验表明:充分考虑了自然手写汉字书写习惯和结构特征,系统有较高稳定性。  相似文献   

12.
生物特征是人的内在属性,具有较高的稳定性与个体差异性。人脸、虹膜与人耳等多生物特征融合与识别的研究属人类认知本质与规律的前沿课题。探讨了该研究的意义,分析了国内外研究概况及其主要研究内容,提出了研究中的关键技术问题。多生物特征融合与识别的研究成果在人机自然交互、机器智能、国家安全、生命科学、听觉视觉通信以及社会的工作方式和生活方式方面有着广泛的应用前景。  相似文献   

13.
梁艳  黄弋石 《微机发展》2005,15(10):14-15
为使汉字草体计算机输入识别精简化,对汉字草书手写体,实施分类与亚分类等类似处理。参照人的汉字草书书写习惯,提出模糊识别汉字草体手写输入算法。结合各种具体编码约定,可使软件编写思路清晰、减少编程工作量、提高编程工作效率。预见该算法能使最终软件短小有力。该思路可类推地移植到汉字行书、正楷与其他字体,也可移植到英文或其他少数民族文字,但显然具体处理方法不同。  相似文献   

14.
现代生物特征识别技术发展综述   总被引:1,自引:0,他引:1  
生物特征识别技术作为一种身份识别手段具有独特的优势,是近年来国际上的研究热点,对信息安全有重要意义.文章简单介绍了几种典型的生物特征(如指纹、人脸、虹膜等)和语音识别技术方法,对各种方法的特点作了比较说明,对生物特征识别技术的应用领域和发展首景作了较详尽的分析.  相似文献   

15.
We address the problem of computationally efficient visual classification of objects, and propose a system for solving multi-class problems in domains that have inherent hierarchic structure, such as subclass-superclass-relationships based on visual similarity. Class relationships are used at runtime to select the computationally simplest feature space that allows classification at high level of confidence for each example view. Classification accuracies can then be further improved using rank-order voting over multiple views. Our experimental results show that our system compares favorably to previously published results using a demanding benchmark. The results support the hypothesis that class hierarchies based on visual similarities are feasible and useful in controlling the accuracy vs. speed tradeoffs in classification.  相似文献   

16.
首先介绍了对手建模的几种不同的类型,引出行为建模中的意图识别问题;随后针对意图识别的过程、分类、主要研究方法、研究展望以及实际应用进行了归纳分析,总结并讨论了相关领域取得的最新研究成果;最后指出意图识别目前存在的不足以及未来的发展方向。  相似文献   

17.
标准正面人脸图像的识别   总被引:7,自引:0,他引:7  
本论文选用人脸上27个特殊点作为人脸基本特征。以人脸几何结构为基础,结合有脸识别的心理特性,提出新颖、简便、高精度的“寻找存在”法,使提取特征点的速度、精度得到大大的提高,在详细分析这27个特列点的统计特性后,选择了其中信息量丰富的15个点间距及间距比构成一组向量代替人脸描述,用加权欧氏距离作为特征向量间相似性测试,在两类实验中,识别率高达100%和98%。  相似文献   

18.
开放环境下的模式识别与文字识别应用中,新数据、新模式和新类别不断涌现,要求算法具备应对新类别模式的能力。针对这一问题,研究者们开始聚焦开放集文字识别(open-set text recognition,OSTR)任务。该任务要求,算法在测试(推断)阶段,既能识别训练集见过的文字类别,还能够识别、拒识或发现训练集未见过的新文字。开放集文字识别逐步成为文字识别领域的研究热点之一。本文首先对开放集模式识别技术进行简要总结,然后重点介绍开放集文字识别的研究背景、任务定义、基本概念、研究重点和技术难点。同时,针对开放集文字识别三大问题(未知样本发现、新类别识别和上下文信息偏差),从方法的模型结构、特点优势和应用场景的角度对相关工作进行了综述。最后,对开放集文字识别技术的发展趋势和研究方向进行了分析展望。  相似文献   

19.
混合模式识别系统研究   总被引:4,自引:0,他引:4  
张佩芬  李伟 《信息与控制》1997,26(2):121-128
讨论基于多种分类方法的模块组合实现的混合模式识别系统,它不同于利用多分类器输出结果表决的集成系统。提出两个系统:一个面向刷体汉字文本识别,另一个面策自由手写体字识别。  相似文献   

20.
针对目前银行系统中ATM自动柜员机存在的不安全因素,在现有的ATM自动柜员机上增加人脸识别、指纹识别、第二代身份证识别等识别方式,同时安装传感器视频监控系统,以增强ATM自动柜员机的自动识别及安全监控能力;该系统将生物识别技术与ATM系统相结合,设计中以实用性、可操作性、人性化设计为主,确保ATM系统的鲁棒性和安全可靠,且该系统可随着ATM系统软件进行升级;人脸识别率、指纹识别的准确度不低于90%,第二代身份证的识别率不低于99%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号