首页 | 本学科首页   官方微博 | 高级检索  
     

多文种环境下汉字内码识别算法的研究
引用本文:李培峰,朱巧明,钱培德.多文种环境下汉字内码识别算法的研究[J].中文信息学报,2004,18(2):74-80.
作者姓名:李培峰  朱巧明  钱培德
作者单位:1.苏州大学计算机科学和技术学院2.东南大学计算机科学与工程系
基金项目:江苏省高校自然科学基金
摘    要:汉字内码向ISO/IEC 10646过渡是实现计算机用文字编码统一的必然趋势,但目前在一段时间内仍将存在多种汉字内码并存的情况,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中实现汉字内码自动识别的问题,并提供了多种汉字内码识别算法,包括基于内码分布、标点符号特征、字频特征和语义特征的识别算法等。在此基础上,本文对不同的识别算法进行分析和评估。在对目标样本的测试中,以上算法的识别率最高可以达到99.9%以上。

关 键 词:计算机应用  中文信息处理  多文种环境  汉字内码  识别算法  
文章编号:1003-0077(2004)02-0073-07
修稿时间:2003年10月13

Research of Han Character Internal Codes Recognition Algorithm in the Multi-lingual Environment
LI Pei-feng ,ZHU Qiao-ming ,QIAN Pei-de.Research of Han Character Internal Codes Recognition Algorithm in the Multi-lingual Environment[J].Journal of Chinese Information Processing,2004,18(2):74-80.
Authors:LI Pei-feng    ZHU Qiao-ming  QIAN Pei-de
Affiliation:1.Computer Science and Technology School ,Suzhou University2.Department of Computer Science and Engineering , Southeast University
Abstract:It's a general tendency that the Han Character Internal Codes used in computer should transfer to ISO/IEC 10646 , but there are multi-Han Character Internal Codes used in the computer now , and this instance will stand a long time. So how to realize the Han Character Internal Codes auto recognition is the key to build a Multi-lingual Environment . This paper mainly discusses the Han Character Internal Codes recognition algorithms in the Multi-lingual Environment , and provides four recognition algorithms , such as Internal Code Bound Recognition Algorithm, Interpunction Recognition Algorithm , Han Character Frequency Recognition Algorithm and Semantic Recognition Algorithm. This paper also evaluates the algorithms mentioned in this paper , and the rate of Recognition can reach 99.9% used these recognition algorithms on the test documents.
Keywords:computer application  Chinese information processing  multi-lingual environment  han character internal code  recognition algorithm  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号