首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
ISO 2022编码体系对字符集国家标准的制订有很大影响,然而标准条款存在不确定性,有时难于理解。本文引入有限状态机(FSM)模型来形式化地刻画ISO 2022的特征。针对FSM五元组,详细说明了其状态空间的构成,提出了输入字母表的等效分类方法,给出了初始状态以及终结状态集合,分析了状态转移函数的规模,并采用FSM描述方法分析了ISO-2022-CN、EUC-CN、复合文本等标准,揭示了这些标准与ISO 2022的内在联系。这些工作有助于ISO 2022标准符合性检测、扩展标准的制订与系统实现复杂度评估。鉴于形式化描述方法在编码字符集标准领域未得到广泛应用,本文工作为该类研究引入了新的思路和方法。  相似文献   

2.
藏文编码字符集的扩充集在Linux上的实现   总被引:1,自引:1,他引:1  
国内藏文软件开发普遍使用的是基于垂直预组合字符的实现方案,但是缺乏统一的编码标准。藏文编码字符集扩充集的推出,对于国内藏文软件的标准化、国际化具有重要意义。本文通过分析ISO/IEC 10646藏文编码字符集基本集、藏文编码字符集扩充集国家标准,区分它们描述字丁的差异,分析由编码方案所导致的实现上的关键问题。最后,针对藏文扩充集B的特殊性,提出并实现了基于Linux国际化架构下支持藏文扩充集标准的解决方案。  相似文献   

3.
数据库管理系统的多字符集支持   总被引:2,自引:0,他引:2  
不同区域的信息一般使用不同的字符集编码进行存储表示,数据库管理系统要实现它们之间的共享,必须对不同字符集编码提供支持。描述了数据库管理系统中实现多字符集支持的方法及编码转换时遇到的组合膨胀问题,然后介绍了OSCAR中设计和实现,提出了解决的方法。  相似文献   

4.
在过去的7至10年间,国际计算机标准界(主要是国际标准组织ISO)开始关注这样一个问题:如何增强计算机对各种民族文字的处理能力以及增强对不同民族习惯的适应性问题。关注这一问题的原因一方面是计算机市场扩大到如日本、中国等非拉丁文国家及地区,另一原因也是遇到了如汉字这种棘手的大字符集问题。这种关注促进制订了一个包括全世界文字(尚未囊括全部文字)的多文种编码字符集。即包括16位编码的(称为UCS-2,已完成)及32位编码的(称为UCS-4,正在开始)通用编码字符集UCS;同时促进在编程语言标准(如Fortran 90及  相似文献   

5.
“炎黄”中文平台结构设计   总被引:3,自引:1,他引:2  
随着我国计算机应用水平的提高, Internet的迅速普及, GB2312 - 80中的6763个汉字已不能满足应用的需要。ISO 10646标准的制定,使得为开发支持大汉字字符集的中文平台提供了宽阔的代码空间。 我们的工作目标就是探讨在现有的的开放系统上,提供支持ISO 10646标准CJK大字符集、支持多种内码、兼容现有中文平台、与原英文系统及版本无关、符合国际、国家标准、具有一定跨平台功能、实用高效的中文平台解决方案及实现技术。 本文详细阐述了该中文平台的设计目标、模块结构、以及各个子系统的实现方法。  相似文献   

6.
为了帮助汉语教学研究人员使用计算机有效处理错字,分析了汉语教学界对错字分类的研究成果,建立了一种适合计算机处理、以字形为依据的错字分类体系.基于Unicode5.1标准中表意文字变体序列标准(ideographic variation sequences,IVS),设计并实现了以正字为中心组织和管理错字,使用正字加IVS变体选择符表示错字编码,应用OpenType字体技术解决了错字的输入输出问题.实验结果表明,该错字处理方案是可行的,而且能够较好地支持错字的传输、共享和检索,以及错字与标准字符集内汉字同文显示.  相似文献   

7.
提出了一种利用车牌字符集特征来优化字符骨骼处理、改进骨骼变长编码的新方法,并把其用于车牌字符精确识别.该方法先利用车牌字符集特征优化处理标准车牌字符骨骼,再将"替换规则"与8方向链码相结合对其进行变长编码的结果作为模板,然后用同样方法得到待识别的车牌字符编码,将该编码与模板进行最佳匹配,实验结果表明,该方法具有实现简单、处理数据量小、抗旋转和对低分辨率车牌字符识别性能好等优点.  相似文献   

8.
Micro QR是ISO/IEC 18004:2006标准中提出的一个新特性,结构附加模式是QR码的一种容量扩展特性。经过对现有二维码开源软件的调研,发现目前没有对这两种特性提供支持的。为提供对这两种编码功能的支持,对现有的ISO标准化文档和开源二维码软件代码进行了分析。发现开源软件Zxing的代码有逻辑清晰、方便扩展和良好编码风格等特性。因此,通过对比和研究Micro QR和结构附加模式编码步骤与Zxing的QR码编码实现方法,对Zxing代码进行了修改和扩展,完成了这两种特性的代码实现。使其完全支持Micro QR和结构附加模式的编码,并通过实例程序验证了生成的二维码图像的正确性。  相似文献   

9.
目前BACnet协议标准的最新版本(ANSI/ASHRAEStandard135-2001)及其附件还不支持多字符集。不同BACnet设备由于采用不同的字符集编码而影响了相互间的通信,阻碍了BACnet协议的国际化及推广应用。文章提出了一种完整的多字符集方案,对BACnet协议进行扩展,并且保持了对当前版本的兼容。  相似文献   

10.
MicroQR是ISO/IEC18004:2006标准中提出的一个新特性,结构附加模式是QR码的一种容量扩展特性。经过对现有二维码开源软件的调研,发现目前没有对这两种特性提供支持的。为提供对这两种编码功能的支持,对现有的ISO标准化文档和开源二维码软件代码进行了分析。发现开源软件Zxing的代码有逻辑清晰、方便扩展和良好编码风格等特性。因此,通过对比和研究MicroQR和结构附加模式编码步骤与Zxing的QR码编码实现方法,对Zxing代码进行了修改和扩展,完成了这两种特性的代码实现。使其完全支持MicroQR和结构附加模式的编码,并通过实例程序验证了生成的二维码图像的正确性。  相似文献   

11.
Pei‐Chi Wu 《Software》2002,32(1):73-82
ISO 10646 Universal Character Set (UCS) or Unicode covers symbols in most of the World's written languages. There are various UCS transformation formats (UTF). UTF‐8 is compatible with systems that assume 8‐bit characters. One of the problems with UTF‐8 is its space efficiency. For files containing most Asian characters such as Han ideographs, the file sizes increase by about 50% by using UTF‐8. Although the Standard Compression Scheme for Unicode (SCSU) can compress Unicode strings to the size of a locale‐specific character set, it is complicated and is not intended to serve as a general purpose interchange format. This paper proposes a page‐shift transformation format of ISO 10646, called UTF‐S. There are four pages: 1‐byte, 2‐byte, 3‐byte and 4‐byte. Shift to page 0 uses a special code ; shift to page 1, 2, and 3 uses ISO 2022 shift codes SO, SS2, and SS3, respectively. We test several text files and compare these UTF with Big5, a locale‐specific character set. The result shows that the space efficiency of UTF‐S is better than that of UTF‐16 and UTF‐8 and is close to that of SCSU. UTF‐S is suitable for replacing locale‐specific character sets with ISO 10646 in Internet applications, such as the World Wide Web. Copyright © 2001 John Wiley & Sons, Ltd.  相似文献   

12.
Pei‐Chi Wu 《Software》2000,30(7):765-774
Character sets are one of the basic issues for information interchange. Most current national standard character sets extend 7‐bit ASCII. These extensions conflict with each other and make the design of multilingual information systems complicated. Unicode or the Universal Character Set (UCS) is a character set that covers symbols in the major written languages. Text files and strings usually have no header to indicate which character set is in use, and they currently use one of the national standards by default. The transition from national standards to Unicode may take a longer time than expected. This paper presents the following methods to help the transition. (1) A text file format of fixed‐width characters: if the first character in a text file is a nonzero control code, the file is in UCS; otherwise, it is in the default national standard. The control code indicates which UCS subset or byte order is in use. (2) A tagged string storage: each string has a tag representing which character set or coding format is in use, e.g., the default national standard, 8‐bit subset of UCS‐2, UCS‐2, or UCS‐4. (3) A method for assigning the format of string literals: all string literals use the same syntax notation, and their storage format is the same as that of their source files. These methods can improve multilingual support without introducing much complexity. Copyright © 2000 John Wiley & Sons, Ltd.  相似文献   

13.
一、概论 到目前为止,计算机代码处理体制是以传统的ASCll或者EBCDIC为基础的。采八位编码,最多只能表示256个不同的字符,要处理所使用字符超过256个的非英语语种,特别亚洲语系的语言,许  相似文献   

14.
藏文内码扩展体系   总被引:6,自引:0,他引:6  
针对藏文编码字符集的基本集和辅助集建立在不同平面、编码体系不同所存在的问题,本文提出建立藏文内码扩展体系,给出了藏文合成、生成、分解的规则和方法:通过内码转换表合成藏文藏文内字,实现基本集与辅助集的信息交换;通过构件集,生成规范、标准的藏文外字,满足藏文编码字符集开放性的需要。并且,向上,在字汇一级,兼容UCS ;向下,与GB2312的事实上的内码标准兼容,是一个全藏文编码体系。 作者建议在UCS基本平面的拼音文字区建立内码扩充体系。  相似文献   

15.
书面藏语排序的数学模型及算法   总被引:11,自引:0,他引:11  
江荻  康才畯 《计算机学报》2004,27(4):524-529
针对中国国家标准及ISO藏文编码字符集提出书面藏语字词的排序涉及藏字结构序、构造级和字符序概念,是不同于中文、英文序性而性质独特的一种排序,文章详尽分析了藏字字形、结构形态、传统字符顺序以及藏字字长和层高等特征,构建出藏语排序的数学模型,然后依据模型要求为每类藏文符号进行数字赋值,通过算法逐步确定字符位置并识别字符,最后按照抽取字符的对应数值组合排序,完成了藏语字词的排序,该模型现已在Windows平台上实现。  相似文献   

16.
藏文文本编码识别方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。  相似文献   

17.
《信息交换用藏文编码字符集 基本集》奠定了研究藏文信息处理技术的基础,非常重要,但随着藏文信息处理技术研究的深入,也逐渐发现了《基本集》没能反映藏文构件的基本特征,增加了研究有关藏文工作的难度,同时,在使用中还存在藏文编码歧义等缺陷。针对上述问题提出了增加三个上加字的编码到BMP中,使得藏文编码能正确地反应藏文的构件特征,还提出用“界定藏文编码的使用方法”来消除《基本集》应用中存在的歧义以及正确理解几个字符的属性等问题。  相似文献   

18.
计算机中各国文字编码的统一是必然趋势,而ISO/IEC10646正是顺应这种趋势而诞生的一个国际标准。现有的输入法绝大多数是基于本地代码页(ANSI CODE),存在着移植困难、不能跨语言平台以及向国际化标准过渡困难等缺点。本文首先分析了现有本地化输入法存在的问题,并在此基础上阐述了基于ISO10646的汉字输入法的实现方法,并给出了一个以ISO10646为核心的通用汉字输入法模型和原理,该模型由输入法管理/服务器、ISO10646输入码对照表、码本检索/过滤模块、输入法与OS接口模块、输入法内核和本地化接口六部分构成。最后,本文重点论述了输入法的核心—输入码对照表的设计和检索技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号