首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
在ICU中实现少数民族文字的处理   总被引:9,自引:7,他引:9  
基于ISO/IEC 10646和UNICODE国际标准,用传统的字体技术(如TrueType)来实现少数民族文字处理所面临的一个“瓶颈”问题是:“变形显现字符”不存在确定的码位。这也是多年来民文系统重复开发、互不兼容的根本原因。本文基于ICU的文字处理体系结构,阐述了完全支持Unicode标准的少数民族文字(本文主要指蒙古文字、维文、藏文等)的实现方法。文中首先介绍了少数民族文字的特点,分析其与拉丁文、汉字在计算机输入、输出过程中的不同之处,并指出少数民族文字处理的难点。其次介绍了一种能满足少数民族文字处理需求的字体技术——OpenType。最后,阐述了文字处理引擎的工作原理,以及ICU中如何实现对少数民族文字的支持。  相似文献   

2.
Unicode与UTF-8编码转换方法研究   总被引:7,自引:0,他引:7  
为了对各国的文字、符号进行统一编码,Unicode协会先后推出了Unicode编码和UTF-8编码,两者目前在全球范围的信息交换领域均有广泛的应用。在对信息进行处理时,经常需要将两者进行相互转换。文章介绍了UTF-8的编码原则并详细说明了Unicode与UTF-8编码转换的算法。  相似文献   

3.
UTF-n是Unicode常用编码方式.这种方式主要的问题是编码后的存储位数大大增加.本文分析了高效Unicode转换格式的原理,并根据高效Unicode转换格式的思路,利用Haffman算法建立一种Unicode的编码模型.  相似文献   

4.
马玉芝  李俊 《计算机应用》2006,26(1):234-0236
随着无线技术的迅猛发展,移动终端越来越成为一个必不可少的通信工具,但是因为少数民族文字在字形上的特点使得其在显示时不存在确定的码位,因此成为手机上显示少数民族文字的瓶颈,导致目前仍然没有这样的产品出现。针对这个问题,阐述基于文字体系处理结构,支持Unicode标准的少数民族文字的处理方法以及在现有的Pango布局引擎中实现对少数民族文字的支持的技术,采用一种能很好的支持少数民族文字处理需求的文字技术——Open Type较好的解决了少数民族文字在手机上的显示问题。  相似文献   

5.
耿英英 《个人电脑》1999,(12):141-143
蒙恬“听写王”、“读眼龙”和“百变小蒙恬”全面解决文字输入的困惑。文字处理是人们使用电脑最主要的应用之一,而很长时间以来中文输入一直都单纯地依赖于键盘,人们需要学习各种输入法,如拼音、五笔等。与使用纸笔写字不同,所有通过键盘的中文输入法都要求用户在头脑中对要输入的文字进行一次“转换”,将意念中的文字转换为对应的拼音或五笔键盘编码。  相似文献   

6.
基于高效UTF的Unicode编码方式研究   总被引:1,自引:0,他引:1  
UTF-n是Unicode常用编码方式。这种方式主要的问题是编码后的存储位数大大增加。本文分析了高效Unicode转换格式的原理,并根据高效Unicode转换格式的思路,利用Haffman算法建立一种Unicode的编码模型。  相似文献   

7.
域名不再仅使用英语的26个字母,使用各国文字来表示的编码方式已基本决定。为了能在因特网上使用多语言域名,必须将其转换为ASCII码(编码)。关于转换方法,有关组织已基本决定采用“DUDE”(Differential Unicode Do-main Encoding)。  相似文献   

8.
使用Python语言中的正则表达式,进行了文本的模式匹配,根据匹配结果修改文本内容;讨论了ASCII、ANSI和Unicode等文字编码的原理,识别了带BOM标志的各种Unicode编码的TXT文件,对不带BOM标志的TXT文件区分UTF-8和ANSI编码进行了详细的讨论,并给出了具体实现.  相似文献   

9.
在C#中实现对乱码的正确显示   总被引:2,自引:0,他引:2  
提出了在C#中显示文本文件时出现乱码的实际问题,并对乱码的产生以及文本文件的ANSI、Unicode等编码格式进行了分析和探讨,给出了ANSI、Unicode等编码的编码规则,并实现了将ANSI、UTF-8、Unicode big endian等几种编码格式到Unicode编码格式的转换,从而解决了在C#中显示文件时可能出现的乱码问题。  相似文献   

10.
介绍了使用VC++实现转换文本文件字符编码的方法,可使文本文件的字符编码在Unicode、Big5、UTF8、GBK等编码之间实现自由转换.  相似文献   

11.
Mudawwar  M.F. 《Computer》1997,30(4):37-43
Unicode was designed to extend ASCII for encoding text in different languages, but it still has several important drawbacks. Multicode addresses many of Unicode's drawbacks and should have considerable appeal to programmers who work with text in a variety of languages. Its future, however, depends on the computer industry's acceptance. Multicode can represent Unicode files because it reserves a character set for Unicode. Converting Multicode to Unicode is also straightforward (although the opposite is not). Thus, both approaches can coexist-Multicode for programming ease and Unicode to support unified fonts  相似文献   

12.
Text processing is an important computer application. Due to its importance, a number of text manipulation programming languages have been devised (e.g. Icon). These programming languages are very useful for applications such as natural language processing, text analysis, text editing, document formatting, text generation, etc. However, they were mainly designed to handle English texts, and are ineffective for Chinese. This is because English and Chinese texts are represented very differently in a computer. An English character is mainly represented in 7-bit ASCII, and its Chinese counterpart commonly in 16-bit GB or BIG-5. This difference makes direct application of English-based text manipulation programming languages to Chinese erroneous, e.g. application of Icon to reverse a string of Chinese characters. In this paper, a new dialect of Icon, referred to as Chicon (i.e. Chinese Icon), is proposed. In the design of Chicon, new data types were introduced to differentiate pure English and English/Chinese mixed texts. In addition, existing Icon text manipulation functions were modified to account for Chinese texts. Experiments have shown that Chicon not only could overcome the problems of Chinese processing in Icon, but its execution speed was actually superior to Icon in handling Chinese. Furthermore, application of Chicon to a real sized problem, namely word segmentation, has proved that the language is practical. © 1998 John Wiley & Sons, Ltd.  相似文献   

13.
针对开发维吾尔语、哈萨克语、柯尔克孜语图书馆编目软件中出现的问题,以UNICODE5.0的UTF-8编码为核心,详细给出了维、哈、柯文字统一化处理的策略,通过整体规划提出了分层管理和分层实现的思路。此项研究总结了开发我国新疆维吾尔语、哈萨克语、柯尔克孜语数字图书馆系统的技术路线,各民族语言与汉字等同编程等关键问题。该项研究为各少数民族图书馆数字化事业的发展提供了具有现实意义的实施方案。  相似文献   

14.
This paper examines the technologies that enable the representation of Hebrew on websites. Hebrew is written from right to left and in non‐Latin characters, issues shared by a number of languages which seem to be converging on a shared solution—Unicode. Regarding the case of Hebrew, I show how competing solutions have given way to one dominant technology. I link processes in the Israeli context with broader questions about the ‘multilingual Internet,’ asking whether the commonly accepted solution for representing non‐Latin texts on computer screens is an instance of cultural imperialism and convergence around a western artifact. It is argued that while minority languages are given an online voice by Unicode, the context is still one of western power.  相似文献   

15.
16.
该文以收集整理翻译的彝语言语料为基础,在SQL Server 2008数据库环境下,通过ODBC,利用VC++ 6.0编写彝语言语料入库程序,实现了彝语言语料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自动入库,完成了彝语言语料资源数据库的设计;通过编写WEB服务端的查询和统计程序,利用C/S方式实现了彝语言语料基于WEB浏览器的访问和远程共享,同时也为其他少数民族文字信息处理中的类似问题提供了一个可参考的解决方案。  相似文献   

17.
缪成  袁保社  李莉 《计算机应用》2003,23(11):36-38
文中比较了新疆地区广泛使用的雏吾尔、哈萨克、柯尔克孜等少数民族语言与汉语在计算机输入处理方面的差异。提出了一个符合这两种不同语言体系书写规范的输入法系统设计,并给予了实现。这种方案具有开放性、普通适用性和混合输入多种文字的特点。  相似文献   

18.
19.
Delphi 2009之前版本对Unicode支持都不完整,对于实际工程中Delphi程序需要实现多国语言的需求,总结了有代表性的五种方法,并分析了每种方法的优缺点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号