期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孟凡强吴健贾彦民《中文信息学报》2007,21(2):117-121

蒙古文是一种复杂文字,目前操作系统和办公套件都还不支持蒙古文的显示。OpenOffice.org是可以运行在Linux和Windows上跨平台的办公套件,它分别使用ICU LayoutEngine和Uniscribe进行复杂文字处理。本文以支持蒙古文处理的Linux版本OpenOiffice.org为基础,详细分析了OpenOffice.org在Linux和Windows系统上的复杂文本处理过程,采用Uniscribe与ICU相结合的方案,实现了OpenOffice.org在Windows平台上对蒙古文的显示。相似文献

2.

基于OpenOffice.org蒙古文办公套件的设计与实现

武宇飞贾彦民吴健《计算机工程与应用》2006,42(17):93-95,145

作为蒙古文信息处理的重要组成部分,开发符合蒙古文应用习惯的办公套件产品对于传承民族文化具有重要意义。开源项目OpenOffice.org的不断发展和日益成熟,为蒙古文办公套件的研制开发提供了有利的契机。该文讲述了以OpenOffice.org为源代码基础,实现基于蒙古文编码国际标准而研制的蒙古文办公套件的实现方案,并为开发其他复杂文字的少数民族语言的办公套件提供了很好的借鉴作用。相似文献

3.

基于OpenOffice.org的民文办公套件的实现

郭伟军吴健孙玉芳《计算机工程与设计》2006,27(7):1137-1139,1154

OpenOffice.org作为当前最为活跃的办公套件开放源码项目,因其完成了MS Office近乎相同的功能,良好的兼容性,日益受到人们的关注并衍生出5个著名的中文办公套件发行版本.以OpenOffice.org为基础,以藏文为例,详细讲解了民文办公套件的实现方案. 相似文献

4.

基于ISO/IEC10646标准的藏文操作系统若干问题研究 总被引：3，自引：3，他引：3

芮建武吴健孙玉芳《中文信息学报》2005,19(5):61-68

长期以来尚未有完整的藏文操作系统,原因是藏文文字的特性要求特定的文字处理。本文基于ISOPIEC 10646 的藏文字符集标准,结合藏文正字法要求,详细分析了藏文操作系统实现中的关键问题: (1) 藏文字符集方案比较与藏文存储; (2) 藏文输入; (3) 藏文显现。藏文显现是公认的“瓶颈”问题。对此,本文提出基于音节划分、使用OpenType 字体及相应的文本引擎来解决藏文“叠加”字符的显现。此方案应用于Qt 库的实验及相关测试证明基于ISOPIEC 10646 标准的藏文操作系统实现是较合理的方案。相似文献

5.

面向信息处理的藏文分词规范研究 总被引：2，自引：1，他引：1

扎西加珠杰《中文信息学报》2009,23(4):113-118

自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。在藏文信息处理“字词处理”层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。相似文献

6.

基于OpenOffice.org的维吾尔文办公套件的研究与实现

塔依尔.艾力吾守尔.斯拉木袁保社《数字社区&智能家居》2007,1(3):781-782

在分析OpenOffice.org体系结构的基础上,研究软件的国际化与本地化机制,针对维吾尔文字本地化需求进行了一系列定制与开发,形成了一套支持维吾尔文输入输出的OpenOffice.org办公套件。相似文献

7.

基于ISO/IEC 10646标准的藏文编码转换的设计与实现 总被引：2，自引：0，他引：2

张青黄鹤鸣章登义《中文信息学报》2009,23(4):118-124

目前,国内少数民族地区的书报印刷行业大多使用北大方正、华光藏文排版系统。这些软件的编码各异,致使有限的藏文资源无法实现交换和共享,造成这种现象的原因是各种软件编码体系不一致。解决这个问题的根本途径是将各种不同体系的藏文编码转换为符合国际标准的编码。该文以华光Windows藏文字符编码为例,首先对每个藏文字符进行构字分析,然后采用分表分组技术构造出每个字符符合ISO/IEC 10646标准的编码序列,最后采用hash技术优化查询算法,实现非标准的藏文字符编码向标准编码序列转换。相似文献

8.

信息处理用藏文分词单位研究

关白《中文信息学报》2010,24(3):124-129

分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。相似文献

9.

藏文字库标准符合性自动检测方案设计与实现

刘瀚猛芮建武白真龙吴健《中文信息学报》2008,22(3):124-128

软件产品的标准符合性测试是衡量产品质量与性能的重要方法。本文根据藏文字符集标准与字型标准,按软件产品的可用性原则,分析与定义了藏文字库标准符合性检测的含义与内容。本文提出了实施藏文字库标准符合性测试的方案与算法,实现了藏文字库测试程序。测试结果表明本文的检测方案可行、完整,也为其他文字的字库标准符合性检测提供了很好的途径。相似文献

10.

Web藏文文本资源挖掘与利用研究

刘汇丹诺明花马龙龙吴健贺也平《中文信息学报》2015,29(1):170-177

该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。相似文献

11.

现代藏字全集的属性统计研究 总被引：10，自引：1，他引：10

高定国龚育昌《中文信息学报》2005,19(1):72-76

藏文基本属性的研究是藏文信息处理技术的基础,现代藏字的研究是藏文信息处理的重点。藏字全集是有限集,为了更好地研究现代藏字,本文以现代藏字为研究对象,按照现代藏文文法的规律,对全部现代藏字用计算机辅助统计了藏字全集的个数、藏字的字长、藏字的结构方式、位置特征、字符频度以及所有现代藏字中的整基字丁,并且简要地分析了这些数据。这些数据可以较全面地反映现代藏字的本质特征,可为藏文研究和藏字信息处理提供基础数据。相似文献

12.

藏文编码字符集的优化研究

高定国欧珠《中文信息学报》2008,22(4):119-122

《信息交换用藏文编码字符集基本集》奠定了研究藏文信息处理技术的基础,非常重要,但随着藏文信息处理技术研究的深入,也逐渐发现了《基本集》没能反映藏文构件的基本特征,增加了研究有关藏文工作的难度,同时,在使用中还存在藏文编码歧义等缺陷。针对上述问题提出了增加三个上加字的编码到BMP中,使得藏文编码能正确地反应藏文的构件特征,还提出用“界定藏文编码的使用方法”来消除《基本集》应用中存在的歧义以及正确理解几个字符的属性等问题。相似文献

13.

藏文键盘布局的优化设计方法

高定国龚育昌《中文信息学报》2005,19(6):94-99

键位设计是实现藏字编码输入的关键步骤。由于藏字构件数多于标准键盘的可用键位数,较好地解决方法是把几个构件归并到一个键位上,但键位的归并可能会带来重码。为了有效地解决这一矛盾,本文采用了键位布局的优化设计方法,利用图论和概率方法求出藏字构件的极大独立集,以使得键位归并所产生的重码现象降到最低。文中详细介绍了求极大独立集的算法、矛盾构件的查找法、极大独立集数目的控制法、极大独立集最优划分的选择以及算法的流程图。并根据工程心理学方法把现代藏字的构件布局到标准键盘上,使得该布局的标准键盘可以一键一构件地输入现代藏字,且仅产生二对重码。相似文献

14.

基于DUCET的藏文排序方法 总被引：1，自引：0，他引：1

黄鹤鸣契嘎·德熙嘉措《中文信息学报》2008,22(4):109-113

DUCET为每个藏文字符规定了排序码,但藏文音节的拼写复杂性使得藏文排序不能直接应用这些排序码,提出了基于DUCET的藏文音节排序方法,主要思想是首先,将二维的藏文音节转化成一维的字母串;其次,从DUCET中查出每个字母的排序码,得到藏文音节对应的排序码串;最后,通过比较排序码串实现藏文音节间的排序。还讨论了藏文音节与一般藏文字母串以及藏文字符串与外文字符串间的比较规则。相似文献

15.

编码字符集标准及分类研究 总被引：1，自引：1，他引：1

谢谦芮建武吴健《中文信息学报》2006,20(5):85-92

编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO2022标准及其派生标准,对ISO2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。探讨了现有编码分类方法存在的问题,引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。相似文献

16.

一种支持多语言文本布局方向的文档处理模型 总被引：1，自引：0，他引：1

贾彦民吴健《中文信息学报》2007,21(1):60-66

文档处理是文字处理的关键组成部分,针对多语言混合排版的需求,本文提出了基于“框”的支持不同方向的多语言文本布局的文档处理模型。该模型把对文本布局方向的处理封装在文档格式化模块中,将多文本布局方向的问题规约为文本布局方向为从左向右(水平)的文档格式化的问题,并设计了多文本布局方向文档格式化的递归算法。该模型可以很好支持包括我国民族文字蒙古文、维吾尔文、藏文在内的各种不同书写方向文字的文本布局。相似文献