共查询到20条相似文献,搜索用时 375 毫秒
1.
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。 相似文献
2.
在当今的计算机信息处理过程中,不同文字处理平台上相同字符的不同编码问题,即文字处理的不兼容,是一个亟待解决的重要问题。而在藏文信息处理的研究中,藏文的编码转换也是一个研究热点。藏文的文本、网站大多采用同元编码方式,而微软的Vista操作系统采用的是基本集的编码方式,所以两种编码的转换在藏文信息处理领域是非常重要的。主要介绍了藏文同元编码与基本集的相互转换技术,采用了将藏文按照拉丁转写拆分的方法,利用层数作为藏文同元编码字符结构与基本集编码字符结构的桥梁,通过一系列规则,实现了两种编码的相互转换。 相似文献
3.
《信息交换用藏文编码字符集 基本集》奠定了研究藏文信息处理技术的基础,非常重要,但随着藏文信息处理技术研究的深入,也逐渐发现了《基本集》没能反映藏文构件的基本特征,增加了研究有关藏文工作的难度,同时,在使用中还存在藏文编码歧义等缺陷。针对上述问题提出了增加三个上加字的编码到BMP中,使得藏文编码能正确地反应藏文的构件特征,还提出用“界定藏文编码的使用方法”来消除《基本集》应用中存在的歧义以及正确理解几个字符的属性等问题。 相似文献
4.
基于ISO/IEC 10646标准的藏文编码转换的设计与实现 总被引:2,自引:0,他引:2
目前,国内少数民族地区的书报印刷行业大多使用北大方正、华光藏文排版系统。这些软件的编码各异,致使有限的藏文资源无法实现交换和共享,造成这种现象的原因是各种软件编码体系不一致。解决这个问题的根本途径是将各种不同体系的藏文编码转换为符合国际标准的编码。该文以华光Windows藏文字符编码为例,首先对每个藏文字符进行构字分析,然后采用分表分组技术构造出每个字符符合ISO/IEC 10646标准的编码序列,最后采用hash技术优化查询算法,实现非标准的藏文字符编码向标准编码序列转换。 相似文献
5.
在通用字符集中藏文编码模式的研究与应用 总被引:1,自引:1,他引:0
藏文软件开发者在现代计算机系统中处理藏文数据时必须所具备的知识之一是藏文在通用字符集(Universal Character Set, UCS)中是如何进行编码。在设计藏文网页内容时UCS藏文数据的整理、设计藏文应用软件时藏文文本的处理操作或者在设计藏文OpenType或AAT字库时、UCS藏文编码模式应用等都要首先去理解UCS藏文编码模式。因此,理解和掌握UCS藏文编码模式是软件制作商首选目标。详细介绍了UCS藏文编码模式的组织结构和设计方法,以便于使用OpenType来支持复杂藏文文本的显示。 相似文献
6.
7.
8.
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。 相似文献
9.
该文研究了ATM网络环境下的视频压缩编码技术。给出了ATM网络的视频压缩编码方案,它是以基于小波变换的分层编码和基于遗传算法的矢量量化技术为基础,其中主要讨论了视频的运动估计、优先级的分配和信元的构成、丢失信元的补偿和比特率的平滑及缓冲技术。 相似文献
10.
11.
随着藏语语言信息技术的迅速发展,藏文拉丁转写成为迫切需要解决的重要课题之一。该文在前人有关藏文拉丁转写研究的基础上,设计并实现了基于小字符集方案的藏文拉丁转写系统。文章通过对小字符集编码方案的特征分析,同时根据藏文正字法知识,提出了基于小字符集编码的藏文拉丁转写算法,并对具体算法策略进行了分析和说明,最后在Windows平台进行了程序的实现。藏文拉丁转写方案的设计与实现,可以解决藏文多编码系统之间的兼容性问题。
相似文献
相似文献
12.
针对在探讨适应度函数的周期性特点与整数编码元数之间的关联特性时,一阶积木块数量对编码性能的评价不一定成立的问题,提出以累积逃脱概率(AEP)作为遗传算法(GA)编码性能的评价指标,对以频率为正整数m的整数次幂的正弦函数为基函数线性组合构成的适应度函数编码展开研究。首先给出了该类适应度函数的一般形式和m进制整数编码的含义;然后介绍了AEP的定义,并根据函数特点制定了AEP的计算方法;最后分析比较了该类适应度函数在不同整数编码下的AEP,指出其采用m元整数编码时更容易进化。仿真结果表明,该类适应度函数采用m元整数编码时,其最终优化结果和群体适应度均值的上升时间皆明显优于其他编码,反映了AEP能有效评价编码的性能,并再次验证了对于该类适应度函数m元整数编码优于非m元整数编码的结论。 相似文献
13.
14.
浅析了当前藏文数据采集与检索存在的问题.基于元搜索技术提出了一种藏文信息采集方案;基于全文检索工具包Lucene并针对藏文的特点,提出了一种藏文信息的索引、检索的设计方案,并对其关键技术进行了探讨.实际系统应用证明方案可行.介绍的数据采集、索引、检索方案同样适用于藏文外的其他语种. 相似文献
15.
16.
17.
18.
多编码环境下藏字内码识别算法的研究 总被引:1,自引:0,他引:1
藏字内码向ISO/IEC 10646-1藏文编码过渡是实现计算机用文字编码统一的必然趋势,但目前在很长的一段时间内仍将存在多种藏字编码并存的情况,所以实现藏字内码的自动识别是保证藏字多内码并存的关键.主要探讨了如何在多内码并存的多编码环境中实现藏字内码自动识别的问题,并提供了两个藏字内码识别算法.在此基础上,对不同的识别算法进行分析和评估.在对目标样本的测试中,以上算法的识别率最高可以达到100%以上. 相似文献
19.