首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
藏文文本编码识别方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。  相似文献   

2.
藏文同元码与基本集相互转换的规则与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
在当今的计算机信息处理过程中,不同文字处理平台上相同字符的不同编码问题,即文字处理的不兼容,是一个亟待解决的重要问题。而在藏文信息处理的研究中,藏文的编码转换也是一个研究热点。藏文的文本、网站大多采用同元编码方式,而微软的Vista操作系统采用的是基本集的编码方式,所以两种编码的转换在藏文信息处理领域是非常重要的。主要介绍了藏文同元编码与基本集的相互转换技术,采用了将藏文按照拉丁转写拆分的方法,利用层数作为藏文同元编码字符结构与基本集编码字符结构的桥梁,通过一系列规则,实现了两种编码的相互转换。  相似文献   

3.
《信息交换用藏文编码字符集 基本集》奠定了研究藏文信息处理技术的基础,非常重要,但随着藏文信息处理技术研究的深入,也逐渐发现了《基本集》没能反映藏文构件的基本特征,增加了研究有关藏文工作的难度,同时,在使用中还存在藏文编码歧义等缺陷。针对上述问题提出了增加三个上加字的编码到BMP中,使得藏文编码能正确地反应藏文的构件特征,还提出用“界定藏文编码的使用方法”来消除《基本集》应用中存在的歧义以及正确理解几个字符的属性等问题。  相似文献   

4.
基于ISO/IEC 10646标准的藏文编码转换的设计与实现   总被引:2,自引:0,他引:2  
目前,国内少数民族地区的书报印刷行业大多使用北大方正、华光藏文排版系统。这些软件的编码各异,致使有限的藏文资源无法实现交换和共享,造成这种现象的原因是各种软件编码体系不一致。解决这个问题的根本途径是将各种不同体系的藏文编码转换为符合国际标准的编码。该文以华光Windows藏文字符编码为例,首先对每个藏文字符进行构字分析,然后采用分表分组技术构造出每个字符符合ISO/IEC 10646标准的编码序列,最后采用hash技术优化查询算法,实现非标准的藏文字符编码向标准编码序列转换。  相似文献   

5.
在通用字符集中藏文编码模式的研究与应用   总被引:1,自引:1,他引:0  
欧珠 《中文信息学报》2008,22(4):105-108
藏文软件开发者在现代计算机系统中处理藏文数据时必须所具备的知识之一是藏文在通用字符集(Universal Character Set, UCS)中是如何进行编码。在设计藏文网页内容时UCS藏文数据的整理、设计藏文应用软件时藏文文本的处理操作或者在设计藏文OpenType或AAT字库时、UCS藏文编码模式应用等都要首先去理解UCS藏文编码模式。因此,理解和掌握UCS藏文编码模式是软件制作商首选目标。详细介绍了UCS藏文编码模式的组织结构和设计方法,以便于使用OpenType来支持复杂藏文文本的显示。  相似文献   

6.
藏文编码字符集的扩充集在Linux上的实现   总被引:1,自引:1,他引:1  
国内藏文软件开发普遍使用的是基于垂直预组合字符的实现方案,但是缺乏统一的编码标准。藏文编码字符集扩充集的推出,对于国内藏文软件的标准化、国际化具有重要意义。本文通过分析ISO/IEC 10646藏文编码字符集基本集、藏文编码字符集扩充集国家标准,区分它们描述字丁的差异,分析由编码方案所导致的实现上的关键问题。最后,针对藏文扩充集B的特殊性,提出并实现了基于Linux国际化架构下支持藏文扩充集标准的解决方案。  相似文献   

7.
为解决互联网上藏文内容安全的问题,提出了一种互联网藏文内容安全检测过滤系统。本文对(安全检测过滤系统)系统的框架进行了描述,并针对藏文编码不统一、藏文分词技术不成熟等问题进行了讨论,提出了藏文编码的判定转换方法以及格语法与词典相结合的藏文分词方法。  相似文献   

8.
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。  相似文献   

9.
该文研究了ATM网络环境下的视频压缩编码技术。给出了ATM网络的视频压缩编码方案,它是以基于小波变换的分层编码和基于遗传算法的矢量量化技术为基础,其中主要讨论了视频的运动估计、优先级的分配和信元的构成、丢失信元的补偿和比特率的平滑及缓冲技术。  相似文献   

10.
描述了网络编码的研究现状和存在的问题,通过分析线性网络编码技术的编码和译码原理证明了网络编码的可行性,并基于线性代数理论论证了线性网络编码的最基本性质-线性多播性。提出网络编码技术是一门"混合"的技术,未来网络编码技术将结合计算机网络技术,信息论和编码技术,密码学理论等不断发展和深入。  相似文献   

11.
随着藏语语言信息技术的迅速发展,藏文拉丁转写成为迫切需要解决的重要课题之一。该文在前人有关藏文拉丁转写研究的基础上,设计并实现了基于小字符集方案的藏文拉丁转写系统。文章通过对小字符集编码方案的特征分析,同时根据藏文正字法知识,提出了基于小字符集编码的藏文拉丁转写算法,并对具体算法策略进行了分析和说明,最后在Windows平台进行了程序的实现。藏文拉丁转写方案的设计与实现,可以解决藏文多编码系统之间的兼容性问题。
  相似文献   

12.
朱春媚  莫鸿强 《计算机应用》2017,37(7):1972-1976
针对在探讨适应度函数的周期性特点与整数编码元数之间的关联特性时,一阶积木块数量对编码性能的评价不一定成立的问题,提出以累积逃脱概率(AEP)作为遗传算法(GA)编码性能的评价指标,对以频率为正整数m的整数次幂的正弦函数为基函数线性组合构成的适应度函数编码展开研究。首先给出了该类适应度函数的一般形式和m进制整数编码的含义;然后介绍了AEP的定义,并根据函数特点制定了AEP的计算方法;最后分析比较了该类适应度函数在不同整数编码下的AEP,指出其采用m元整数编码时更容易进化。仿真结果表明,该类适应度函数采用m元整数编码时,其最终优化结果和群体适应度均值的上升时间皆明显优于其他编码,反映了AEP能有效评价编码的性能,并再次验证了对于该类适应度函数m元整数编码优于非m元整数编码的结论。  相似文献   

13.
目前多种藏文编码方案的同时存在,为藏文文本的检索带来了困难。因此,藏文编码的自动识别成为进行藏文文本处理首先要解决的一个基本问题。结合藏文结构特点和统计学特征,文章提出了一种基于高频字丁和音节点区位码的藏文文本编码判定算法。经测试证实,该算法在藏文文本编码的判定中具有很高的准确度。  相似文献   

14.
浅析了当前藏文数据采集与检索存在的问题.基于元搜索技术提出了一种藏文信息采集方案;基于全文检索工具包Lucene并针对藏文的特点,提出了一种藏文信息的索引、检索的设计方案,并对其关键技术进行了探讨.实际系统应用证明方案可行.介绍的数据采集、索引、检索方案同样适用于藏文外的其他语种.  相似文献   

15.
藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.  相似文献   

16.
鉴于频率资源受限的问题,采用同频组网的方式建立卫星移动通信系统,可以有效提高频谱使用效率。为此展开的相关技术研究成为该领域的一大热点。对基于LTE技术体制的同频组网卫星移动通信系统及其信道进行建模,并引入传统Block-Diagonalization预编码算法和三波束联合编码算法,对系统下行物理共享信道抗干扰性能进行了仿真分析,并就其算法适用性给出了相关的结论和建议,为系统建立提供理论研究基础。  相似文献   

17.
吴峰  贝悦  李辉 《软件》2011,(11):73-75
本文对H.264编码技术所采用的编码特性进行研究,并与过去的编码技术在编码效率和视频质量方面进行比较。在此基础上分析了H.264编码技术的最新发展成果,并对H.264编码技术中最新的可伸缩视频编码技术和多视点视频编码技术进行了深入的研究。  相似文献   

18.
多编码环境下藏字内码识别算法的研究   总被引:1,自引:0,他引:1  
藏字内码向ISO/IEC 10646-1藏文编码过渡是实现计算机用文字编码统一的必然趋势,但目前在很长的一段时间内仍将存在多种藏字编码并存的情况,所以实现藏字内码的自动识别是保证藏字多内码并存的关键.主要探讨了如何在多内码并存的多编码环境中实现藏字内码自动识别的问题,并提供了两个藏字内码识别算法.在此基础上,对不同的识别算法进行分析和评估.在对目标样本的测试中,以上算法的识别率最高可以达到100%以上.  相似文献   

19.
藏文内码扩展体系   总被引:6,自引:0,他引:6  
针对藏文编码字符集的基本集和辅助集建立在不同平面、编码体系不同所存在的问题,本文提出建立藏文内码扩展体系,给出了藏文合成、生成、分解的规则和方法:通过内码转换表合成藏文藏文内字,实现基本集与辅助集的信息交换;通过构件集,生成规范、标准的藏文外字,满足藏文编码字符集开放性的需要。并且,向上,在字汇一级,兼容UCS ;向下,与GB2312的事实上的内码标准兼容,是一个全藏文编码体系。 作者建议在UCS基本平面的拼音文字区建立内码扩充体系。  相似文献   

20.
藏文编码方式及其相互转换   总被引:1,自引:0,他引:1  
介绍了国内外主要藏文系统的编码方案,并根据三种不同类型的编码结构,对非标准藏文编码到国家标准(GB18030)的转换,国家标准和国际标准(ISO/IEC 10646)之间的相互转换进行了详细阐述,并在Vista平台下实现了转码程序,为藏语信息交换处理提供方便宜用的工具,为藏文信息的进一步研究奠定了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号