首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 796 毫秒
1.
论藏文的序性及排序方法   总被引:7,自引:10,他引:7  
为解决藏文排序问题,本文提出藏文的构造序和字符序概念,并在此基础上提出解决藏文词典序的计算机方案。文章对各类藏文构造及字符进行了分析和赋值,给出了藏文计算机排序的技术流程图。  相似文献   

2.
一种符合ISO14651语义的藏文排序实现方法   总被引:9,自引:4,他引:9  
本文介绍了一种实现藏文字典序排序的方法,它针对藏文“大字丁字符集”编码方案。通过引入有(无)前加基字符的概念,它把待排序的藏字预处理为有(无)前加基字符、前加字符、基字(基字符或者字丁)、后加字符、再后加字符串后,再行比较,从而避免拆分字丁。本实现方法符合ISO/IEC14651标准语义。  相似文献   

3.
字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。  相似文献   

4.
藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.  相似文献   

5.
藏文信息处理属性统计研究   总被引:10,自引:2,他引:8  
本文统计分析:1、藏字的字长和构词频度;2、藏字的声母和韵母结构方式及频度;3、藏字的位置字符及结构方式。通过统计分析, 从藏字结构方式的量和位置字符的量的度量揭示其质的面貌, 为藏文研究和藏字信息处理应用提供基础数据。  相似文献   

6.
藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位置特征,以及藏文字的使用频度、结构、字长等属性特征。该文通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。  相似文献   

7.
现代藏字全集的属性统计研究   总被引:10,自引:1,他引:10  
藏文基本属性的研究是藏文信息处理技术的基础,现代藏字的研究是藏文信息处理的重点。藏字全集是有限集,为了更好地研究现代藏字,本文以现代藏字为研究对象,按照现代藏文文法的规律,对全部现代藏字用计算机辅助统计了藏字全集的个数、藏字的字长、藏字的结构方式、位置特征、字符频度以及所有现代藏字中的整基字丁,并且简要地分析了这些数据。这些数据可以较全面地反映现代藏字的本质特征,可为藏文研究和藏字信息处理提供基础数据。  相似文献   

8.
字符排序一般要遵循字典顺序并且需要为每个参与排序的字符赋予特定的排序码。藏文字符有两种编码方式:动态组合方式和静态组合方式,对于动态组合方式编码的藏文组合字符而言,仅仅根据构成它的字母来排序,则排序结果与字典顺序有较大的差异。文中分析了藏文字符的字典顺序,总结了藏文的字典顺序规律,提出了引入藏文字符集扩展集A中的UNICODE编码为排序码对藏文组合字符进行排序的观点,使得藏文组合字符的排序符合藏文字典顺序。  相似文献   

9.
引入排序码实现藏文字符的排序   总被引:1,自引:0,他引:1  
字符排序一般要遵循字典顺序并且需要为每个参与排序的字符赋予特定的排序码.藏文字符有两种编码方式:动态组合方式和静态组合方式,对于动态组合方式编码的藏文组合字符而言,仅仅根据构成它的字母来排序,则排序结果与字典顺序有较大的差异.文中分析了藏文字符的字典顺序,总结了藏文的字典顺序规律,提出了引入藏文字符集扩展集A中的UNICODE编码为排序码对藏文组合字符进行排序的观点,使得藏文组合字符的排序符合藏文字典顺序.  相似文献   

10.
藏文识别中相似字丁的区分研究   总被引:7,自引:0,他引:7  
相似字丁多是藏文识别中的一大难点。本文通过对相似字丁类型的研究,以及印刷体藏文识别结果的统计分析,得到图形结构的分析与识别结果相吻合的结论。说明必须根据藏文字丁的结构特点,在字符归一化、特征选择方面进行特殊的处理,以实现藏文识别中相似字丁的区分。  相似文献   

11.
藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。  相似文献   

12.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。  相似文献   

13.
汉藏短语抽取   总被引:1,自引:1,他引:0  
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。  相似文献   

14.
面向信息处理的藏文分词规范研究   总被引:2,自引:1,他引:1  
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。 在藏文信息处理“字词处理”层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。  相似文献   

15.
构成藏文音节的字母具有一定的顺序,ISO/IEC 10646(Tibetan)中每个藏文字符规定了排序码,但是藏文音节的构造复杂性使得藏文不能直接按构成藏文音节的字母顺序来排序,也不能直接应用这些排序码,提出了基于ISO/IEC 10646(Tibetan)的藏文排序算法,主要思想是:从文本中读入藏文音节,并把它转化为一维的字母串;识别基字及调整构成藏文音节的字母(构件)顺序,并且在缺构件位置上添加相应的空格符;用快速排序法对藏文音节串进行排序;构成藏文音节的字母(构件)顺序调回到原来的顺序,去除空格符,并输出。  相似文献   

16.
藏文属于拼音文字,她的书写规则与英语书写规则一样是从左向右,从上到下,但每个单词之间没有空格,只用音节符把每个单词给分隔开.根据藏文文法,藏文的换行只能发生在音节符、单垂符,双垂符与空格的后面.目前主流浏览器(如Firefox,Netscape等)都不能处理藏文的这一断行特性,所以这些浏览器无法正常显示藏文文本,如Firefox将整个一段没有空格文本当作一个单词,造成在屏幕的右边无法换行.结果是用户必须拖动鼠标来浏览整篇文章,给用户带来了很大的麻烦.又由于藏文中大部分的拼音字母的宽度是不同的,在编写HTML文档时候也无法根据藏文字符串的多少来决定字符串的长度.该算法将采用了一个粗略的方法得到一个字符串长度的近似值,再根据行宽的限制在字符串的适当的位置找到一个可断行点进行断行.虽然得到的是近似值,但是基本上解决了主流浏览器无法处理藏文排版的问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号