共查询到16条相似文献,搜索用时 796 毫秒
1.
论藏文的序性及排序方法 总被引:7,自引:10,他引:7
为解决藏文排序问题,本文提出藏文的构造序和字符序概念,并在此基础上提出解决藏文词典序的计算机方案。文章对各类藏文构造及字符进行了分析和赋值,给出了藏文计算机排序的技术流程图。 相似文献
2.
3.
字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。 相似文献
4.
5.
藏文信息处理属性统计研究 总被引:10,自引:2,他引:8
本文统计分析:1、藏字的字长和构词频度;2、藏字的声母和韵母结构方式及频度;3、藏字的位置字符及结构方式。通过统计分析, 从藏字结构方式的量和位置字符的量的度量揭示其质的面貌, 为藏文研究和藏字信息处理应用提供基础数据。 相似文献
6.
藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位置特征,以及藏文字的使用频度、结构、字长等属性特征。该文通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。 相似文献
7.
现代藏字全集的属性统计研究 总被引:10,自引:1,他引:10
藏文基本属性的研究是藏文信息处理技术的基础,现代藏字的研究是藏文信息处理的重点。藏字全集是有限集,为了更好地研究现代藏字,本文以现代藏字为研究对象,按照现代藏文文法的规律,对全部现代藏字用计算机辅助统计了藏字全集的个数、藏字的字长、藏字的结构方式、位置特征、字符频度以及所有现代藏字中的整基字丁,并且简要地分析了这些数据。这些数据可以较全面地反映现代藏字的本质特征,可为藏文研究和藏字信息处理提供基础数据。 相似文献
8.
字符排序一般要遵循字典顺序并且需要为每个参与排序的字符赋予特定的排序码。藏文字符有两种编码方式:动态组合方式和静态组合方式,对于动态组合方式编码的藏文组合字符而言,仅仅根据构成它的字母来排序,则排序结果与字典顺序有较大的差异。文中分析了藏文字符的字典顺序,总结了藏文的字典顺序规律,提出了引入藏文字符集扩展集A中的UNICODE编码为排序码对藏文组合字符进行排序的观点,使得藏文组合字符的排序符合藏文字典顺序。 相似文献
9.
引入排序码实现藏文字符的排序 总被引:1,自引:0,他引:1
字符排序一般要遵循字典顺序并且需要为每个参与排序的字符赋予特定的排序码.藏文字符有两种编码方式:动态组合方式和静态组合方式,对于动态组合方式编码的藏文组合字符而言,仅仅根据构成它的字母来排序,则排序结果与字典顺序有较大的差异.文中分析了藏文字符的字典顺序,总结了藏文的字典顺序规律,提出了引入藏文字符集扩展集A中的UNICODE编码为排序码对藏文组合字符进行排序的观点,使得藏文组合字符的排序符合藏文字典顺序. 相似文献
10.
11.
12.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。 相似文献
13.
14.
面向信息处理的藏文分词规范研究 总被引:2,自引:1,他引:1
自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。 在藏文信息处理“字词处理”层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。 相似文献
15.
构成藏文音节的字母具有一定的顺序,ISO/IEC 10646(Tibetan)中每个藏文字符规定了排序码,但是藏文音节的构造复杂性使得藏文不能直接按构成藏文音节的字母顺序来排序,也不能直接应用这些排序码,提出了基于ISO/IEC 10646(Tibetan)的藏文排序算法,主要思想是:从文本中读入藏文音节,并把它转化为一维的字母串;识别基字及调整构成藏文音节的字母(构件)顺序,并且在缺构件位置上添加相应的空格符;用快速排序法对藏文音节串进行排序;构成藏文音节的字母(构件)顺序调回到原来的顺序,去除空格符,并输出。 相似文献
16.
藏文属于拼音文字,她的书写规则与英语书写规则一样是从左向右,从上到下,但每个单词之间没有空格,只用音节符把每个单词给分隔开.根据藏文文法,藏文的换行只能发生在音节符、单垂符,双垂符与空格的后面.目前主流浏览器(如Firefox,Netscape等)都不能处理藏文的这一断行特性,所以这些浏览器无法正常显示藏文文本,如Firefox将整个一段没有空格文本当作一个单词,造成在屏幕的右边无法换行.结果是用户必须拖动鼠标来浏览整篇文章,给用户带来了很大的麻烦.又由于藏文中大部分的拼音字母的宽度是不同的,在编写HTML文档时候也无法根据藏文字符串的多少来决定字符串的长度.该算法将采用了一个粗略的方法得到一个字符串长度的近似值,再根据行宽的限制在字符串的适当的位置找到一个可断行点进行断行.虽然得到的是近似值,但是基本上解决了主流浏览器无法处理藏文排版的问题. 相似文献