首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
书面藏语排序的数学模型及算法   总被引:11,自引:0,他引:11  
江荻  康才畯 《计算机学报》2004,27(4):524-529
针对中国国家标准及ISO藏文编码字符集提出书面藏语字词的排序涉及藏字结构序、构造级和字符序概念,是不同于中文、英文序性而性质独特的一种排序,文章详尽分析了藏字字形、结构形态、传统字符顺序以及藏字字长和层高等特征,构建出藏语排序的数学模型,然后依据模型要求为每类藏文符号进行数字赋值,通过算法逐步确定字符位置并识别字符,最后按照抽取字符的对应数值组合排序,完成了藏语字词的排序,该模型现已在Windows平台上实现。  相似文献   

2.
一种符合ISO14651语义的藏文排序实现方法   总被引:9,自引:4,他引:9  
本文介绍了一种实现藏文字典序排序的方法,它针对藏文“大字丁字符集”编码方案。通过引入有(无)前加基字符的概念,它把待排序的藏字预处理为有(无)前加基字符、前加字符、基字(基字符或者字丁)、后加字符、再后加字符串后,再行比较,从而避免拆分字丁。本实现方法符合ISO/IEC14651标准语义。  相似文献   

3.
字符排序一般要遵循字典顺序并且需要为每个参与排序的字符赋予特定的排序码。藏文字符有两种编码方式:动态组合方式和静态组合方式,对于动态组合方式编码的藏文组合字符而言,仅仅根据构成它的字母来排序,则排序结果与字典顺序有较大的差异。文中分析了藏文字符的字典顺序,总结了藏文的字典顺序规律,提出了引入藏文字符集扩展集A中的UNICODE编码为排序码对藏文组合字符进行排序的观点,使得藏文组合字符的排序符合藏文字典顺序。  相似文献   

4.
引入排序码实现藏文字符的排序   总被引:1,自引:0,他引:1  
字符排序一般要遵循字典顺序并且需要为每个参与排序的字符赋予特定的排序码.藏文字符有两种编码方式:动态组合方式和静态组合方式,对于动态组合方式编码的藏文组合字符而言,仅仅根据构成它的字母来排序,则排序结果与字典顺序有较大的差异.文中分析了藏文字符的字典顺序,总结了藏文的字典顺序规律,提出了引入藏文字符集扩展集A中的UNICODE编码为排序码对藏文组合字符进行排序的观点,使得藏文组合字符的排序符合藏文字典顺序.  相似文献   

5.
藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.  相似文献   

6.
在藏文信息处理中,实现藏文字符的字典排序是一个比较重要的问题,实现藏文字符排序的关键是准确地判定藏文音节。藏文音节的判定关键是组合字符的判定。判定组合字符的瓶颈是藏文字符编码的占位和不占位的判定。通过应用程序对藏文编码的占位和不占位的有效判定,即可找出组合字符。对找出组合字符的藏文字符可通过藏文正字法的限定对藏文音节进行有效的判定和音节组件的拆分,从而为藏文字符的字典排序奠定基础。  相似文献   

7.
构成藏文音节的字母具有一定的顺序,ISO/IEC 10646(Tibetan)中每个藏文字符规定了排序码,但是藏文音节的构造复杂性使得藏文不能直接按构成藏文音节的字母顺序来排序,也不能直接应用这些排序码,提出了基于ISO/IEC 10646(Tibetan)的藏文排序算法,主要思想是:从文本中读入藏文音节,并把它转化为一维的字母串;识别基字及调整构成藏文音节的字母(构件)顺序,并且在缺构件位置上添加相应的空格符;用快速排序法对藏文音节串进行排序;构成藏文音节的字母(构件)顺序调回到原来的顺序,去除空格符,并输出。  相似文献   

8.
基于DUCET的藏文排序方法   总被引:1,自引:0,他引:1  
DUCET为每个藏文字符规定了排序码,但藏文音节的拼写复杂性使得藏文排序不能直接应用这些排序码,提出了基于DUCET的藏文音节排序方法,主要思想是首先,将二维的藏文音节转化成一维的字母串;其次,从DUCET中查出每个字母的排序码,得到藏文音节对应的排序码串;最后,通过比较排序码串实现藏文音节间的排序。还讨论了藏文音节与一般藏文字母串以及藏文字符串与外文字符串间的比较规则。  相似文献   

9.
文章根据排列与组合可计数的特点,给出了利用位序法求标准拉丁方的算法。在实现此算法时,构造了一套字符化的大整数运算系统,解决了随拉丁方阶数增大位序值剧增在计算机上无法表示或处理的问题。通过在分布式并行计算环境MPIBD中的实验,给出了所有4阶与5阶标准拉丁方。  相似文献   

10.
DUCET为每个藏文字符规定了排序码,但部分藏文字母的排序码并不符合藏文字典的排序要求,根据藏文字典的字母顺序对DUCET做了以下修订:修订梵音藏文字母■的排序码;为占位元音■赋予了适当的排序码;修订了下加辅音■的排序码。通过这些修订DUCET能完全支持现代藏文音节、梵音藏文音节以及二者间的混合排序。  相似文献   

11.
藏语语料库加工方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。  相似文献   

12.
Abstract. This paper describes a method for the correction of optically read Devanagari character strings using a Hindi word dictionary. The word dictionary is partitioned in order to reduce the search space besides preventing forced matching to an incorrect word. The dictionary partitioning strategy takes into account the underlying OCR process. The dictionary words at the top level have been divided into two partitions, namely: a short-words partition and the remaining words partition. The short-word partition is sub-partitioned using the envelope information of the words. The envelope consists of the number of top, lower, core modifiers along with the number of core charactersp. Devanagari characters are written in three strips. Most of the characters referred to as core characters are written in the middle strip. The remaining words are further partitioned using tags. A tag is a string of fixed length associated with each partition. The correction process uses a distance matrix for a assigning penalty for a mismatch. The distance matrix is based on the information about errors that the classification process is known to make and the confidence figure that the classification process associates with its output. An improvement of approximately 20% in recognition performance is obtained. For a short word, 590 words are searched on average from 14 sub-partitions of the short-words partition before an exact match is found. The average number of partitions and the average number of words increase to 20 and 1585, respectively, when an exact match is not found. For tag-based partitions, on an average, 100 words from 30 partitions are compared when either an exact match is found or a word within the preset threshold distance is found. If an exact match or a match within a preset threshold is not found, the average number of partitions becomes 75 and 450 words on an average are compared. To the best of our knowledge this is the first work on the use of a Hindi word dictionary for OCR post-processing. Received August 6, 2001 / Accepted August 22, 2001  相似文献   

13.
根据目前在线藏汉英词典使用的实际需求, 青海师范大学藏文信息处理省部共建教育部重点实验室设计实现了一种基于WAMP平台的藏汉英互译在线词典,并给出了词典数据库和查询页面的具体设计方法和关键代码。经测试,该在线词典根据用户的需要,输入单字和词就可以在藏汉英三语间交互查询并快速检索到对应的译词。词典采用B/S结构,它的实现有助于藏汉英三语间的交流和学习。  相似文献   

14.
本文介绍用于联机手写中文字自动识别的新方法与新算法.由于下述各点的实现,手写 文字时可以减少许多限制,增加书写自由.①笔划的抽取经由两次分段实现:首先连续采样, 将输入笔划变换成线段组成,再对线段的长度进行比较,删去相对不重要的成份.②用笔划校 正技术将不应分离的笔划重新组合成规范笔划,或者将不应联写的复合笔划重新分解成基本 笔划.③用非完全匹配技术使失真字可以识别.④用混序笔划重排算法可使一个混序笔划输 入的字重新排列笔顺.⑤笔划位置和长度作为进一步特征,可区别模糊字.  相似文献   

15.
辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读系统,它可以为汉语学习者提供即时的辅助翻译和学习功能。系统首先提出基于字信息的汉语词法分析方法,对汉语网页中文本进行分词处理,然后利用基于组成字结构信息的方法发现新词。对于通用词典未收录的新词(例如: 专业术语、专有名词和固定短语),系统提出了基于语义预测和反馈学习的方法在Web上挖掘出地道的译文。对于常用词,系统通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例。该系统关键技术包括: 基于字信息的汉语词法分析,基于组成字结构信息的新词发现,基于语义预测和反馈学习的新词译文获取,这些模块均以字分析单元的方法为主线,并始终贯穿着整个系统。实验表明该系统在各方面都具有良好的性能。  相似文献   

16.
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号