共查询到15条相似文献,搜索用时 156 毫秒
1.
2.
3.
藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位置特征,以及藏文字的使用频度、结构、字长等属性特征。该文通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。 相似文献
4.
藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。 相似文献
5.
通过对藏文的字形特征、拼写规律,以及文法规则的分析和研究,实现藏文词语的实时检错.借助形式语言有限状态自动机的方法,对藏文字结构中的基字、前加字、上加字、下加字、后加字、再后加字之间的搭配规则设计了状态图和邻接矩阵.该方法提高了藏文文本质量,使原本复杂的书面语法规则变得简单直观,从而使符合现代藏文音节组织结构的词语能实时检错.该研究为实现藏文的自动校对提供了基础. 相似文献
6.
藏文字频统计是藏文信息处理的基础性工作,通过对藏文字的部件、音节、结构和字的频度与通用度等定量统计与定性分析,为藏文信息处理提供基础数据。藏文字是一种由藏文字构件横向和纵向组合而成的拼音文字,在藏文字频统计中不仅要从整字角度统计分析藏文字频度属性,还要统计分析构成其构件的频度及位置属性。因此,在藏文字频统计系统中要分解构成藏文字的各部件。本文通过开发藏文字频统计系统,利用组合构件库结合藏文文法提出了一种藏文字构件分解算法。经测试,该算法不仅简单易行,而且可以有效地确定出各基本构件的位置特征,已应用于项目藏文字频统计系统。 相似文献
7.
字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。 相似文献
8.
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法.首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错... 相似文献
9.
10.
11.
12.
Combining Trigram and Automatic Weight Distribution in Chinese Spelling Error Correction 总被引:1,自引:0,他引:1 下载免费PDF全文
The researches on spelling correction aiming at detecting errors in texts tend to focus on context-sensitive spelling error correction,which is more difficult than traditional isolated-word error correction,A novel and efficient algorithm for the system of Chinese spelling error correction,CInsunSpell,is presented.In this system,the work of correction includes two parts:checking phase and correcting phase,At the first phase ,a Trigram algorithm within one fixed-size window is designed to locate potential errors in local area.The second phase employs a new method of automatically and dynamically distributing weights among the characters in the confusion set as well as in the Bayesian language model.The tactics used above exhibits good performances. 相似文献
13.
藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏文缺少高质量的藏文语言模型。本文结合藏文结构特点使用普通藏文新闻文本训练基于音节的藏文BERT模型,并基于藏文BERT模型构建BERT-BiLSTM-CRF模型。该模型首先使用藏文BERT模型对藏医药文本字符嵌入进行学习,增强字符嵌入对藏文字符及其上下文信息的表示能力,然后使用BiLSTM层进一步抽取藏医药文本中字符之间的依赖关系,最后使用CRF层强化标注序列的合法性。实验结果表明,使用藏文BERT模型初始化藏医药文本字符嵌入有助于提高藏医药医学实体识别效果,F1值达96.18%。 相似文献
14.
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因: 一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。 相似文献
15.
实际应用中,常常需要知道汉字的拼音且希望程序能自动获取拼音,但是现有的汉字字库都不含汉字的音调,而已有的含有音调的应用软件却又不提供编程接口,因此需要自己编制字库来实现这一功能。本文运用微软拼音输入法与输入法生成器及数据库技术,编制了一个含音调的汉字字库,然后运用Del出中的TClient Dstaset实现了汉字的快速查询。 相似文献