首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。  相似文献   

2.
斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文。蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础。该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分。首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词。最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案。通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统。  相似文献   

3.
传统蒙古文和西里尔蒙古文分别是在中国和蒙古国使用的蒙古文,它们的口语基本相同,但是书写形式完全不同。结合传统蒙古文和西里尔蒙古文的构词特点,提出了基于联合序列模型的传统蒙古文和西里尔蒙古文相互转换方法,并做了大量的相互转换实验。实验中,传统蒙古文到西里尔蒙古文转换系统的词误识率和字母误识率分别达到了18.38%和6.75%,西里尔蒙古文到传统蒙古文转换系统的词误识率字母误识率分别达到了18.77%和7.14%,基本达到了实用要求。  相似文献   

4.
蒙古文自动词性标注方面的研究工作较少,制约了对蒙古文的机器翻译、语法分析及语义分析等领域的深入研究。针对于此,提出了加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法。实验表明,加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法对蒙古文的未登录词、集内词、总体词自动词性标注的准确率分别达到了71.276 6%、99.148 2%、95.301 0%,说明此方法可以较好地进行蒙古文的自动词性标注。  相似文献   

5.
根据方块苗文的造字原理和字形拓扑结构特征,提出了一种由构件汉语拼音的部分字母决定音码,由合体字结构类型决定形码,按照“先音后形”的次序生成编码序列的方块苗文字形输入编码方案,并使用上下文无关文法对方案进行了形式化描述,给出了方块苗文拆分取码的方法。测试实验表明,该方案具有码长短、重码率低的特点,基于该方案的输入法简捷快速、易学易用,能够解决从方块苗文字库中快速调出所需字形的问题。  相似文献   

6.
蒙古语语音识别系统的词表很难覆盖所有的蒙古文单词,并且随着社会的发展,蒙古文的新词和外来词也越来越多。为了解决蒙古语语音关键词检测系统中的集外词检测问题,该文提出了基于音素混淆网络的蒙古语语音关键词检测方法,并采用音素混淆矩阵改进了关键词的置信度计算方法。实验结果表明,基于音素混淆网络的蒙古语语音关键词检测方法可以较好地解决集外词的检测问题。蒙古语语音关键词检测系统采用改进的置信度计算方法后精确率提高了6%,召回率提高了2.69%,性能得到明显的提升。  相似文献   

7.
蒙古文的一大特点是字符无缝连接,因此一个蒙古文单词有多种字符划分方式。根据蒙古文这一特点,该文提出了多尺度蒙古文脱机手写识别方法,即让一个手写蒙古文单词图像对应多种目标序列,用多个目标序列同时约束训练模型,使得模型更加精准地学习手写图像的细节信息和蒙古文构词规则。该文提出了“十二字头”码、变形显现码和字素码3种字符划分方法,且拥有相互包含关系,即“十二字头”码可以分解为变形显现码、变形显现码可以进一步分解为字素码。多尺度模型首先用多层双向长短时记忆网络对序列化手写图像进行处理,之后加入第一层连接时序分类器做“十二字头”码序列的映射,然后是第二层连接时序分类器做变形显现码序列的映射,最后是第三层连接时序分类器做字素码序列的映射。用三个连接时序分类器损失函数的和作为模型的总损失函数。实验结果表明,该模型在公开的蒙古文脱机手写数据集MHW上表现出了最佳性能,在简单的最佳路径解码方式下,测试集Ⅰ上的单词识别准确率为66.22%、测试集Ⅱ上为63.97%。  相似文献   

8.
蒙古文的形态变化非常丰富,在动词词类上该特点更为明显。我们对蒙古文的动词自动生成方法进行了系统的研究。该文利用生成的蒙古语动词库,给出了对基于层次短语的汉蒙统计机器翻译译文中句尾错误词形动词进行纠正处理的方法。实验表明,该方法可以提高汉蒙机器翻译的性能和流利度。  相似文献   

9.
刘亮亮  曹存根 《计算机科学》2016,43(10):200-205
针对目前中文文本中的“非多字词错误”自动校对方法的不足,提出了一种模糊分词的“非多字词错误”自动查错和自动校对方法。首先利用精确匹配算法与中文串模糊相似度算法对中文文本进行精确切分和模糊全切分,建立词图;然后利用改进的语言模型对词图进行最短路径求解,得到分词结果,实现“非多字词错误”的自动发现和自动纠正。实验测试集是由2万行领域问答系统日志语料构成,共包含664处“非多字词错误”。实验表明,所提方法能有效发现“非多字词错误”,包括由于汉字替换、缺字、多字引起的“非多字词错误”,该方法的查错召回率达到75.9%,查错精度达到85%。所提方法是一种将查错与纠错融于一体的方法。  相似文献   

10.
基手多态蚁群算法的测试用例自动生成   总被引:1,自引:0,他引:1  
提出了一种基于多态蚁群算法的测试数据自动生成方法。该方法使用二进制编码将输入数据转换为位串;然后在蚁群算法的基础上将蚁群分为三类,据其信息素的不同采用不同的移动准则,重点对侦察蚁和搜索蚁进行功能分析。将局部搜索与全局搜索结合起来,结合路径的相似度,缩小搜索空间;根据适应度函数确定最好路径,既解决局部最优化问题,又提高收敛效率。与基本蚁群算法对比,其结果显示该方法效率优于基本蚁群算法。  相似文献   

11.
中文拼写纠错是一项检测和纠正文本中拼写错误的任务。大多数中文拼写错误是在语义、读音或字形上相似的字符被误用,因此常见的做法是对不同模态提取特征进行建模。但将不同特征直接融合或是利用固定权重进行求和,使得不同模态信息之间的重要性关系被忽略以及模型在识别错误时会出现偏差,阻止了模型以有效的方式学习。为此,提出了一种新的模型以改善这个问题,称为基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法。该方法使用文本序列错误概率作为动态权重、中文常见拼写错误概率作为固定权重,对语义、读音和字形信息进行了高效融合。模型能够合理控制不同模态信息流入混合模态表示,更加针对错误发生处进行学习。在SIGHAN基准上进行的实验表明,所提模型的各项评估分数在不同数据集上均有提升,这验证了该算法的可行性。  相似文献   

12.
电脑汉字平台要满足各层次人员的需要,就需将系统外挂汉字编码接口用起,这就需有一“汉字输入编码对照表”,又根据诸多版本不一的现状,提出了一种从现有的各种DOS汉字平台中获取汉字输入编码对照表的通用方法。并用此法编制了相应程序,分别在UCDOS3.1和KLDOS系统中取出五笔字型和大众码对照表,且挂于Pwindows3.1中  相似文献   

13.
LED显示屏拼音输入汉字的实现方法   总被引:1,自引:1,他引:0  
本文详细介绍在处理LED显示屏中文信息时使用红外遥控输入汉字的方法:区位码输入法和拼音输入法。文章重点介绍拼音输入法检索表格的编制和软件的实现方法。  相似文献   

14.
This paper describes a program for combining or “slotting” together two ordered sequences of observations into a single combined sequence with the minimum possible “combined path length” while preserving the stratigraphic ordering within each original sequence. A dynamic programming approach is used to minimize the total length or distance through the combined sequence, taking as input user-defined distances or dissimilarities between each pair of observations. This optimization criterion in some situations may be more appropriate than other criteria. The program enables the user to specify, using simple mnemonic codes, any number of additional order constraints of 12 different types. The program is illustrated on a set of data comprising gamma, sonic, and induction logs from two wells. Detailed input instructions and a listing of the program are given.  相似文献   

15.
运用Auto CAD绘制工程图时,文字处理的质量和速度直接影 响绘图质量和速度,因而据多年绘图之实践,给出了“汉字字型的设置”、“解决中西文字 高比例失调”、“下标输入”、“解决Auto CAD中汉字显示乱码”、“应用程序CHTEXT.LSP 的使用”等几点经验。  相似文献   

16.
提出了一种足球视频的语义结构,即足球视频由多个语义事件构成,每个语义事件由数个语义镜头组成。为了分析这种语义结构,建立了“精彩事件”和“一般事件”两种语义事件的多个隐马尔科夫模型(HMMs),并提出了场地比率、人脸比率、边缘、运动强度四种特征作为HMMs的观测值输入。利用HMM的三种算法训练HMMs,分析出精彩事件,并为每个镜头标注语义。  相似文献   

17.
搜索引擎中,在线拼写纠错根据用户查询输入补全用户查询,并给出正确的拼写建议。提出了一种面向查询补全的在线拼写纠错算法。基于真实查询的噪声信道转换方式,算法建立了用户查询输入的生成模型;利用拼写纠错对,算法采用期望最大化算法训练能捕获用户误拼行为的马尔科夫N语法转换模型;算法采用不同剪枝策略的启发式改进A*搜索算法以实现实时给出纠错补全建议。实验结果表明,提出的算法相比其他同类算法更有效。  相似文献   

18.
目前常用的音序汉字序列并不符合中国人对汉字排序的观念,能够反应汉字特征的是汉字的笔画.结合汉字的重编码与汉字笔画排序规则,提出在计算机上实现汉字按笔画序规则排序的方法,根据重编码和内码的性质,在第一次排序结果的基础上再进行一次排序,使得排序搜索速度得到有效提高.  相似文献   

19.
实际应用中,常常需要知道汉字的拼音且希望程序能自动获取拼音,但是现有的汉字字库都不含汉字的音调,而已有的含有音调的应用软件却又不提供编程接口,因此需要自己编制字库来实现这一功能。本文运用微软拼音输入法与输入法生成器及数据库技术,编制了一个含音调的汉字字库,然后运用Del出中的TClient Dstaset实现了汉字的快速查询。  相似文献   

20.
《Applied Soft Computing》2008,8(1):166-173
Almost all current training algorithms for neural networks are based on gradient descending technique, which causes long training time. In this paper, we propose a novel fast training algorithm called Fast Constructive-Covering Algorithm (FCCA) for neural network construction based on geometrical expansion. Parameters are updated according to the geometrical location of the training samples in the input space, and each sample in the training set is learned only once. By doing this, FCCA is able to avoid iterative computing and much faster than traditional training algorithms. Given an input sequence in an arbitrary order, FCCA learns “easy” samples first and “confusing” samples are easily learned after these “easy” samples. This sample reordering process is done on the fly based on geometrical concept. In addition, FCCA begins with an empty hidden layer, and adds new hidden neurons when necessary. This constructive learning avoids blind selection of neural network structure. The experimental work for classification problems illustrates the advantages of FCCA, especially in learning speed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号