共查询到20条相似文献,搜索用时 265 毫秒
1.
西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。 相似文献
2.
3.
传统蒙古文和西里尔蒙古文分别是在中国和蒙古国使用的蒙古文,它们的口语基本相同,但是书写形式完全不同。结合传统蒙古文和西里尔蒙古文的构词特点,提出了基于联合序列模型的传统蒙古文和西里尔蒙古文相互转换方法,并做了大量的相互转换实验。实验中,传统蒙古文到西里尔蒙古文转换系统的词误识率和字母误识率分别达到了18.38%和6.75%,西里尔蒙古文到传统蒙古文转换系统的词误识率字母误识率分别达到了18.77%和7.14%,基本达到了实用要求。 相似文献
4.
5.
根据方块苗文的造字原理和字形拓扑结构特征,提出了一种由构件汉语拼音的部分字母决定音码,由合体字结构类型决定形码,按照“先音后形”的次序生成编码序列的方块苗文字形输入编码方案,并使用上下文无关文法对方案进行了形式化描述,给出了方块苗文拆分取码的方法。测试实验表明,该方案具有码长短、重码率低的特点,基于该方案的输入法简捷快速、易学易用,能够解决从方块苗文字库中快速调出所需字形的问题。 相似文献
6.
7.
蒙古文的一大特点是字符无缝连接,因此一个蒙古文单词有多种字符划分方式。根据蒙古文这一特点,该文提出了多尺度蒙古文脱机手写识别方法,即让一个手写蒙古文单词图像对应多种目标序列,用多个目标序列同时约束训练模型,使得模型更加精准地学习手写图像的细节信息和蒙古文构词规则。该文提出了“十二字头”码、变形显现码和字素码3种字符划分方法,且拥有相互包含关系,即“十二字头”码可以分解为变形显现码、变形显现码可以进一步分解为字素码。多尺度模型首先用多层双向长短时记忆网络对序列化手写图像进行处理,之后加入第一层连接时序分类器做“十二字头”码序列的映射,然后是第二层连接时序分类器做变形显现码序列的映射,最后是第三层连接时序分类器做字素码序列的映射。用三个连接时序分类器损失函数的和作为模型的总损失函数。实验结果表明,该模型在公开的蒙古文脱机手写数据集MHW上表现出了最佳性能,在简单的最佳路径解码方式下,测试集Ⅰ上的单词识别准确率为66.22%、测试集Ⅱ上为63.97%。 相似文献
8.
9.
针对目前中文文本中的“非多字词错误”自动校对方法的不足,提出了一种模糊分词的“非多字词错误”自动查错和自动校对方法。首先利用精确匹配算法与中文串模糊相似度算法对中文文本进行精确切分和模糊全切分,建立词图;然后利用改进的语言模型对词图进行最短路径求解,得到分词结果,实现“非多字词错误”的自动发现和自动纠正。实验测试集是由2万行领域问答系统日志语料构成,共包含664处“非多字词错误”。实验表明,所提方法能有效发现“非多字词错误”,包括由于汉字替换、缺字、多字引起的“非多字词错误”,该方法的查错召回率达到75.9%,查错精度达到85%。所提方法是一种将查错与纠错融于一体的方法。 相似文献
10.
11.
中文拼写纠错是一项检测和纠正文本中拼写错误的任务。大多数中文拼写错误是在语义、读音或字形上相似的字符被误用,因此常见的做法是对不同模态提取特征进行建模。但将不同特征直接融合或是利用固定权重进行求和,使得不同模态信息之间的重要性关系被忽略以及模型在识别错误时会出现偏差,阻止了模型以有效的方式学习。为此,提出了一种新的模型以改善这个问题,称为基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法。该方法使用文本序列错误概率作为动态权重、中文常见拼写错误概率作为固定权重,对语义、读音和字形信息进行了高效融合。模型能够合理控制不同模态信息流入混合模态表示,更加针对错误发生处进行学习。在SIGHAN基准上进行的实验表明,所提模型的各项评估分数在不同数据集上均有提升,这验证了该算法的可行性。 相似文献
12.
电脑汉字平台要满足各层次人员的需要,就需将系统外挂汉字编码接口用起,这就需有一“汉字输入编码对照表”,又根据诸多版本不一的现状,提出了一种从现有的各种DOS汉字平台中获取汉字输入编码对照表的通用方法。并用此法编制了相应程序,分别在UCDOS3.1和KLDOS系统中取出五笔字型和大众码对照表,且挂于Pwindows3.1中 相似文献
13.
LED显示屏拼音输入汉字的实现方法 总被引:1,自引:1,他引:0
本文详细介绍在处理LED显示屏中文信息时使用红外遥控输入汉字的方法:区位码输入法和拼音输入法。文章重点介绍拼音输入法检索表格的编制和软件的实现方法。 相似文献
14.
R.M. Clark 《Computers & Geosciences》1985,11(5):605-617
This paper describes a program for combining or “slotting” together two ordered sequences of observations into a single combined sequence with the minimum possible “combined path length” while preserving the stratigraphic ordering within each original sequence. A dynamic programming approach is used to minimize the total length or distance through the combined sequence, taking as input user-defined distances or dissimilarities between each pair of observations. This optimization criterion in some situations may be more appropriate than other criteria. The program enables the user to specify, using simple mnemonic codes, any number of additional order constraints of 12 different types. The program is illustrated on a set of data comprising gamma, sonic, and induction logs from two wells. Detailed input instructions and a listing of the program are given. 相似文献
15.
运用Auto CAD绘制工程图时,文字处理的质量和速度直接影 响绘图质量和速度,因而据多年绘图之实践,给出了“汉字字型的设置”、“解决中西文字 高比例失调”、“下标输入”、“解决Auto CAD中汉字显示乱码”、“应用程序CHTEXT.LSP 的使用”等几点经验。 相似文献
16.
提出了一种足球视频的语义结构,即足球视频由多个语义事件构成,每个语义事件由数个语义镜头组成。为了分析这种语义结构,建立了“精彩事件”和“一般事件”两种语义事件的多个隐马尔科夫模型(HMMs),并提出了场地比率、人脸比率、边缘、运动强度四种特征作为HMMs的观测值输入。利用HMM的三种算法训练HMMs,分析出精彩事件,并为每个镜头标注语义。 相似文献
17.
搜索引擎中,在线拼写纠错根据用户查询输入补全用户查询,并给出正确的拼写建议。提出了一种面向查询补全的在线拼写纠错算法。基于真实查询的噪声信道转换方式,算法建立了用户查询输入的生成模型;利用拼写纠错对,算法采用期望最大化算法训练能捕获用户误拼行为的马尔科夫N语法转换模型;算法采用不同剪枝策略的启发式改进A*搜索算法以实现实时给出纠错补全建议。实验结果表明,提出的算法相比其他同类算法更有效。 相似文献
18.
19.
实际应用中,常常需要知道汉字的拼音且希望程序能自动获取拼音,但是现有的汉字字库都不含汉字的音调,而已有的含有音调的应用软件却又不提供编程接口,因此需要自己编制字库来实现这一功能。本文运用微软拼音输入法与输入法生成器及数据库技术,编制了一个含音调的汉字字库,然后运用Del出中的TClient Dstaset实现了汉字的快速查询。 相似文献
20.
《Applied Soft Computing》2008,8(1):166-173
Almost all current training algorithms for neural networks are based on gradient descending technique, which causes long training time. In this paper, we propose a novel fast training algorithm called Fast Constructive-Covering Algorithm (FCCA) for neural network construction based on geometrical expansion. Parameters are updated according to the geometrical location of the training samples in the input space, and each sample in the training set is learned only once. By doing this, FCCA is able to avoid iterative computing and much faster than traditional training algorithms. Given an input sequence in an arbitrary order, FCCA learns “easy” samples first and “confusing” samples are easily learned after these “easy” samples. This sample reordering process is done on the fly based on geometrical concept. In addition, FCCA begins with an empty hidden layer, and adds new hidden neurons when necessary. This constructive learning avoids blind selection of neural network structure. The experimental work for classification problems illustrates the advantages of FCCA, especially in learning speed. 相似文献