共查询到17条相似文献,搜索用时 332 毫秒
1.
西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。 相似文献
2.
3.
4.
5.
6.
蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈。该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题。实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文“音词转换”和“形词转换”研究都有广泛的参考价值。 相似文献
7.
该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用词表进行了文档信息检索的对比实验。实验结果表明,用该文所述方法确定的蒙古文停用词表进行蒙古文文档检索,比用英文停用词翻译成蒙古文进行蒙古文文档检索的准确率更高。 相似文献
8.
设计了一个基于word spotting技术的蒙古文《甘珠尔经》图像检索的系统框架。在充分分析了蒙古文《甘珠尔经》中手写单词图像特点的基础上,提出了采用轮廓特征、投影特征和笔划穿越数目来表示单词图像。在由5500个单词图像构成的数据集上进行对比实验,确定了最佳的特征组合,平均准确率(MAP)能达到78.79%,R-Precision能达到73.01%。实验结果表明,所选择的特征是合理的、有效的。 相似文献
9.
针对传统图像信息识别系统在图像信息识别应用中误识率较高的现状,提出了基于卷积神经网络的图像信息识别系统的设计。在系统硬件方面,对中心交换机和加速器进行选型与设计;在系统软件方面,对图像数据进行灰度转换、灰度拉伸、滤波处理,并利用卷积神经网络技术对图像特征进行深度挖掘,以识别图像信息。测试实验结果表明,设计的系统误识率低于传统图像信息识别系统,具有较好的可行性与可靠性。 相似文献
10.
隐马尔科夫模型(HMM)对序列数据有很强的建模能力,在语音和手写识别中都得到了广泛的应用。利用HMM研究蒙古文手写识别,首先需要解决的问题是手写文字的序列化。从蒙古文的构词和书写特点看,蒙古文由多个字素从上到下串联构成。选择字素集合和词的字素分割是手写识别的基础,也是影响识别效果的关键因素。该文根据蒙古文音节和编码知识确定了蒙古文字母集合,共包括1 171个字母。通过相关性处理、HMM排序筛选等手段得到长字素集合,共包括378个字素。对长字素经过人工分解,获得了50个短字素。最后利用两层映射给出了词转字素序列的算法。为了验证长短字素在手写识别中的效果,我们在HTK(hidden Markov model toolkit)环境下利用小规模字库实现了手写识别系统,实验结果表明短字素比长字素有更好的性能。文中给出的字素集合和词转字素序列的算法为后续基于HMM的蒙古文手写识别研究奠定了基础。 相似文献
11.
目前,基于端到端的神经机器翻译(NMT)在大语种上取得了显著的效果,已经成为学术界非常流行的方法,然而该模型的训练严重依赖平行语料库的大小,通常需要上百万句,而西里尔蒙古语和汉语之间的平行语料库严重匮乏,并且人工构建代价昂贵。因此,提出基于对偶学习的西里尔蒙汉互译方法。为了缓解因未登录词导致的译文质量不高的问题,采用BPE(Byte Pair Encoding)技术对语料进行预处理。将通过单语数据预训练的语言模型和20%的平行双语数据预训练的翻译模型作为该模型训练的初始状态。以NMT为基线系统,实验结果表明,该方法达到了与NMT使用西里尔蒙汉全部双语数据相当的效果,有效缓解了因未登录词较多和平行语料库匮乏导致的译文质量不高的问题。 相似文献
12.
13.
目前,面向蒙古语的语音识别语音库资源相对稀缺,但存在较多的电视剧、广播等蒙古语音频和对应的文本。该文提出基于语音识别的蒙古语长音频语音文本自动对齐方法,实现蒙古语电视剧语音的自动标注,扩充了蒙古语语音库。在前端处理阶段,使用基于高斯混合模型的语音端点检测技术筛选并删除噪音段;在语音识别阶段,构建基于前向型序列记忆网络的蒙古语声学模型;最后基于向量空间模型,将语音识别得到的假设序列和参考音素序列进行句子级别的动态时间归整算法匹配。实验结果表明,与基于Needleman-Wunsch算法的语音对齐比较,该文提出的蒙古语长音频语音文本自动对齐方法的对齐正确率提升了31.09%。 相似文献
14.
15.
蒙古词法分析是蒙古语信息处理的基础性问题,是蒙古语信息处理工作的第一步。通过对统计模型和蒙古语构词规则进行深入研究,提出了一种融合统计和规则技术的蒙古语词切分和词性标注的方法。该方法以统计模型作为基本框架,采用树形结构描述系统的解空间,并加入了蒙古语语言学规则和词干、词缀词典。实验结果表明,该系统分词和词性标注的词级准确率为95.1%,词干/词缀级准确率为94.6%,较已有蒙古语词法分析系统的准确率有所提高。 相似文献
16.