首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 88 毫秒
1.
西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。  相似文献   

2.
针对蒙古文字母到音素的转换(grapheme to phoneme conversion, G2P)问题, 提出了基于规则的蒙古文G2P转换方法和基于联合序列模型的蒙古文G2P转换方法。实验结果表明, 利用联合序列模型的蒙古文G2P转换方法要明显好于基于规则的蒙古文G2P转换方法。并且建立的基于联合序列模型的蒙古文G2P转换系统的词误识率为1632%, 音素误识率仅为337%, 能达到实用要求。  相似文献   

3.
蒙古文自动词性标注方面的研究工作较少,制约了对蒙古文的机器翻译、语法分析及语义分析等领域的深入研究。针对于此,提出了加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法。实验表明,加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法对蒙古文的未登录词、集内词、总体词自动词性标注的准确率分别达到了71.276 6%、99.148 2%、95.301 0%,说明此方法可以较好地进行蒙古文的自动词性标注。  相似文献   

4.
摘 要: 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好的实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA模型与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。  相似文献   

5.
蒙古语言是中国蒙古族使用的通用语言,由于蒙古文区别于其他文字的书写方式和其自身变形机制等特点,在很多通用的文字处理引擎中都不被支持。在嵌入式产品开发与应用领域中Linux加QTE已经成为流行方式。该文给出了一种在QTE环境上实现基于标准Unicode的蒙古文点阵显示和变形算法, 并自定义了支持蒙古文的QTE组件,扩展了QTE功能,为在Linux加QTE方式的嵌入式体系结构中处理蒙古文提供了一种解决方法。  相似文献   

6.
该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统。在网页抓取方面,采用MD5算法对爬虫进行了改进,提升了爬虫的速度。在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作。在检索方面,使用向量空间模型实现了对蒙古文文档的检索。在该文系统中加入了西里尔蒙古文到传统蒙古文转换和更新统计等模块,最终搭建了一个可以达到应用要求的蒙古文信息检索系统。  相似文献   

7.
从Vista开始微软操作系统已经完全支持了传统蒙古文的输入、编辑和排版。该文在微软蒙古文输入法的基础上结合蒙古文的自身特点提出了一种新型蒙古文输入法算法。该算法支持自动变形计算、自动联想输入、自动学习和资源共享等功能。文中给出了自动变形计算的原理和详细算法过程,并详细探讨了蒙古文字典数据的存储和使用方法,最后提出了自动学习算法和资源共享技术的解决方案。  相似文献   

8.
蒙古文政府信息系统,是构建我国政府信息化浓墨重彩的一笔.共性与个性兼得,共性在于,政策与信息技术揉合,个性在于,它是民族内外,技术和政治,地方与国家,综合作用的产物.其中,对于蒙古文字信息化不是技术问题,更是一个政治问题.我国在信息化背景下,实现民族平等,实现社会主义民主政治的必由之路.  相似文献   

9.
目前,基于端到端的神经机器翻译(NMT)在大语种上取得了显著的效果,已经成为学术界非常流行的方法,然而该模型的训练严重依赖平行语料库的大小,通常需要上百万句,而西里尔蒙古语和汉语之间的平行语料库严重匮乏,并且人工构建代价昂贵。因此,提出基于对偶学习的西里尔蒙汉互译方法。为了缓解因未登录词导致的译文质量不高的问题,采用BPE(Byte Pair Encoding)技术对语料进行预处理。将通过单语数据预训练的语言模型和20%的平行双语数据预训练的翻译模型作为该模型训练的初始状态。以NMT为基线系统,实验结果表明,该方法达到了与NMT使用西里尔蒙汉全部双语数据相当的效果,有效缓解了因未登录词较多和平行语料库匮乏导致的译文质量不高的问题。  相似文献   

10.
蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。  相似文献   

11.
由于历史原因,哈萨克语(下面简称哈语)在不同的地区形成了不同的文字形式,哈萨克斯坦哈萨克人用斯拉夫字母为基础的斯拉夫字母哈萨克文,而中国哈萨克人用的是阿拉伯字母为基础的阿拉伯字母哈萨克文。为了方便两国之间经济文化的交流,开发自动转换系统具有重要意义。C#编写的哈萨克语两种文字间相互智能转换程序,采用基于规则的方法实现了哈萨克语两种文字形式间的智能转换,准确率达到95.5%。  相似文献   

12.
作为蒙古文信息处理的重要组成部分,开发符合蒙古文应用习惯的办公套件产品对于传承民族文化具有重要意义。开源项目OpenOffice.org的不断发展和日益成熟,为蒙古文办公套件的研制开发提供了有利的契机。该文讲述了以OpenOffice.org为源代码基础,实现基于蒙古文编码国际标准而研制的蒙古文办公套件的实现方案,并为开发其他复杂文字的少数民族语言的办公套件提供了很好的借鉴作用。  相似文献   

13.
赵建东  高光来  飞龙 《计算机科学》2014,41(1):80-82,104
基于隐马尔科夫模型的语音合成方法是当今语音合成的主流方法,它已被广泛应用于英语、汉语、日语等语音合成系统中。然而基于隐马尔科夫模型的蒙古语的语音合成技术研究还处于空白状态。首次将基于隐马尔科夫模型的语音合成方法用于蒙古语语音合成,并进行了语音合成实验。从最终合成系统的效果来看,合成的语音整体稳定流畅,可懂度高,而且节奏感比较强,主观平均得分为3.80。这为进一步研究基于隐马尔科夫模型的蒙古语语音合成技术奠定了基础。  相似文献   

14.
该文从蒙古文信息处理角度出发,着重参考了其他语言语义角色标注的理论方法和蒙古语语义角色相关研究成果,结合蒙古语依存句法树库的特征,通过手工标注分析研究,制定了基于依存语法的蒙古语语义角色分类及其标记。  相似文献   

15.
斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文。蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础。该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分。首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词。最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案。通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统。  相似文献   

16.
本文主要介绍了蒙古文自动处理系统的构成;蒙古文语料库,蒙古文知识库,蒙古文数据库以及蒙古文自动处理系统的软件等问题的初步探索研究的过程。  相似文献   

17.
该文在以往实验研究的基础上,利用美国KAY公司6300型电子腭位仪(EPG)、3700Multi-Speech和南开大学“桌上语音工作室”(MiniSpeechLab)等生理和声学分析仪器和软件,通过观察辅音组合的声学语图、动态腭位图和LCV曲线图,比较系统地描述和归纳了蒙古语辅音组合中相邻青段之间的协同发音规律.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号