首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用词表进行了文档信息检索的对比实验。实验结果表明,用该文所述方法确定的蒙古文停用词表进行蒙古文文档检索,比用英文停用词翻译成蒙古文进行蒙古文文档检索的准确率更高。  相似文献   

2.
本文主要介绍了蒙古文自动处理系统的构成;蒙古文语料库,蒙古文知识库,蒙古文数据库以及蒙古文自动处理系统的软件等问题的初步探索研究的过程。  相似文献   

3.
该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统。在网页抓取方面,采用MD5算法对爬虫进行了改进,提升了爬虫的速度。在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作。在检索方面,使用向量空间模型实现了对蒙古文文档的检索。在该文系统中加入了西里尔蒙古文到传统蒙古文转换和更新统计等模块,最终搭建了一个可以达到应用要求的蒙古文信息检索系统。  相似文献   

4.
斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文。蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础。该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分。首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词。最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案。通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统。  相似文献   

5.
国家标准GB 25914-2010的提出,为蒙古文变形规则提供了统一的可实施的标准。目前还缺乏完全符合该标准的蒙古文变形引擎和OpenType蒙古文字库。针对这一问题,该文提出了一种符合新标准的蒙古文变形模型,该模型具有高效率和通用性。我们利用蒙古文变形模型分别在KDE平台下的复杂文本布局引擎Qt4和GNOME平台下的Pango中实现了对蒙古文的变形支持。实验结果证明了该模型的有效性。其中,通过对Pango增加蒙古文变形支持,GNOME平台下的Firefox等应用程序也能正确显示蒙古文。该模型的实现,为研制符合新标准的以GNOME或者KDE为桌面环境的蒙古文操作系统奠定了基础。  相似文献   

6.
近年来,依存句法分析逐渐成为自然语言处理领域中的研究热点。然而,蒙古文的依存句法分析尚未得到足够的重视。基于最大生成树模型在蒙古文依存关系树库TMDT上进行了蒙古文依存句法分析的研究。在简要介绍蒙古文的特点和蒙古文依存关系树库TMDT之后,详细讨论了最大生成树模型。为找到该模型在蒙古文依存句法分析中合适的特征,重点通过实验对8种特征及其组合在句法分析中的性能进行了比较。结果显示,Basic Unigram Features、Basic Bi-gram Features以及C-C sibling Features这3种特征的组合性能最佳。本研究为蒙古文依存句法分析奠定了基础。  相似文献   

7.
印刷体蒙古文文字识别中常用特征的获取   总被引:2,自引:1,他引:2  
李振宏  高光来 《微机发展》2003,13(11):117-119
蒙古文印刷体识别技术和蒙古文印刷体识别软件的研究与开发对少数民族地区信息化的发展有着很重要的作用。基于这种需求,文中讨论和分析了蒙古文印刷体识别中常用的特征,并且讨论了这些特征的提取方法。文中所述特征已应用于蒙古文印刷体文字识别软件的设计。结果证明这些特征是可行的、高效的,可以应用于识别软件的设计。蒙古文文字识别的研究将会推动少数民族地区信息化的进程。  相似文献   

8.
蒙古文电子词典是重要的信息化工具之一.该研究基于MVC框架,利用Tomcat开发环境,设计蒙古文电子词典,并进一步探讨了设计过程中的注意事项.蒙古文电子词典相对较少,基于MVC框架设计蒙古文电子词典研究过程中,继续探究蒙古文电子词典的语义搜索功能.  相似文献   

9.
信息时代,互联网作为一个媒介,信息的共享和传输给人们带来了极大的方便,同时丰富了我们的生活。蒙古文互联网的发展对于民族地区的社会发展中具有重要的作用,在信息文明强烈冲击下,蒙古文互联网具有独特的实现意义和研究价值,值得我们去审视和思考。本文主要介绍蒙古文互联网发展情况的基础上,分析了蒙古文互联网发展中出现的各种问题以及对促进蒙古文互联网发展提出了几点建议。  相似文献   

10.
蒙古文印刷体识别技术和蒙古文印刷体识别软件的研究与开发对少数民族地区信息化的发展有着很重要的作用.基于这种需求,文中讨论和分析了蒙古文印刷体识别中常用的特征,并且讨论了这些特征的提取方法.文中所述特征已应用于蒙古文印刷体文字识别软件的设计.结果证明这些特征是可行的、高效的,可以应用于识别软件的设计.蒙古文文字识别的研究将会推动少数民族地区信息化的进程.  相似文献   

11.
传统蒙古文和西里尔蒙古文分别是在中国和蒙古国使用的蒙古文,它们的口语基本相同,但是书写形式完全不同。结合传统蒙古文和西里尔蒙古文的构词特点,提出了基于联合序列模型的传统蒙古文和西里尔蒙古文相互转换方法,并做了大量的相互转换实验。实验中,传统蒙古文到西里尔蒙古文转换系统的词误识率和字母误识率分别达到了18.38%和6.75%,西里尔蒙古文到传统蒙古文转换系统的词误识率字母误识率分别达到了18.77%和7.14%,基本达到了实用要求。  相似文献   

12.
西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。  相似文献   

13.
蒙古文同形词歧义消除问题是蒙古文信息处理的难点之一。该文提出了基于蒙古语名词语义网的同形词歧义消除方法,设计实现了同形词歧义消除算法,最后给出了语料库中同形词歧义消除实验的设计过程及结果分析。  相似文献   

14.
传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息。蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量。因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量。通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点。  相似文献   

15.
本文, 归纳蒙古文字特殊性和分析现有蒙古文系统后, 指出建立具备通用处理功能, 又与西文、汉字兼客的蒙古文信息处理系统的关健, 在于内部码体系结构的建立上然后, 对几种内部码体系结构设计方案, 进行了详细地分析比较, 并探讨了它们的可行性。  相似文献   

16.
在蒙古文单词拼写中有很多型同音异词,从字面上难以辨别和区分型同字符的差异,这对蒙古文信息处理方面都带来了一定的困难。但在蒙古文的文字信息处理过程中,解决型同音异词,确定其编码是一项重要研究内容。该文重点讨论如何实现蒙古文的拉丁转写和切分音节,来确定那些型同音异词中的型同字符的问题。  相似文献   

17.
蒙古文的每个字素在词的不同位置有着不同的书写形式,使得蒙古文字形结构多样且数量庞大,从而导致利用计算机辅助和传统人工方式设计蒙古文字体需要耗费大量的人力物力。故创建一种能自动生成蒙文字体风格的模型十分必要。国内外已有学者开展了对汉字和英文字体风格自动迁移的研究,但蒙古文领域仍处于空白阶段。因此,该文提出将条件生成对抗网络模型应用于蒙古文字体风格迁移,并给出了相关模型,实现了相应的算法和软件。在蒙古文字体数据集上进行实验,模型采用生成损失和判别损失衡量模型,Adam优化器自动调整学习率,逐渐减少差异值,直到生成器和判别器达到纳什平衡状态,可直接从蒙古文标题字体生成蒙古文手写体等字体,得到的生成字体样式基本接近真实字体样式,达到字体风格迁移的效果。  相似文献   

18.
本文主要阐述了基于DSpace构建传统蒙古文学科机构知识库的难点以及解决的技术路线,包括蒙古文数字资料的采集、存储、检索以及显示等。针对蒙古文的构词和语法等方面的特点,对开源搜索引擎Lucene进行改进——采用B树管理Term、简化了特征词权值的计算、采用EC方法确定了蒙古文停用词表,实现了基于Lucene的蒙古文检索。  相似文献   

19.
蒙古文是一种复杂文字,目前操作系统和办公套件都还不支持蒙古文的显示。OpenOffice.org是可以运行在Linux和Windows上跨平台的办公套件,它分别使用ICU LayoutEngine和Uniscribe进行复杂文字处理。本文以支持蒙古文处理的Linux版本OpenOiffice.org为基础,详细分析了OpenOffice.org在Linux和Windows系统上的复杂文本处理过程,采用Uniscribe与ICU相结合的方案,实现了OpenOffice.org在Windows平台上对蒙古文的显示。  相似文献   

20.
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号