首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 718 毫秒
1.
以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CINO新版本:CINO-Agglu。为了探讨最佳微调策略,缓解低资源问题,对维吾尔语、哈萨克语、柯尔克孜语、乌兹别克语、塔塔尔语等五种黏着语分别进行单语言和多语言微调。实验结果表明,CINO-Agglu相较于剪枝前,模型大小、参数量、词表大小、推理时间分别减少45%、44%、92%、38%,并且在五种语言上的平均F1值为85.9%,超过了所有基线模型。加入适当规模的同语族数据有利于提升微调效果。  相似文献   

2.
该文介绍了第七届全国机器翻译研讨会(CWMT2011)机器翻译评测的具体情况。本次评测重点关注各种语言到汉语的翻译,除了汉英、英汉、日汉三个语言对以外,评测还新增了五种民族语言(藏语、蒙古语、维吾尔语、哈萨克语、柯尔克孜语)到汉语的翻译评测。共有19家国内外单位的165个系统参加此次评测。除了介绍评测项目的设置、评测数据的准备、评测流程、参评单位等,本文还重点介绍了CWMT2011的评测结果,并对评测结果进行了分析,用实例说明了与评测结果相关的几个因素 源语言与目标语言是否相似、评测领域是否集中、测试集与训练及开发集语料是否相似、训练语料的规模、参评系统的技术和成熟度等。  相似文献   

3.
由于历史原因,哈萨克语(下面简称哈语)在不同的地区形成了不同的文字形式,哈萨克斯坦哈萨克人用斯拉夫字母为基础的斯拉夫字母哈萨克文,而中国哈萨克人用的是阿拉伯字母为基础的阿拉伯字母哈萨克文。为了方便两国之间经济文化的交流,开发自动转换系统具有重要意义。C#编写的哈萨克语两种文字间相互智能转换程序,采用基于规则的方法实现了哈萨克语两种文字形式间的智能转换,准确率达到95.5%。  相似文献   

4.
哈萨克语作为新疆少数民族语言之一,其词频统计作为自然语言处理的基础性课题,成为需要迫切解决的问题。基于此,介绍Zapf 定律及哈萨克语词频统计之间的联系。对连续输入哈萨克语字符串进行切分,再输入切分后的哈萨克语词串,由此得到哈萨克语词典。在词典中存储词形不同的哈语词组,以及这些词组出现的频率,并进行哈萨克语的统计实验,结果说明哈萨克语词频之间存在内在联系,同时验证哈萨克词频符合Zapf 的幂率定律。  相似文献   

5.
柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。  相似文献   

6.
在新疆应用的全文检索系统中,需要区分文本的语种。由于国际编码规则的原因,新疆的维吾尔文、哈萨克文、柯尔克孜文借用了阿拉伯语系的部分字母,三种文字的字符集编码有大部分的重叠。本文通过研究三种文字的字符集编码,结合文字组词规则,设计了区分三种语种的算法,为进一步建立索引提供基础。  相似文献   

7.
语言作为交流最基本的方式,在民族的发展过程中起着举足轻重的作用.哈萨克语作为语言的一种,对哈萨克民族的发展起着其应有的作用.但是由于历史的原因,哈萨克语在世界范围内形成了基于同一语言的两种文字形式这种特殊情况.这两种文字形式分别是以阿拉伯文字母为基础的哈萨克阿拉伯文字和以斯拉夫文字母为基础的哈萨克斯拉夫文字.这种特例,为哈萨克族科学技术的发展和文化的交流带来了不便,因此开发和完善哈萨克语这两种文字形式之间的计算机转换系统具有重要意义.本文将介绍用C#编写的哈萨克语的两种文字形式间的计算机自动转换程序,采用机器翻译的方法并在Windows环境下实现哈萨克语的两种文字形式间的智能转换.  相似文献   

8.
由于哈萨克语构词法的特点,九个元音的声频特性在语音识别中具有重要的作用。该文采用实验语音学的基本理论和方法,研究了哈萨克语多音节词中的元音格局。针对从语音库中挑选的1 062个多音节词,分别对其词首、词腹和词尾音节中的元音共振峰频率值进行统计,并采用Joos方法详细地归纳和分析了哈萨克语词首、词腹和词尾音节元音格局以及存在的差异,绘制出了哈萨克语多音节词元音的共振峰模式。该项研究结果对哈萨克语的语音研究及应用具有较高的参考价值。  相似文献   

9.
李灿  杨雅婷  马玉鹏  董瑞 《计算机应用》2021,41(11):3145-3150
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。  相似文献   

10.
由于目前哈萨克语句法分析准确率较低并缺乏基于神经网络的哈萨克语句法分析的相关研究,针对哈萨克语短语结构的句法分析,使用基于移进—归约的方法,采用在栈中存储句子跨度而不是部分树结构,从而在进行句法树解析时不需要对句法树进行二叉化。该研究在句子特征提取时使用双向LSTM对句子跨度特征进行提取,得到句子跨度在整个句子上下文中信息,再使用多层感知机对句法分析模型进行训练,最后在解码时使用动态规划选取最优句法分析结果;最终使得哈萨克语短语句法分析准确率达到了76.92%。研究成果对哈萨克语句法分析准确率有了进一步的提高,并为后续的哈萨克语机器翻译及语义分析奠定良好的基础。  相似文献   

11.
维、哈、柯多文种考试系统的设计   总被引:1,自引:1,他引:0  
少数民族语言文字在数据库中的处理是现代信息处理领域中的非常重大的课题之一。论文分析开发维、哈、柯多文种考试系统的难点和要解决的技术问题,重点讨论新疆交通厅职业技能签定专业理论考试系统维哈柯多文种版的全部开发过程。论文介绍的多文种信息的数据库处理技术将在少数民族语言信息处理研究领域中有普遍的指导意义。  相似文献   

12.
新疆是多民族的自治区,使用的主要民族语言文字有汉语和维吾尔语,考虑到这个特殊性,在深入研究国内优秀远程教学软件的基础上,本文提出了面向新疆双语教学的维汉双语远程教学系统的总体框架,分析了维汉双语远程教学系统的体系结构以及模块功能,论述了该系统主要模块中支持维汉双语、系统界面双语显示与切换等关键技术的实现。  相似文献   

13.
LINUX下维、哈、柯文多语种图形化处理平台的设计与实现   总被引:3,自引:2,他引:3  
针对维吾尔文字、哈萨克文字、柯尔克孜文字(以下简称“维哈柯文”)的特点以及进行维哈柯文、西文等多语种混合处理时的特殊需求,本文通过对Linux的I18N体系中NLS(National Language Support)研究分析,提出了基于Linux的多语种图形化处理平台的设计目标与总体架构。该平台由维哈柯文本地化环境、维哈柯文显示、自适应维哈柯文输入和维哈柯文打印输出等4个子系统的十余个模块组成。本文详细介绍了各子系统主要模块的实现技术。通过在redhat linux 810、turbolinux上测试表明,该平台在桌面环境、编辑软件、网络浏览、数据库软件、多媒体软件、图形处理软件等应用中均能较好的实现维哈柯文、汉文、西文的混合输入、显示、编辑、排版、打印等功能。  相似文献   

14.
该文研究了一种维吾尔语中汉族人名的识别和翻译方法。该方法在词典等传统方法的基础上,运用语言模型实现维语中的汉族人名的识别和翻译。针对维语人名的构词和拼写特点,增加了名词词缀识别预处理模块,补充了维语字母到汉语拼音的映射规则,有效提高了人名识别的正确率及召回率。在1 000句含有汉族人名的维语语料上进行测试,汉族人名识别的正确率和召回率分别达到75.2%和91.5%。  相似文献   

15.
一种基于微结构特征的多文种文本无关笔迹鉴别方法   总被引:4,自引:0,他引:4  
李昕  丁晓青  彭良瑞 《自动化学报》2009,35(9):1199-1208
与字符识别一样, 计算机自动笔迹鉴别是一个涉及到不同文种的研究课题. 本文提出了一种基于网格窗口微结构特征的文本无关的笔迹鉴别方法, 能适用于各种不同文种的笔迹. 该方法对笔迹中局部细微结构的书写变化趋势进行描述, 并采用加权距离度量方法进行笔迹相似性度量. 利用该方法实现了文本无关的多文种笔迹检索系统, 并在实际汉字、英文、藏文和维吾尔文的笔迹库上进行了测试. 实验证明, 该方法是一种高效且适用性较广、限制性较少的笔迹鉴别方法.  相似文献   

16.
随着社会的发展,语言也在不断地发展变化。为了切实掌握维吾尔语当前使用情况,及时把握维吾尔语年度用词的第一手资料,对网络媒体的现代维吾尔语用词进行研究。首先对现代维吾尔语词语的结构进行分析,并给出描述现代维吾尔语词法的结构模型;然后介绍调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法以及统计结果讨论。  相似文献   

17.
以红旗Linux4.0为操作系统平台,以维文为例,讲解民文Linux的实现方案。详细介绍了在系统中添加一个新的locale,以及本地化应用程序的方法。最终实现了中、英、维文在操作系统上的混排。  相似文献   

18.
本文面向维哈柯文自动选择显示字形研究,分析了新疆地区普遍使用的维吾尔、哈萨克文和柯尔克孜文变形显示的特点,简要介绍了最新Open Type 字体技术的结构与操作步骤,基于该字体技术设计了一种通用维哈柯文自动选形引擎,通过分析文字的连接类型,构建自动选形规则库,按照规则绑定字形标签,并应用Open Type 字体解释引擎按照字形标签完成字符替换与置位操作。并且在永中office 维哈柯文版本上实现了该自动选形引擎, 经实际应用测试证明,该字体引擎完全实现了维哈柯文变形显示的要求。  相似文献   

19.
缪成  袁保社  李莉 《计算机应用》2003,23(11):36-38
文中比较了新疆地区广泛使用的雏吾尔、哈萨克、柯尔克孜等少数民族语言与汉语在计算机输入处理方面的差异。提出了一个符合这两种不同语言体系书写规范的输入法系统设计,并给予了实现。这种方案具有开放性、普通适用性和混合输入多种文字的特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号