首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
科学合理的输入码方案对一个输入法至关重要。通过输入码重码量分布和平均码长等量化指标,综合分析比较了蒙古文读音输入法可使用的三类七种输入码方案,提出了以音节为编码单位的支持模糊输入的输入码方案,应用于项目组新版输入法中获得推广普及。试验结果和推广应用经验表明,新输入码方案顺应人的思维和记忆的同时可保证较高的录入速度。  相似文献   

2.
传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息。蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量。因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量。通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点。  相似文献   

3.
哈萨克语作为新疆少数民族语言之一,其词频统计作为自然语言处理的基础性课题,成为需要迫切解决的问题。基于此,介绍Zapf 定律及哈萨克语词频统计之间的联系。对连续输入哈萨克语字符串进行切分,再输入切分后的哈萨克语词串,由此得到哈萨克语词典。在词典中存储词形不同的哈语词组,以及这些词组出现的频率,并进行哈萨克语的统计实验,结果说明哈萨克语词频之间存在内在联系,同时验证哈萨克词频符合Zapf 的幂率定律。  相似文献   

4.
文本检索的统计语言建模方法综述   总被引:2,自引:0,他引:2  
统计语言建模技术(statistical language modeling,SLM)已逐渐成为当前语言信息处理的主流技术之一.近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间.对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术.首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战.  相似文献   

5.
概率统计是针对随机现象统计基本规律进行研究的一门学科,是数学专业所设立的专业基础课程.同样还是一门实践性与理论性非常强的课程.经过数学建模思想与概率统计日常教学的融合,不仅能够激起学生们对于概率统计的学习兴趣,增强其学习的积极性,有利于学生了解与把握相关知识,进而可以使得学生们可以应用数学思维来处理现实生活中所遇到的问题.  相似文献   

6.
该文分析了作战行动建模资源库的特点,确定了基于WEB的分布式作战行动建模资源库系统的体系结构和功能,选取了XML描述资源元数据信息,并提出了基于本体的智能搜索引擎。  相似文献   

7.
现有基于视频帧的车道背景建模方法建模过程较复杂,且易受光照、遮挡等因素的影响。提出一种基于多帧统计的视频车道背景建模方法,通过对多帧视频帧自主统计分析,首先建立无车的全背景图像;然后再次对多帧视频帧进行运动对象的位置统计,最终在全背景图像上获取完整的车道背景图像。该方法能有效确定视频中的背景区域,特别是能明确车道背景区域。算法思想简单,容易实现。实验结果表明该算法具有计算量小、车道检测完整、对光照的变化具有一定的自适应能力等特点。  相似文献   

8.
研究分析目前主流的背景建模方法,并针对动态交通场景中车辆目标持续运动,背景出现的概率较大的特点,提出一种基于彩色视觉信息统计的背景建模算法。实验结果表明,该算法可以较好地提取背景,并有效区分前景和背景。  相似文献   

9.
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法.首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错...  相似文献   

10.
自统计机器翻译技术出现以来,调序一直是语序差异显著的语言对互译系统中的关键问题,基于大规模语料训练的调序方法得到了广泛研究。目前汉蒙双语语料资源十分有限,使得现有的依赖于大规模语料和语言学知识的调序方法难以取得良好效果。该文对已有的相关研究进行了分析,提出了在有限语料条件下的汉蒙统计机器翻译调序方法。该方法依据语言学知识获取对译文语序影响显著的短语类型,研究这些短语类型的调序方案,并融入已有的调序模型实现调序的优化。实验表明该方法在有限语料条件下的效果提升显著。  相似文献   

11.
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。  相似文献   

12.
该文首先分析了蒙古文电子文本中存在的错误类型、出错原因以及常用的查错纠错方法,然后根据蒙古文特有的书写习惯和编码特点提出一种基于不确定有限自动机的校对算法。该算法采用有限自动机的方法对校对算法所依据的知识词典进行描述,大大提高了文本查错和纠错速度。  相似文献   

13.
基于条件随机场的蒙古语词切分研究   总被引:1,自引:1,他引:1  
词干和构形附加成分是蒙古语词的组成成分,在构形附加成分中包含着数、格、体、时等大量语法信息。利用这些语法信息有助于使用计算机对蒙古语进行有效处理。蒙古语词在结构上表现为一个整体,为了利用其中的语法信息需要识别出词干和各构形附加成分。通过分析蒙古语词的构形特点,提出一种有效的蒙古语词标注方法,并基于条件随机场模型构建了一个实用的蒙古语词切分系统。实验表明该系统的词切分准确率比现有蒙古语词切分系统的准确率有较大提高,达到了0.992。  相似文献   

14.
在资源相对匮乏的自动语音识别(Automatic speech recognition, ASR)领域, 如面向电话交谈的语音识别系统中, 统计语言模型(Language model, LM)存在着严重的数据稀疏问题. 本文提出了一种基于等概率事件的采样语料生成算法, 自动生成领域相关的语料, 用来强化统计语言模型建模. 实验结果表明, 加入本算法生成的采样语料可以缓解语言模型的稀疏性, 从而提升整个语音识别系统的性能. 在开发集上语言模型的困惑度相对降低7.5%, 字错误率(Character error rate, CER)绝对降低0.2个点; 在测试集上语言模型的困惑度相对降低6%, 字错误率绝对降低0.4点.  相似文献   

15.
研究统计语言模型中bigram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出一种利用词对及词序信息来改善文本分类结果的方法。实验结果表明该方法是可行且有效的。  相似文献   

16.
蒙古文整词编码研究   总被引:4,自引:2,他引:2  
作者基于蒙古文黏着记录其词汇方式和按书面音节拼读书写整词规则,提出了蒙古文整词编码方法。本文依据可计算性理论,提出了拼音文字非键盘映射编码方法,将整词编码分为输写码与计算码。整词输写码设计模仿传统蒙古文整词固有拼读书写规则,达到了最佳人机键盘交互目的。整词计算码既可载荷整词复杂特征知识信息、又可保证信息的可计算性,从而为蒙古文整词复杂特征合一计算和并行处理奠定了可行性科学基础。  相似文献   

17.
蒙古文整词计算机生成理论研究   总被引:1,自引:0,他引:1  
采用面向对象方法,模拟传统蒙古文整词各种形式构成机理,提出了几种蒙古语整词计算机生成数据模型。文章主要依据整词计算机生成三种模型,探讨了传统蒙古文整词计算机最优化生成理论所涉及的精确度、时间复杂度、空间复杂度三项基本要素以及最优化生成必须考虑的整词复杂特征载荷与一体化合一计算知识表示方法和计算结构,证明了“B - J - T= W”数据模型是传统蒙古文整词计算与生成最优化对象模型。  相似文献   

18.
张仰森 《计算机科学》2009,36(10):222-224
统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号