共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息。蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量。因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量。通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点。 相似文献
3.
4.
文本检索的统计语言建模方法综述 总被引:2,自引:0,他引:2
统计语言建模技术(statistical language modeling,SLM)已逐渐成为当前语言信息处理的主流技术之一.近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间.对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术.首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战. 相似文献
5.
概率统计是针对随机现象统计基本规律进行研究的一门学科,是数学专业所设立的专业基础课程.同样还是一门实践性与理论性非常强的课程.经过数学建模思想与概率统计日常教学的融合,不仅能够激起学生们对于概率统计的学习兴趣,增强其学习的积极性,有利于学生了解与把握相关知识,进而可以使得学生们可以应用数学思维来处理现实生活中所遇到的问题. 相似文献
6.
该文分析了作战行动建模资源库的特点,确定了基于WEB的分布式作战行动建模资源库系统的体系结构和功能,选取了XML描述资源元数据信息,并提出了基于本体的智能搜索引擎。 相似文献
7.
《计算机应用与软件》2013,(5)
现有基于视频帧的车道背景建模方法建模过程较复杂,且易受光照、遮挡等因素的影响。提出一种基于多帧统计的视频车道背景建模方法,通过对多帧视频帧自主统计分析,首先建立无车的全背景图像;然后再次对多帧视频帧进行运动对象的位置统计,最终在全背景图像上获取完整的车道背景图像。该方法能有效确定视频中的背景区域,特别是能明确车道背景区域。算法思想简单,容易实现。实验结果表明该算法具有计算量小、车道检测完整、对光照的变化具有一定的自适应能力等特点。 相似文献
8.
研究分析目前主流的背景建模方法,并针对动态交通场景中车辆目标持续运动,背景出现的概率较大的特点,提出一种基于彩色视觉信息统计的背景建模算法。实验结果表明,该算法可以较好地提取背景,并有效区分前景和背景。 相似文献
9.
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法.首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错... 相似文献
10.
11.
12.
该文首先分析了蒙古文电子文本中存在的错误类型、出错原因以及常用的查错纠错方法,然后根据蒙古文特有的书写习惯和编码特点提出一种基于不确定有限自动机的校对算法。该算法采用有限自动机的方法对校对算法所依据的知识词典进行描述,大大提高了文本查错和纠错速度。 相似文献
13.
14.
在资源相对匮乏的自动语音识别(Automatic speech recognition, ASR)领域, 如面向电话交谈的语音识别系统中, 统计语言模型(Language model, LM)存在着严重的数据稀疏问题. 本文提出了一种基于等概率事件的采样语料生成算法, 自动生成领域相关的语料, 用来强化统计语言模型建模. 实验结果表明, 加入本算法生成的采样语料可以缓解语言模型的稀疏性, 从而提升整个语音识别系统的性能. 在开发集上语言模型的困惑度相对降低7.5%, 字错误率(Character error rate, CER)绝对降低0.2个点; 在测试集上语言模型的困惑度相对降低6%, 字错误率绝对降低0.4点. 相似文献
15.
研究统计语言模型中bigram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出一种利用词对及词序信息来改善文本分类结果的方法。实验结果表明该方法是可行且有效的。 相似文献
16.
17.
蒙古文整词计算机生成理论研究 总被引:1,自引:0,他引:1
采用面向对象方法,模拟传统蒙古文整词各种形式构成机理,提出了几种蒙古语整词计算机生成数据模型。文章主要依据整词计算机生成三种模型,探讨了传统蒙古文整词计算机最优化生成理论所涉及的精确度、时间复杂度、空间复杂度三项基本要素以及最优化生成必须考虑的整词复杂特征载荷与一体化合一计算知识表示方法和计算结构,证明了“B - J - T= W”数据模型是传统蒙古文整词计算与生成最优化对象模型。 相似文献
18.
统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量。 相似文献