首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
词语对齐旨在计算平行文本中词语之间的对应关系,对机器翻译、双语词典构造等多项自然语言处理任务都具有重要的影响。虽然近年来词语对齐在建模和训练算法方面取得了显著的进展,但搜索算法往往都采用简单的贪心策略,面临着搜索错误较大的问题。该文提出了一种基于对偶分解的词语对齐搜索算法,将复杂问题分解为两个相对简单的子问题,迭代求解直至收敛于最优解。由于对偶分解能够保证求解的收敛性和最优性,该文提出的搜索算法在2005年度863计划词语对齐评测数据集上显著超过GIZA++和判别式词语对齐系统,对齐错误率分别降低4.2%和1.1%。  相似文献   

2.
基于隐马尔克夫模型的现代汉语句法分析   总被引:2,自引:0,他引:2  
该文以小学生语文课本7万真实语料为基础,建立了一个基于隐马尔可夫模型的现代汉语完全句法分析模型。实验结果表明,该模型具有一定的创新性和高效性,其句法分析完全正确率在封闭测试中可达92.43%,在开放测试中达到65.374%。  相似文献   

3.
基于双语词典的汉英词语对齐算法研究   总被引:1,自引:0,他引:1  
邓丹  刘群  俞鸿魁 《计算机工程》2005,31(16):45-47
研究利用多部人读双语词典扩充双语词典的规模来改善词语对齐质量。介绍了一个在Ker算法基础上用双语词典进行汉英词语对齐的算法。提出了对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对多的词语对应。  相似文献   

4.
论述一种新的人脸对齐的算法——改进的贝叶斯切线模型。该算法从形状参数中分离出姿态参数和身份属性参数,对这2个参数分别处理,通过引入曲率半径作为该特征点搜索的像素个数实现动态搜索。实验表明,该算法可以弥补BTSM不能很好处理多姿态的人脸图像对齐的缺陷,提高搜索精度,减少搜索时间。  相似文献   

5.
对称是自然界大多数模型具有的一种特征属性.针对三维模型坐标归一化过程中模型的对齐问题,提出了一种结合局部对称的三维模型对齐方法.通过三维模型的CPCA坐标轴确立其初始姿态,提出局部对称长度比来度量三维模型的局部对称性.以此为依据将三维模型分成两类,对于具有大于或等于2个局部对称平面的三维模型,利用最大局部对称长度比来确立最终姿态;对于仅有1个或没有局部对称平面的三维模型,通过面积替换质量,将模型达到力矩平衡时的姿态确立为最终姿态.算法既考虑到了模型的对称性质,又考虑了非对称模型的处理.实验结果显示了算法的有效性.  相似文献   

6.
一种基于奇异值分解和隐马尔可夫模型的人脸识别方法   总被引:23,自引:0,他引:23  
提出了一种新的基于隐马尔可夫模型的人脸识别方法,这种方法采用奇异值分解抽取人脸图像特征作为观察序列,减少了数据的存储量和计算量,并提高了识别率,实验结果同其它两种基于隐马尔可夫模型的方法进行了比较。  相似文献   

7.
隐变量模型是一类有效的降维方法,但是由非线性核映射建立的隐变量模型不能保持数据空间的局部结构。为了克服这个缺点,文中提出一种保持数据局部结构的隐变量模型。该算法充分利用局部保持映射的保局性质,将局部保持映射的目标函数作为低维空间中数据的先验信息,对高斯过程隐变量中的低维数据进行约束,建立局部保持的隐变量。实验结果表明,相比原有的高斯过程隐变量,文中算法较好地保持数据局部结构的效果。  相似文献   

8.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

9.
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。  相似文献   

10.
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。  相似文献   

11.
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法。它建立在句对的集合表示形式的基础上。通过最小求交模型实现词对齐。使用倒排索引表和集合运算实现高效的最小求交算法。在对齐过程中引入高频干扰词表以提高召回率。实验结果表明,该方法优于使用共现互信息的词对齐和使用双语词典的词对齐方法。  相似文献   

12.
基于HMM的联机汉字识别系统及其改进的训练方法   总被引:5,自引:1,他引:4  
本文描述了一个基于HMM模型的联机汉字识别系统的设计思想与实现方法。系统以联机汉字的笔段序列作为观察序列,采用带有多跨越的模型结构消除自由书写汉字笔段序列的冗余与丢失问题。HMM模型的训练是本系统设计的一个重要问题,针对复杂HMM模型参数训练容易收敛于局部最小的情况,本文结合联机汉字识别的特点,提出了一种利用“引导模型”进行训练的改进方法,避免了训练过程收敛于局部最小点的发生。经过大量样本的训练,本系统对规范书写汉字和自由书写汉字均取得了比较令人满意的结果。  相似文献   

13.
一种改进的隐马尔可夫模型在语音识别中的应用   总被引:1,自引:0,他引:1  
提出了一种新的马尔可夫模型——异步隐马尔可夫模型.该模型针对噪音环境下语音识别过程中出现丢失帧的情况,通过增加新的隐藏时间标示变量Ck,估计出实际观察值对应的状态序列,实现对不规则或者不完整采样数据的建模.详细介绍了适合异步HMM的前后向算法以及用于训练的EM算法,并且对转移矩阵的计算进行了优化.最后通过实验仿真,分别使用经典HMM和异步HMM对相同的随机抽取帧的语音数据进行识别,识别结果显示在抽取帧相同情况下异步HMM比经典HMM的识别错误率低.  相似文献   

14.
基于词语距离的网络图词义消歧   总被引:1,自引:1,他引:0  
杨陟卓  黄河燕 《软件学报》2012,23(4):776-785
传统的基于知识库的词义消歧方法,以一定窗口大小下的词语作为背景,对歧义词词义进行推断.该窗口大小下的所有词语无论距离远近,都对歧义词的词义具有相同的影响,使词义消歧效果不佳.针对此问题,提出了一种基于词语距离的网络图词义消歧模型.该模型在传统的网络图词义消歧模型的基础上,充分考虑了词语距离对消歧效果的影响.通过模型重构、优化改进、参数估计以及评测比较,论证了该模型的特点:距离歧义词较近的词语,会对其词义有较强的推荐作用;而距离较远的词,会对其词义有较弱的推荐作用.实验结果表明,该模型可以有效提高中文词义消歧性能,与SemEval-2007:task#5最好的成绩相比,该方法在MacroAve(macro-average accuracy)上提高了3.1%.  相似文献   

15.
在传统的机器翻译(machine translation,MT)与计算机辅助翻译(computer aided translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(interactive machine translation,IMT)技术。但传统的模型只考虑当前源语与部分翻译的目标语的信息,没有将用户交互后的对齐信息加入到之后的预测模型中。该文基于词预测交互式机器翻译的研究思路,将用户交互翻译过程中的鼠标点选行为转化为中间译文的词对齐信息,进而在翻译交互过程中实现了对译文的动态词对齐标注,并在词对齐信息和输入译文的约束下提高了传统词预测的准确性。  相似文献   

16.
全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model, HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。  相似文献   

17.
中文分词是中文信息处理的基础。基于二元统计的HMM中文分词算法表现良好,但也存在易将包含常用介、副词的词进行误拆分的问题。改进的分词算法运用逆向最大匹配的思想,在计算粗分集权重的过程中,考虑了分词的词长及词序对正确切分的有利影响。该算法首先计算出二元统计粗分模型有向边的权值,然后根据词长修定权值,最后运用最短路径法求出分词结果。实验结果表明,该算法有效的解决了过分拆分的问题,分词效果良好。  相似文献   

18.
GloVe模型是一种广泛使用的词向量表示学习的模型.许多研究发现,学习得到的词向量维数越大,性能越好;但维数越大,模型学习耗时越长.事实上,GloVe模型中,耗时主要表现在两方面,一是统计词对共现矩阵,二是训练学习词向量表示.该文在利用GloVe模型统计语料中词对共现时,基于对称或非对称窗口得到两个共现矩阵,然后分别学...  相似文献   

19.
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号