首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
该文介绍了一个新的汉英词语对齐规范。该规范以现有的LDC汉英词语对齐规范为基础,对其进行了较大的改进和扩展,特别是提出了一种全新的对齐标注方法 —— 将词语对齐区分为真对齐和伪对齐,真对齐又分为强对齐和弱对齐。这种细化的标注方法能够更好地刻画词语对齐的特点。该规范已经实际应用于大规模的人工词语对齐标注中。我们对对齐标注的一致性进行了评价。结果表明,在该规范的指导下,标注者内部和标注者间的对齐都取得了比较理想的一致性,两组强、弱、伪三种对齐的Kappa值分别为0.99、0.98、0.93 和0.96、0.83、0.68。最后,一个简单的实验初步证实了该规范在统计机器翻译中的有效性。  相似文献   

2.
基于双语词典的汉英词语对齐算法研究   总被引:1,自引:0,他引:1  
邓丹  刘群  俞鸿魁 《计算机工程》2005,31(16):45-47
研究利用多部人读双语词典扩充双语词典的规模来改善词语对齐质量。介绍了一个在Ker算法基础上用双语词典进行汉英词语对齐的算法。提出了对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对多的词语对应。  相似文献   

3.
该文在基本隐马尔克夫模型的基础之上,利用句法知识来改进词语对齐,把英语的短语结构树距离和基本隐马尔克夫模型相结合进行词语对齐。与基本隐马尔克夫模型相比,这个模型可以降低词语对齐的错误率,并且提高统计机器翻译系统BLEU值,从而提高机器翻译质量。  相似文献   

4.
词对齐是自然语言处理领域的基础性研究课题之一。文中提出基于链式条件随机场(CRF)判别式模型的蒙古文-英文词对齐方法。该方法根据蒙古文和英文之间的差异,选择词形、词汇、词性等信息作为特征,建立双层CRF词对齐模型:在第1层利用CRF模型实现子块的对齐;在第2层利用CRF模型得到块内词之间的对齐结果。通过人工构建的词对齐语料开展相应实验。实验结果表明,该方法有效提高蒙英词对齐质量。  相似文献   

5.
提出一种减少阶梯现象的图像分解模型。该模型所表示的结构成分的能量介于全变差正则化和各向同性光滑化之间,纹理成分所表示的能量介于Meyer的G范数和H-1范数之间,它们在Legendre-Fenchel变换的意义下是对偶的,根据图像的局部信息自适应地调整。实验表明,新模型能很好地避免在光滑区域出现的阶梯现象,有效保护图像的边缘和纹理信息。  相似文献   

6.
7.
为了减弱充电速率的时间可变性对能量收集传感器网络的影响,文中提出一种基于高效对偶分解和次梯度策略的算法Quick-Fix来计算数据采样率和路由;另外,为了应对因充电率发生波动所造成的电池断电、溢出、采样丢失和能量收集机会丢失等情况,提出一种本地算法SnapIt,通过对采集率进行调节以维持电池电量在目标水平上;基于TOSSIM模拟器的性能评估表明,联合QuickFix和SnapIt可跟踪网络瞬时最优效用,同时维持电池电量处于目标水平;与基于余压的IFRC相比,文中方法使总体数据速率平均提升42%,同时显著提升了网络效用.  相似文献   

8.
刁鹏飞  李树森  姜雪松 《控制与决策》2021,36(12):2910-2918
为提高算法求解动态多目标问题的寻优性能,提出一种多种群分解预测动态多目标算法.首先,提出进化向量生成策略,即基于偏好目标的解生成一组均匀分布的平行向量,并采用引力搜索算法优化每个子问题,保证其对应解的精度和分布的均匀性;其次,设计插值生成策略,即根据进化向量子问题的解在目标空间中的取值,通过线性插值的方式生成更多非支配解,保证解集的多样性和均匀性;再次,在环境变化后,根据相邻子问题的解存在相近性预测生成搜索种群,提高算法的寻优速度.与5个对比算法在10个标准动态测试函数上进行对比分析,实验结果表明采用所提出算法求解动态多目标问题具有较好的分布性和收敛性.  相似文献   

9.
李平  林亚平  吴佳英 《计算机工程》2008,34(21):150-152
无线传感器网络中基于规则网络的密钥预置方案具有预置开销小、寻径快等特点,但这类方案直接对偶密钥建立的概率较低。该文基于已经存在的节点连通集团,针对传感器网络对偶密钥连通图,提出层次连通框架,定义节点层次连通度,给出节点本地搜索算法。仿真结果表明该算法能提高节点的平均密钥连通度。  相似文献   

10.
叶军  金忠 《计算机科学》2017,44(7):309-314
针对概念分解算法没有同时考虑数据空间和特征属性空间中的高阶几何结构信息的问题,提出了一种基于对偶超图正则化的概念分解算法。该算法通过分别在数据空间和特征属性空间中构建无向加权的拉普拉斯超图正则项,分别反映了数据流形和特征流形的多元几何结构信息,弥补了传统图模型只能表达数据间成对关系的缺陷。采用交替迭代的方法求解算法的目标函数并证明了算法的收敛性。在3个真实数据库(TDT2、PIE、COIL20)上的实验表明,该方法在数据的聚类表示的效果方面优于其他方法。  相似文献   

11.
本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁-音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构词粒度分词的F值最高,为91.21%;在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分,最终分词结果的F值达到96.25%。  相似文献   

12.
The purpose of this paper is to provide guidelines for building a word alignment evaluation scheme. The notion of word alignment quality depends on the application: here we review standard scoring metrics for full text alignment and give explanations on how to use them better. We discuss strategies to build a reference corpus, and show that the ratio between ambiguous and unambiguous links in the reference has a great impact on scores measured with these metrics. In particular, automatically computed alignments with higher precision or higher recall can be favoured depending on the value of this ratio. Finally, we suggest a strategy to build a reference corpus particularly adapted to applications where recall plays a significant role, like in machine translation. The manually aligned corpus we built for the Spanish-English European Parliament corpus is also described. This corpus is freely available.  相似文献   

13.
在传统的机器翻译(machine translation,MT)与计算机辅助翻译(computer aided translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(interactive machine translation,IMT)技术。但传统的模型只考虑当前源语与部分翻译的目标语的信息,没有将用户交互后的对齐信息加入到之后的预测模型中。该文基于词预测交互式机器翻译的研究思路,将用户交互翻译过程中的鼠标点选行为转化为中间译文的词对齐信息,进而在翻译交互过程中实现了对译文的动态词对齐标注,并在词对齐信息和输入译文的约束下提高了传统词预测的准确性。  相似文献   

14.
中文信息检索引擎中的分词与检索技术   总被引:32,自引:2,他引:32  
吴栋  滕育平 《计算机应用》2004,24(7):128-131
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。  相似文献   

15.
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。
  相似文献   

16.
蒙古语属于小语种,蒙古语到汉语机器翻译相关研究进展缓慢。所以,实现高质量的蒙汉机器翻译对我国少数民族地区信息化发展有着重要意义。其中,词语对齐对机器翻译质量起着至关重要的作用。该文提出了一种基于蒙古语切分的词干词缀为基本单位的蒙汉机器翻译词对齐方法。该方法利用词干词缀表和逆向最大匹配算法来实现蒙古语句子词干词缀的切分。实验结果表明对蒙古语进行词干词缀的切分能够显著提高对数线性词对齐模型的对齐质量。  相似文献   

17.
提出一种基于查询词邻近度的专家搜索算法。根据查询词在窗口中的共现关系构建概率语言模型的查询词邻近度,利用经典概率模型作为背景平滑,通过对多个查询词在文档中的距离关系建模,结合候选人与查询词之间的距离对候选专家排序。实验结果表明,在该算法中引入查询词邻近度可以提高搜索准确率,应用候选人与查询词2种邻近度可以取得更好的专家搜索效果。  相似文献   

18.
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法。它建立在句对的集合表示形式的基础上。通过最小求交模型实现词对齐。使用倒排索引表和集合运算实现高效的最小求交算法。在对齐过程中引入高频干扰词表以提高召回率。实验结果表明,该方法优于使用共现互信息的词对齐和使用双语词典的词对齐方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号