首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 828 毫秒
1.
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法。它建立在句对的集合表示形式的基础上。通过最小求交模型实现词对齐。使用倒排索引表和集合运算实现高效的最小求交算法。在对齐过程中引入高频干扰词表以提高召回率。实验结果表明,该方法优于使用共现互信息的词对齐和使用双语词典的词对齐方法。  相似文献   

2.
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。  相似文献   

3.
词对齐技术在机器翻译,特别是在统计机器翻译中起着重要作用.词形、语义、句法的多样性和灵活性,未登陆词及分词错误等不利因素,直接或间接影响了词对齐的质量.多策略英汉词对齐方法,融合了基于词典、GIZA++以及基于知网的词对齐方法.通过对双语语料和多策略对齐结果的分析,利用集合形式的运算指导词对齐的消歧过程.实验结果表明,该方法在对齐结果上F值较IBM模型提高近10%,达到了85.07%,对齐错误率降低10%.该方法根据不同算法对齐结果的可靠性和相容性,实现了各种算法的优势互补.  相似文献   

4.
为了提高传统翻译系统翻译质量,提出一种基于多译本平行语料库的英汉智能翻译系统。为实现该系统,首先采用网络爬虫算法对英汉语料进行收集和预处理,搭建出多译本平行语料库;然后采用基于上下文向量的词对齐模型和基于余弦相似度计算方式的段落对齐模型作为系统模型,并构建出基于attention注意力机制-LSTM的翻译系统,最后与基于跨语言词向量和基于IBM模型1的词对齐模型进行对比实验。实验结果表明,三种模型中基于上下文向量的词对齐模型正确率高达90.24%,而其余两种模型正确率仅为62.71%和51.06%,可以证明基于多译本平行语料库的英汉智能翻译系统可以有效提升翻译的正确率,达到了预期的翻译效果,可以运用于英汉智能翻译的工作中。  相似文献   

5.
基于加权二部图的汉日词对齐   总被引:1,自引:0,他引:1  
高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足: 未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。在汉日词语对齐上的实验表明,该方法在一定程度上解决了以上三点不足,F-Score为80%,优于GIZA</sub><sub>++的72%。  相似文献   

6.
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。
  相似文献   

7.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

8.
大规模语音语料库及其在TTS中应用的几个问题   总被引:3,自引:0,他引:3  
首先介绍了大规模语音语料库以及基于大规模语音语料库的文语转换技术的研究现状,接着介绍了一个大规模连续汉语语音语料库的实例Slib的结构和内容;在此基础上,讨论了面向大规模语音语料库的索引技术,提出了语料库检索中的集合运算和最小包容问题,证明了最小包容问题是NP完全的,给出了求解该问题的贪婪算法以及算法的近似比;最后,讨论了基于集合运算的大规模语音语料库的检索技术在文语转换系统中的应用,特别是在基本语言单位实例的选取问题上实现了一种基于最小包容的优化方法,对提高文语转换系统的自然度有实用价值.  相似文献   

9.
平行语料库处理初探:一种排序模型   总被引:1,自引:0,他引:1  
十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法.构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库.目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能.用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括语言模型、长度信息、意义对应等.鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中.文章最后的实验及结果表明本模型具有较好的性能.  相似文献   

10.
为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。  相似文献   

11.
给出判断一个覆盖平面有限点集的圆环达到最窄的一组充分条件,同时指了对于一般的平面有限点集而言其中的一个条件是不可放弃的,这个结果对于解决所谓圆度问题不仅有理论价值,而且有实际实际意义。  相似文献   

12.
胡劲松  郑启伦 《计算机学报》2012,35(2):2193-2201
给出一种新的优化算法:球隙迁移法.该方法不是已有方法的融合或改进,它利用搜索过程中积累的极小点分布信息形成球隙,以此启发、指导后来的搜索区域,不但逃离了当前局部极小,还能有效地避免重复历史上的多个局部极小.目前的智能算法中,勘探和开采行为相耦合,球隙法实现了勘探与开采的分离,避免了相互干扰,减小了代价,对变量耦合对象的优化效果好.文中证明了球隙法能在有限计算次数内确定地找到连续函数的全局最优.  相似文献   

13.
一种基于修正系统预测输出的自适应控制算法   总被引:1,自引:0,他引:1  
本文利用预测误差的历史数据修正系统的预测输出,以抑制模型失配的影响.给出了修正的最小方差调节器和广义最小方差控制器的算法,并分析了所给修正算法能增强系统鲁棒性的机理.仿真结果表明了本算法的有效性.  相似文献   

14.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个基于Web日志文件的关联规则挖掘模块。该系统应能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。为了识别用户浏览模式,实现了利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则,并以文本的形式显示挖掘的结果。  相似文献   

15.
图的Steiner最小树问题是经典的组合优化问题,是一个NP难题,在不同的领域有着广泛的应用。研究该问题的部分数学性质,在此基础上给出了该问题的初步降阶方法和下界子方法,形成一个新的回溯算法。该算法具有较低的时间复杂度,还给出了应用实例及其分析。  相似文献   

16.
针对求解全局优化问题,有很多种求解方法。文中提出了一种快速求解一般无约束最优化问题的辅助函数方法。即F-C函数方法。该方法与填充函数法和跨越函数法相比较,既有相同点又有不同点。F-C函数法最大的优点就是在极小化F-C函数阶段中只需要进行一次局部极小化算法就能得到比当前极小值更低的目标函数局部极小点。文中在无Lipschitz连续的条件下,给出了一类新的求解全局优化问题的F-C函数。文中讨论了该F-C函数的优良性质并对该函数设计了相应的算法。最后,通过数值试验表明该F-C函数方法具有有效性和可行性。  相似文献   

17.
由于考虑的泛函变分形式是非凸性质,向量值图像分割模型的计算结果经常会陷入局部最小值。基于活动轮廓的向量值图像的全局图像分割方法,以新型变分形式将向量值图像分割和图像去噪融入具有全局极小能力泛函框架中。新模型具有容易构造和较少计算量的特点,对比经典的水平集方法,可以避免繁琐的距离重复化水平集过程。通过对人工图像和真实图像进行分析,验证新方法具有更好的图像分割效果。  相似文献   

18.
We address a minimum-time problem that constitutes an extension of the classical Zermelo navigation problem in higher dimensions. In particular, we address the problem of steering a self-propelled particle to a prescribed terminal position with free terminal velocity in the presence of a spatiotemporal flow field. Furthermore, we assume that the norm of the rate of change of the particle's velocity relative to the flow is upper bounded by an explicit upper bound. To address the problem, we first employ Pontryagin's minimum principle to parameterise the set of candidate time-optimal control laws in terms of a parameter vector that belongs to a compact set. Subsequently, we develop a simple numerical algorithm for the computation of the minimum time-to-come function that is tailored to the particular parametrisation of the set of the candidate time-optimal control laws of our problem. The proposed approach bypasses the task of converting the optimal control problem to a parameter optimisation problem, which can be computationally intense, especially when one is interested in characterising the optimal synthesis of the minimum-time problem. Numerical simulations that illustrate the theoretical developments are presented.  相似文献   

19.
祝安  康立山 《计算机工程》2003,29(15):66-67,117
为快速地寻求复杂多峰函数的全局极值点,提出一种冒泡择优遗传算法。它以冒泡的形式让每一代种群中的最优的个体参加列队竞争,以成为局部最优或全局最优。对于达到局部极值的个体,进行湮灭操作,重新进行进化与列队竞争。该算法能自动保持种群多样性且易于实现。实验结果表明,该算法对于求解多峰函数优化的问题十分有效,通常都能找到全部全局最优解。  相似文献   

20.
LR最小替换集求解算法研究   总被引:2,自引:0,他引:2  
文中对D.Maier提出的关于关系数据库中的LR最小集的结构进行了分析,提出了一个比“LR最小集”更为简化的FD集的覆盖-LR最小替换集。给出了一个求LR最小替换集的多项式时间算法。修正了D.Maier在其文中给出的一个FD集为最优覆盖的必要条件。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号