共查询到20条相似文献,搜索用时 0 毫秒
1.
该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻译性能进一步提高。最终,在汉英和英汉翻译任务上,翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。 相似文献
2.
3.
神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。 相似文献
4.
汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果.数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法.由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易.因此,提出一种基于低频词的同义词替换的数据增强方法.该方法利用小规模的平行... 相似文献
5.
基于词类串的汉语句子结构相似度计算方法 总被引:9,自引:1,他引:9
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。 相似文献
6.
7.
大语言模型一般指包含百亿个以上参数的预训练语言模型,通过在大规模语料库上进行训练,大语言模型不仅在自然语言处理问题上表现出色,而且在各个垂直领域中也展现出强大的能力,成为当前人工智能领域的热点研究内容之一。首先,介绍了仅编码器结构、编码器-解码器结构、仅解码器结构大语言模型的发展历程,重点关注相关预训练、适配微调等关键技术。然后,分析了大语言模型在医疗、编程、数据生成等领域的应用现状,以及因模型规模不断扩大而产生的计算资源、模型可解释性等方面的问题。最后,从智能安全的角度出发,探讨了大语言模型强大的文本理解、处理与生成能力在提升网络、交通等领域安全性方面的应用潜力。 相似文献
8.
基于知觉加工模式的发展式分词算法 总被引:2,自引:0,他引:2
危辉 《计算机研究与发展》2001,38(11):1281-1289
分词是自然语言理解的一个重要过程,由于语言问题又是最重要的心理学问题之一,所以从认知心理学和发展心理学的观点出发,将分词问题看成是知觉问题在语言信息处理过程中的一部分,把知觉表达和知觉的双向加工过程引入对分词问题的分析,并同时考虑言语发展的心理过程,把对言语发展规律的归纳作为构造学习算法的基础和模板,以进化的方式来逐步改进自然语言理解系统的性能,从而避免知识获取瓶颈在自然语言理解问题中的出现。 相似文献
9.
10.
11.
12.
13.
人工智能技术因其强大的学习和泛化能力已被广泛应用于各种真实场景中.然而,现有的人工智能技术仍然面临着三大挑战:第一,现有的AI技术使用门槛高,依赖于AI从业者选择合适模型、设计合理参数、编写程序,因此很难被广泛应用到非计算机领域;第二,现有的AI算法训练效率低,造成了大量计算资源的浪费,甚至延误决策时机;第三,现有的A... 相似文献
14.
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。 相似文献
15.
16.
视觉问答中的语言处理方法对视觉问答模型的性能影响巨大。语言处理方法源于自然语言处理,但在发展过程中与自然语言处理领域最先进技术脱节,导致视觉问答中涉及的问题理解和答案生成受阻。产生这一问题的根源主观上是研究人员对语言处理方法的重要性认识不足,客观上则是相关研究文献的匮乏。针对上述问题,通过分析语言处理对视觉问答的价值,调查视觉问答中涉及到的语言处理方法和最新研究成果,归纳总结语言处理方法的类型,从而为研究人员认识语言处理重要性提供基础;探讨了自然语言处理技术对视觉问答中语言处理方法的推动作用,并展望了语言处理方法未来的发展方向。 相似文献
17.
18.
19.
对于语言表达式的组成成分及它们间的关系的刻画,目前大多数语法研究都着重在句法层面,而本文的范畴表达式演算理论则着重在语义层面。我们首先考察了完全表达式与不完全表达式、句法类型与语义类型、继承、顺序、提取、并列等若干重要的语言现象以及各种语法理论对这些现象的解释,然后提出范畴表达式的形式化定义,分析了句法层面的形式约束对语义层面的内容组织的制导作用,并且用典型的语言例子直观的说明了如何利用短语结构制导,进行范畴表达式的演算。这种机制可形式化、可验证,能很好的捕捉语言的组成成分及它们间的相互关系,揭示一个句子所说的内容。 相似文献
20.
面向自然语言信息处理的维吾尔语名词形态分析研究 总被引:2,自引:3,他引:2
名词是人类语言中的基本词类之一。维吾尔语是一种形态变化很复杂的语言,其中名词是一种形态变化复杂的词类。因此名词的形态分析研究无论在语法研究还是在语言信息处理中都非常重要。本文对维吾尔语名词的形态变化(名词的数、人称、格等语法范畴)进行了形式化的描述和分析。指出了维吾尔语名词的基本形态参数,总结出参数的组配规律并统计了其类型,探索了维吾尔语名词的削尾方法。这些工作将为维吾尔语名词形态处理提供有效的方法和新的思路。 相似文献