期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李强韩雅倩肖桐朱靖波《中文信息学报》2018,32(8):42-52

该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻译性能进一步提高。最终,在汉英和英汉翻译任务上,翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。相似文献

2.

基于数据增强技术的神经机器翻译

蔡子龙杨明明熊德意《中文信息学报》2018,32(7):30-36

神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模只有10万平行句对时,相较于基准系统,在两种语言对上均获得了4个BLEU值的提高。实验表明,数据增强技术可以有效地解决神经机器翻译因为训练数据太少而导致的泛化能力不足问题。相似文献

3.

基于数据扩充的翻译记忆库与神经机器翻译融合方法

曹骞熊德意《中文信息学报》2020,34(5):36-43

神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。相似文献

4.

基于同义词数据增强的汉越神经机器翻译方法

尤丛丛高盛祥余正涛毛存礼潘润海《计算机工程与科学》2021,43(8):1497-1502

汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果.数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法.由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易.因此,提出一种基于低频词的同义词替换的数据增强方法.该方法利用小规模的平行... 相似文献

5.

基于词类串的汉语句子结构相似度计算方法 总被引：9，自引：1，他引：9

王荣波池哲儒《中文信息学报》2005,19(1):22-30

句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。相似文献

6.

SC文法功能体系 总被引：18，自引：0，他引：18

陈肇雄《计算机学报》1992,15(11):801-808

文法体系的研究一直是自然语言处理研究的核心问题之一.但是,由于自然语言本身所固有的复杂性和非规范性,多义问题始终未能得到圆满的解决.本文提出了SC文法(A SubCategory grammar for integrating Se-mantic and Case analysis),它是一种基于传统的上下文无关文法、语义文法,以及超前与反馈分析技术和格框架约束分析等技术的上下文相关处理文法.该文法不仅能继承传统的上下文无关文法的表示简洁、处理方便的特点,而且能实现语法和语义一体化分析和处理上下文相关以及复杂多义问题. 相似文献

7.

大语言模型研究综述及在安全领域应用展望

下载免费PDF全文

张烨聂一鸣《智能安全》2023,2(4):100-112

大语言模型一般指包含百亿个以上参数的预训练语言模型,通过在大规模语料库上进行训练,大语言模型不仅在自然语言处理问题上表现出色,而且在各个垂直领域中也展现出强大的能力,成为当前人工智能领域的热点研究内容之一。首先,介绍了仅编码器结构、编码器-解码器结构、仅解码器结构大语言模型的发展历程,重点关注相关预训练、适配微调等关键技术。然后,分析了大语言模型在医疗、编程、数据生成等领域的应用现状,以及因模型规模不断扩大而产生的计算资源、模型可解释性等方面的问题。最后,从智能安全的角度出发,探讨了大语言模型强大的文本理解、处理与生成能力在提升网络、交通等领域安全性方面的应用潜力。相似文献

8.

基于知觉加工模式的发展式分词算法 总被引：2，自引：0，他引：2

危辉《计算机研究与发展》2001,38(11):1281-1289

分词是自然语言理解的一个重要过程,由于语言问题又是最重要的心理学问题之一,所以从认知心理学和发展心理学的观点出发,将分词问题看成是知觉问题在语言信息处理过程中的一部分,把知觉表达和知觉的双向加工过程引入对分词问题的分析,并同时考虑言语发展的心理过程,把对言语发展规律的归纳作为构造学习算法的基础和模板,以进化的方式来逐步改进自然语言理解系统的性能,从而避免知识获取瓶颈在自然语言理解问题中的出现。相似文献

9.

多文档自动文摘综述 总被引：18，自引：9，他引：18

秦兵刘挺李生《中文信息学报》2005,19(6):15-20,56

多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术。随着互联网上信息的日益丰富,多文档文摘技术成为新的研究热点。本文介绍了多文档文摘的产生和应用背景,阐述了多文档文摘和其他自然语言处理技术的关系,对多文档文摘国内外研究现状进行了分析,在此基础上汇总提出了多文档文摘研究的基本路线及关键技术,并总结了多文档文摘的未来及发展趋势。相似文献

10.

支撑机器学习的数据管理技术综述

崔建伟赵哲杜小勇《软件学报》2021,32(3):604-621

应用驱动创新,数据库技术就是在支持主流应用的提质降本增效中发展起来的.从OLTP、OLAP到今天的在线机器学习建模无不如此.机器学习是当前人工智能技术落地的主要途径,通过对数据进行建模而提取知识、实现预测分析.从数据管理的视角对机器学习训练过程进行解构和建模,从数据选择、数据存储、数据存取、自动优化和系统实现等方面,综... 相似文献

11.

语言工程的软件体系结构研究综述

冯冲陈肇雄黄河燕《中文信息学报》2004,18(6):54-60,72

语言工程的软件体系结构已经逐渐发展成为语言工程的主要研究领域之一。它面向通用的自然语言应用,为其提供架构层次的参考方案。研究内容涵盖与体系结构相关的计算资源、语言资源、方法和应用等多个方面。在一定意义上,可以把它看作是在语言工程领域内的特定领域软件体系结构(DSSA)。本文概要介绍了该领域的发展历程和研究意义,然后对其基本概念和当前主要研究进展进行了阐述和分析,并展望了进一步的发展趋势。相似文献

12.

记忆神经网络的研究与发展 总被引：1，自引：0，他引：1

梁天新杨小平王良张永俊朱艳丽许翠《软件学报》2017,28(11):2905-2924

首先,根据记忆神经网络训练形式的不同,介绍了强监督模型和弱监督模型的结构特征和各自应用场景以及处理方式,总结了两类主要模型的优缺点;随后,对两类模型的发展和应用（包括模型创新和应用创新）进行了简要综述,总结了各类新模型在处理自然语言过程中所起的关键作用;最后梳理了记忆神经网络处理自然语言所面临的复杂性挑战,并预测了记忆神经网络未来的发展方向. 相似文献

13.

面向AI的数据管理技术综述

李国良周煊赫《软件学报》2021,32(1):21-40

人工智能技术因其强大的学习和泛化能力已被广泛应用于各种真实场景中.然而,现有的人工智能技术仍然面临着三大挑战:第一,现有的AI技术使用门槛高,依赖于AI从业者选择合适模型、设计合理参数、编写程序,因此很难被广泛应用到非计算机领域;第二,现有的AI算法训练效率低,造成了大量计算资源的浪费,甚至延误决策时机;第三,现有的A... 相似文献

14.

文本摘要常用数据集和方法研究综述

侯圣峦张书涵费超群《中文信息学报》2019,33(5):1-16

文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。相似文献

15.

融合单语语言模型的汉越伪平行语料生成

贾承勋赖华余正涛文永华于志强《计算机应用》2021,41(6):1652-1658

神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳.目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据.考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语... 相似文献

16.

视觉问答语言处理方法综述

下载免费PDF全文

王瑞平吴士泓张美航王小平《计算机工程与应用》2022,58(17):50-60

视觉问答中的语言处理方法对视觉问答模型的性能影响巨大。语言处理方法源于自然语言处理,但在发展过程中与自然语言处理领域最先进技术脱节,导致视觉问答中涉及的问题理解和答案生成受阻。产生这一问题的根源主观上是研究人员对语言处理方法的重要性认识不足,客观上则是相关研究文献的匮乏。针对上述问题,通过分析语言处理对视觉问答的价值,调查视觉问答中涉及到的语言处理方法和最新研究成果,归纳总结语言处理方法的类型,从而为研究人员认识语言处理重要性提供基础;探讨了自然语言处理技术对视觉问答中语言处理方法的推动作用,并展望了语言处理方法未来的发展方向。相似文献

17.

人工智能语言处理技术在非结构化案件数据中的应用 总被引：1，自引：0，他引：1

罗冬梅刘瑞军林锡平《计算机系统应用》2021,30(4):234-240

随着信息技术的快速发展,以文本、音频形式记录在案的非结构化数据急速增长,传统的案件人工处理方式已经很难满足应用需求,对公安机关案件侦查带来了重大挑战.对此,本文提出了利用人工智能技术领域的自然语言处理技术,对侵财类案件、电信诈骗类案件、团伙类案件等业务类型的信息系统中报警内容、简要案情、询问笔录等特征信息进行提取分析,... 相似文献

18.

隐喻自动处理研究进展

贾玉祥俞士汶朱学锋《中文信息学报》2009,23(6):46-56

隐喻在人类语言中普遍存在,是自然语言理解必须面对的问题。该文首先探讨了对隐喻的认识及语言中隐喻表达的分类。把隐喻自动处理分为隐喻识别、隐喻理解和隐喻生成三个子任务,对以往的研究成果进行梳理,着重介绍近几年来隐喻自动处理研究的新成果、新特点。隐喻自动处理离不开隐喻知识库的支持,文章也介绍了国内外隐喻知识库建设的主要成果。隐喻自动处理的目的是为了提高自然语言处理的智能化水平,文章探讨了隐喻处理在自然语言处理任务中的应用。最后展望了汉语隐喻自动处理研究的前景。相似文献

19.

短语结构制导的范畴表达式演算

赵章界白硕《中文信息学报》2005,19(2):13-20

对于语言表达式的组成成分及它们间的关系的刻画,目前大多数语法研究都着重在句法层面,而本文的范畴表达式演算理论则着重在语义层面。我们首先考察了完全表达式与不完全表达式、句法类型与语义类型、继承、顺序、提取、并列等若干重要的语言现象以及各种语法理论对这些现象的解释,然后提出范畴表达式的形式化定义,分析了句法层面的形式约束对语义层面的内容组织的制导作用,并且用典型的语言例子直观的说明了如何利用短语结构制导,进行范畴表达式的演算。这种机制可形式化、可验证,能很好的捕捉语言的组成成分及它们间的相互关系,揭示一个句子所说的内容。相似文献

20.

面向自然语言信息处理的维吾尔语名词形态分析研究 总被引：2，自引：3，他引：2

阿依克孜·卡德尔开沙尔·卡德尔吐尔根·依布拉音《中文信息学报》2006,20(3):45-48,98

名词是人类语言中的基本词类之一。维吾尔语是一种形态变化很复杂的语言,其中名词是一种形态变化复杂的词类。因此名词的形态分析研究无论在语法研究还是在语言信息处理中都非常重要。本文对维吾尔语名词的形态变化(名词的数、人称、格等语法范畴)进行了形式化的描述和分析。指出了维吾尔语名词的基本形态参数,总结出参数的组配规律并统计了其类型,探索了维吾尔语名词的削尾方法。这些工作将为维吾尔语名词形态处理提供有效的方法和新的思路。相似文献