首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。  相似文献   

2.
随着人们对互联网多语言信息需求的日益增长,跨语言词向量已成为一项重要的基础工具,并成功应用到机器翻译、信息检索、文本情感分析等自然语言处理领域。跨语言词向量是单语词向量的一种自然扩展,词的跨语言表示通过将不同的语言映射到一个共享的低维向量空间,在不同语言间进行知识转移,从而在多语言环境下对词义进行准确捕捉。近几年跨语言词向量模型的研究成果比较丰富,研究者们提出了较多生成跨语言词向量的方法。该文通过对现有的跨语言词向量模型研究的文献回顾,综合论述了近年来跨语言词向量模型、方法、技术的发展。按照词向量训练方法的不同,将其分为有监督学习、无监督学习和半监督学习三类方法,并对各类训练方法的原理和代表性研究进行总结以及详细的比较;最后概述了跨语言词向量的评估及应用,并分析了所面临的挑战和未来的发展方向。  相似文献   

3.
在互联网数据急剧扩张和深度学习技术高速发展的背景下,自动文本摘要任务作为自然语言处理领域的主要研究方向之一,其相关技术及应用被广泛研究。基于摘要任务深化研究需求,以研究过程中存在的关键问题为导向,介绍现有基于深度学习的生成式文本摘要模型,简述定义及来源、数据预处理及基本框架、常用数据集及评价标准等,指出发展优势和关键问题,并针对关键问题阐述对应的可行性解决方案。对比常用的深度预训练模型和创新方法融合模型,分析各模型的创新性和局限性,提出对部分局限性问题的解决思路。进一步地,对该技术领域的未来发展方向进行展望总结。  相似文献   

4.
自动术语抽取研究综述   总被引:1,自引:0,他引:1  
张雪  孙宏宇  辛东兴  李翠平  陈红 《软件学报》2020,31(7):2062-2094
自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.本文以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕“浅层语言分析”中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望.  相似文献   

5.
实体分辨广泛地存在于数据质量控制、信息检索、数据集成等数据任务中.传统的实体分辨主要面向关系型数据,而随着大数据技术的发展,文本、图像等模态不同的数据大量涌现催生了跨模态数据应用需求,将跨模态数据实体分辨提升为大数据处理和分析的基础问题之一.对跨模态实体分辨问题的研究进展进行回顾,首先介绍问题的定义、评价指标;然后,以模态内关系的保持和模态间关系的建立为主线,对现有研究进行总结和梳理;并且,通过在多个公开数据集上对常用方法进行测试,对出现差异的原因和进行分析;最后,总结当前研究仍然存在的问题,并依据这些问题给出未来可能的研究方向.  相似文献   

6.
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段,也是人工智能领域研究的热点和难点之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。近年来语言模型的预处理提高了许多自然语言处理任务的技术水平,包括情感分析、问答、自然语言推理、命名实体识别和文本相似性、文本摘要。本文梳理文本摘要以往的经典方法和近几年的基于预训练的文本摘要方法,并对文本摘要的数据集以及评价方法进行整理,最后总结文本摘要目前面临的挑战与发展趋势。  相似文献   

7.
近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。  相似文献   

8.
深度学习的快速发展使计算机视觉技术应用越来越广泛,同时利用深度神经网络根据破损图像的已知信息对图像复原的修复技术成为关注的热点。对近年基于深度神经网络的图像修复方法进行了综述和分析:按照模型优化的方向,对图像修复方法进行分类综述;介绍了图像修复常用的数据集和性能评价指标,并在相关数据集上对各种基于深度神经网络的破损图像修复算法进行性能评价和分析;总结和分析了现有图像修复方法面临的挑战和未来研究方向。  相似文献   

9.
跨年龄人脸识别是目前人脸识别中的一大难点问题,人脸特征会随着年龄的增长发生变化,导致识别准确率降低,利用老化模型生成老化图像后进行人脸识别为该问题提供了一种解决方案。随着计算机技术和深度学习的广泛应用,人脸老化的真实性、老化效果、算法效率都得到了明显的提升,系统综述了基于老化模型的跨年龄人脸识别的研究现状,对人脸老化方法进行了详细地梳理,系统介绍了老化模型的方法演变和各类方法的优缺点,并对现有的模型评价方法进行了总结归纳。对现有的可用于跨年龄人脸识别的数据集进行了详细介绍,从数据量、年龄跨度、年龄准确性、数据集使用情况等方面进行了对比分析。结合实际应用对基于老化模型的跨年龄人脸识别中待解决的问题进行了分析和讨论,并对未来研究方向做出预测和展望。  相似文献   

10.
牛钦 《计算机时代》2021,(6):19-21,25
场景文本检测是计算机视觉领域研究的主要方向.文章介绍了近几年深度学习技术在场景文本检测上的应用,包括对场景文本图像检测中存在问题的描述,对近些年场景文本检测算法的分类和分析,以及场景文本检测数据集的介绍.最后总结并展望了未来场景文本检测的发展趋势.  相似文献   

11.
人脸表情合成技术旨在保留人脸身份信息的情况下,对人脸表情进行重建,从而生成具有新表情的源人脸图像。深度学习的发展为表情合成提供了全新的解决方案,本文从特征提取、生成对抗网络的表情合成和实验评估方面综述了人脸表情合成技术的发展。首先,介绍了人脸特征的提取,这是表情合成任务中的一项关键技术,人脸特征可客观全面地描述人脸表情状态。其次,分析了表情合成领域中主流的基于深度学习的方法,主要针对生成对抗网络(Generative adversarial network,GAN)的发展现状,探讨了基于生成对抗网络的表情合成方法。通过对人脸数据集及实验评估方法的深入研究,总结出广泛使用的人脸表情合成数据集以及多种客观评价方法。最后根据现有方法所存在的问题,提出了未来工作的研究方向。  相似文献   

12.
视觉-语言导航是近年来出现并蓬勃发展的新兴研究方向,是视觉-语言交互前沿领域中的代表性研究任务之一,其目标是根据人类给出的语言指令基于环境视觉感知实现自主导航.首先介绍该任务的研究内容,分析其面临的跨模态语义对齐、语义理解与推理和模型泛化能力增强3个方面的问题与挑战,然后列举了常用的数据集和评价指标;再从模仿学习、强化学习、自监督学习以及其他方法4个方面对该任务的研究进展进行归纳与总结,并对代表性方法的效果进行对比分析;从连续环境导航和高级复杂指令理解与常识推理2个方面论述该任务当前研究的热点趋势;最后对三维空间的视觉-语言导航、模糊导航、环境交互导航等未来发展方向进行讨论与展望.  相似文献   

13.
深度元学习是解决小样本分类问题的流行范式。对近年来基于深度元学习的小样本图像分类算法进行了详细综述。从问题的描述出发对基于深度元学习的小样本图像分类算法进行概括,并介绍了常用小样本图像分类数据集及评价准则;分别从基于模型的深度元学习方法、基于优化的深度元学习方法以及基于度量的深度元学习方法三个方面对其中的典型模型以及最新研究进展进行详细阐述。最后,给出了现有算法在常用公开数据集上的性能表现,总结了该课题中的研究热点,并讨论了未来的研究方向。  相似文献   

14.
地名作为一种常见的命名实体,广泛存在于非结构化文本中。是非结构化数据转为结构化过程中重要的关联实体。为了全面了解地名识别的最新研究成果和现状,概述了地名识别现有的应用场景、地名识别技术在具体场景的详细应用以及地名识别数据集和评价指标。总结分析了现有的地名识别方法:基于规则和地名词典匹配的方法、基于统计机器学习的方法、基于深度学习模型和混合模型方法。归纳总结了每一种地名识别方法的关键思路、优缺点和具体模型。同时对混合方法的融合特征和模型特点进行了总结归纳。并从模型性能展开比对分析,以及对词嵌入模型和预训练模型的模型特点进行了总结归纳。对地名实体识别研究方向进行总结和展望。  相似文献   

15.
在深度学习领域,解决实际应用问题往往需要结合多种模态信息进行推理和决策,其中视觉和语言信息是交互过程中重要的两种模态。在诸多应用场景中,处理多模态任务往往面临着模型架构组织方式庞杂、训练方法效率低下等问题。综合以上问题,梳理了在图像文本多模态领域的近五年的代表性成果。首先从主流的多模态任务出发,介绍了相关文本和图像多模态数据集以及预训练目标。其次,考虑以Transformer为基础结构的视觉语言模型,结合特征提取方法,从多模态组织架构、跨模态融合方法等角度进行分析,总结比较不同处理策略的共性和差异性。然后从数据输入、结构组件等多角度介绍模型的轻量化方法。最后,对基于图像文本的多模态方法未来的研究方向进行了展望。  相似文献   

16.
随着互联网技术的迅速发展,文本和图像等各种类型的数据在网络上呈现爆发式增长,如何从这些多源异构且语义关联的多模态数据中获取有价值的信息则尤为重要。跨模态检索能够突破模态的限制,跨越不同模态的数据进行信息检索,满足用户获取有关事件信息的需求。近年来,跨模态检索已经成为了学术界和工业界研究的热点问题。本文聚焦于图文跨模态检索任务,首先介绍图文跨模态检索的定义,并分析说明了当前该任务面临的挑战。其次,对现有的研究方法进行归纳总结,将其分为3大类:(1)传统方法;(2)基于深度学习的方法;(3)基于哈希表示的方法。然后,详细介绍了图文跨模态检索的常用数据集,并对常用数据集上已有算法进行详细分析与比较。最后,对图文跨模态检索任务的未来发展方向进行展望。  相似文献   

17.
刘喜平  舒晴  何佳壕  万常选  刘德喜 《软件学报》2022,33(11):4107-4136
数据库能够提供对大量数据的高效存储和访问,然而查询数据库需要掌握数据库查询语言SQL,对于普通用户而言存在一定的门槛.基于自然语言的数据库查询(即text-to-SQL)在最近几年受到了广泛的关注.对text-to-SQL问题的当前进展进行了系统的分析.首先介绍了问题背景,并对问题进行了描述;其次,重点分析了目前提出的text-to-SQL技术,包括基于流水线的方法、基于统计学习的方法,以及为多轮text-to-SQL而开发的技术,对每种方法都进行了深入的分析和总结.再次,进一步讨论了text-to-SQL所属的语义解析(semantic parsing)这一领域的研究.接着,总结了目前研究中广泛采用的数据集和评价指标,并从多个角度对主流模型进行了比较和分析.最后,总结了text-to-SQL任务面临的挑战,以及未来的研究方向.  相似文献   

18.
社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。  相似文献   

19.
在开源软件开发的维护阶段, 开源软件缺陷报告为开发人员解决缺陷提供了大量帮助。然而, 开源软件缺陷报告通常是以用户对话的形式编写, 一个软件缺陷报告可能含有数十条评论和上千个句子, 导致开发人员难以阅读或理解软件缺陷报告。为了缓解这个问题, 人们提出了开源软件缺陷报告自动摘要, 缺陷报告自动摘要可以减少开发人员阅读冗长缺陷报告的时间。本文以综述的方式对开源软件缺陷报告自动摘要的研究做了系统的归纳总结。首先, 根据摘要的表现形式, 将开源软件缺陷报告摘要分类为固定缺陷报告摘要和可视化缺陷报告摘要, 再将固定缺陷报告摘要研究方法分类为基于监督学习方法和基于无监督学习方法, 之后总结了基于监督学习和无监督学习的开源软件缺陷报告摘要生成的工作框架, 并介绍了开源软件缺陷报告摘要领域常用数据集、预处理技术和摘要评估指标。其次, 本文以无监督学习为切入点, 分类阐述和归纳了无监督开源软件缺陷报告摘要方法, 将无监督开源软件缺陷报告摘要方法分类为: 基于特征评分方法、基于深度学习方法、基于图方法和基于启发式方法, 并对每类方法进行讨论与分析。再次, 从缺陷报告摘要的实用性出发, 对现有的缺陷报告可视化摘要研究成果进行总结,并对固定缺陷报告摘要和可视化缺陷报告摘要的实用性做出分析。最后, 对现有研究成果及综述进行讨论和分析, 指出了开源软件缺陷报告摘要领域在缺陷报告数据集、抽取式摘要和黄金标准摘要三个方面面临的挑战和对未来研究的展望。  相似文献   

20.
行人重识别是计算机视觉的热门研究方向,其对智能安防、视频监控的发展有着重大意义.目前大部分工作主要集中在研究基于可见光的行人重识别,然而可见光摄像头无法在光线不足的黑夜中正常使用,而新型摄像头能够随机切换红外模式进行24小时视频监控,因此最近有一些工作对RGB-IR跨模态行人重识别问题进行了研究.本文分别从定义、研究难点和发展现状介绍了跨模态行人重识别问题,并根据不同的技术类型将目前存在的方法分为三类,即基于统一特征模型的方法;基于度量学习的方法;基于模态转换的方法.本文也详细介绍了该任务的数据集和评价准则,并对现有算法的性能进行分析与归纳.最后,总结了跨模态行人重识别的未来发展方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号