共查询到20条相似文献,搜索用时 46 毫秒
1.
刘赟 《电脑编程技巧与维护》2025,(1):60-62+89
在信息技术迅速发展的今天,智能文档管理系统成为了院校和企业高效处理文档信息的关键工具。多模态自然语言处理(NLP)技术,通过结合文本、图像、音频等多种数据类型,提供了一种全面理解和处理文档的方法。首先,介绍了多模态自然语言处理技术的基本概念和智能文档管理的需求。然后,详细阐述多模态技术在文档管理中的具体应用,包括多模态数据整合的技术框架、智能文档自动分类、文档检索系统优化,以及内容摘要的生成方法。最后,通过技术应用测试展示了这些方法的实际效果和潜在价值。 相似文献
2.
由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。 相似文献
3.
罗平;杨清平;曹逸轩;曹荣禹;何清 《中文信息学报》2024,38(5):1-21
表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战。非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一。随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展。该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向。 相似文献
4.
随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。 相似文献
5.
6.
现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN (Distributed prioritized experience replay in deep Q-network),称为AP-IS (APE-X DQN for index selection). AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价. APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法. 相似文献
7.
针对企业现有招投标文档价值信息挖掘不足、文档知识难以应用等问题,设计一种基于知识图谱的招标项目文档智能管理系统。系统核心功能模块包括项目管理、模板管理、知识图谱和统计查询。项目管理和模板管理模块分别对项目文档进行分类管理和提供知识抽取模板。知识图谱模块实现文档知识抽取,并将抽取的知识与元数据构建知识图谱,实现文档的语义互联。对于文档知识抽取分别提出预训练模型结合规则配置的文字知识抽取模型和图片分类与光学字符识别融合的图片知识提取模型。统计查询模块基于构建的文档知识图谱实现多维统计分析、语义检索与智能问答等应用。该文档管理系统以智能化技术支持文档知识深度挖掘和反馈,能够实现文档价值充分利用。 相似文献
8.
9.
深度学习框架下的图像描述模型存在对图像特征选择不准确、利用不充分的问题,导致生成的图像描述语句整体质量不高.为此,提出了一种基于注意力特征自适应校正的图像描述模型.应用卷积神经网络提取图像特征,融合注意力机制,能够在有序输出单词的同时动态聚焦在图像的各个区域,从而得到带有位置信息的注意力特征;通过一个通道激活层全面捕获... 相似文献
10.
文章以多模态深度学习技术为切入点,探讨多模态建模技术在智能型教学系统中的潜在应用,如时间序列预测算法(LongShort-TermMemory,LSTM)、残差神经网络(ResidualNetwork,ResNet)、YOLO、深度神经网络(Deep Neural Networks,DNN)和XGBoost,并介绍了课堂监测评估模型和教学策略推荐模型的运行机制。 相似文献
11.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。 相似文献
12.
高毅 《自动化与仪器仪表》2020,(2):128-131
在自然语言处理领域,分词是非拉丁语系语言处理的首要任务.而在中文自然语言处理中,常见的是针对现代汉语进行分词处理,对古汉语涉及得较少.针对这一问题,设计针对古汉语的分词系统.系统采用流行的深度学习方法,对中文首先进行分词,采用长短时神经网络LSTM提取序列特征;之后采用Softmax进行分类,设计针对古汉语分词的长短时... 相似文献
13.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。 相似文献
14.
向倩 《计算机与数字工程》2021,49(3):466-470
为提升管制员培训效果,减少人物力成本,利用深度学习序列到序列框架,对陆空通话标准用语(英文)进行处理与建模,实现输入管制员文本指令,即可输出飞行员文本应答.首先模拟管制员飞行员对话用语习惯,创建航行进离场阶段英文数据集;其次建立陆空通话模型,并对模型进行优化和训练;最后通过相关指标评估模型效果.实验结果显示,模型应答具... 相似文献
15.
随着科技的进步与生产生活质量的稳步提升,无人机在工业领域的重要性逐步显露,与此同时,利用无人机进行非法活动的数量也逐年上升,对无人机进行侦测与识别迫在眉睫.传统的对无人机进行侦测的算法以目标匹配为基础,需要建立庞大的目标库进行复杂的匹配计算,存在目标误报率过高、漏报率过高,识别时间过长的缺陷.近年来,深度学习技术在图像处理、语音识别、自然语言处理等领域取得了突破性进展,在此背景下,利用深度学习技术的特征学习能力能够自动学习目标特征,提升目标识别的精准性,从而为对无人机的侦测和识别提供了一种新的途径.通过搜集该领域最新研究成果,从雷达、声学信号、视觉信号、射频信号等技术角度出发,结合智能技术,对当前识别算法进行了归纳与阐述,最后对该领域中的研究所面临的主要挑战进行了总结,并展望了未来的研究重点. 相似文献
16.
随着互联网技术的迅速发展,文本和图像等各种类型的数据在网络上呈现爆发式增长,如何从这些多源异构且语义关联的多模态数据中获取有价值的信息则尤为重要。跨模态检索能够突破模态的限制,跨越不同模态的数据进行信息检索,满足用户获取有关事件信息的需求。近年来,跨模态检索已经成为了学术界和工业界研究的热点问题。本文聚焦于图文跨模态检索任务,首先介绍图文跨模态检索的定义,并分析说明了当前该任务面临的挑战。其次,对现有的研究方法进行归纳总结,将其分为3大类:(1)传统方法;(2)基于深度学习的方法;(3)基于哈希表示的方法。然后,详细介绍了图文跨模态检索的常用数据集,并对常用数据集上已有算法进行详细分析与比较。最后,对图文跨模态检索任务的未来发展方向进行展望。 相似文献
17.
Karthik Ramamurthy Rashmi Dinesh Thekkath Shivam Batra Sreejan Chattopadhyay 《Concurrency and Computation》2023,35(8):e7625
Several research works on disease detection in coffee plants have been presented in recent years. Leaf miner and rust are the most prevalent diseases in Arabica coffee plants. Early detection of such diseases allows farmer to take diagnostic actions before the infection spreads to neighboring plants. With advancements in drones and artificial intelligence (AI), the automatic detection of leaf diseases is gaining prominence in the field of smart agriculture. Furthermore, it is critical to develop an accurate method for infestation detection with minimal computational complexity. Existing works for plant disease detection utilize pre-trained deep learning models with millions of parameters. A feasible trade-off has to be attained between accuracy and computational complexity for the deployment of such deep networks. This research proposes an effective method for disease detection in Arabica coffee plants using EfficientNetB0 architecture. The architecture of the EfficientNetB0 network was improvised by including a ghost module at its end. This integration allows the network to learn effectively with minimal parameters without compensating for the end accuracy. The proposed model has a total of 4,874,531 parameters which is significantly lesser than most of the state-of-the-art deep learning architectures and achieved an accuracy of 84%. 相似文献
18.
由于可见光和红外的成像机理、成像波段不同,获取的遥感影像之间存在复杂的非线性辐射畸变,传统的配准方法难以实现两者的高精度配准。本文提出一种基于VoxelMorph的可见光和红外遥感影像配准方法,利用卷积神经网络对可见光和红外异源图像进行分步的精细化形变场计算,从而实现快速高精度配准。将可见光图像作为参考图像,利用U-Net网络计算待配准红外图像和参考(可见光)图像的形变场,实现全局对齐的仿射变换,然后通过空间转换网络进一步实现更高自由度变形。采用WHU-OPT-SAR数据集的实验结果表明,与基于尺度不变特征变换(SIFT)算法的传统配准方法相比,本文提出的基于VoxelMorph配准方法可以获得更好的配准效果,验证了基于VoxelMorph的配准方法在多源遥感影像领域的有效性。 相似文献
19.
目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练,能够更好理解语义信息并提高计算速度。基于Bakeoff 2005语料库的4个数据集设计实验,与双向长短时记忆网络模型的中文分词方法做对比,实验表明该文提出的模型取得了更好的分词效果,并具有更快的计算速度。 相似文献
20.
掌静脉识别作为一种新兴的红外生物识别技术,因其高安全性、活体检测性等优势已成为当前生物特征识别领域中的研究热点之一.近年来,该领域的大量研究通过引入深度学习方法推动了掌静脉识别技术的发展.为了掌握掌静脉识别领域最新研究现状及发展方向,对数据采集和数据预处理的主流算法进行了分类和总结,并针对基于深度学习的掌静脉识别的最新进展按照掌脉特征表征、网络设计与优化、轻量级网络进行了分类和详细阐述.针对当前单模态识别达到瓶颈等问题,分析并对比了多模态和多特征融合识别相关算法;探讨了当前掌静脉识别的研究难点挑战,并对未来的发展趋势进行了展望与总结. 相似文献