首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。  相似文献   

2.
随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。  相似文献   

3.
针对企业现有招投标文档价值信息挖掘不足、文档知识难以应用等问题,设计一种基于知识图谱的招标项目文档智能管理系统。系统核心功能模块包括项目管理、模板管理、知识图谱和统计查询。项目管理和模板管理模块分别对项目文档进行分类管理和提供知识抽取模板。知识图谱模块实现文档知识抽取,并将抽取的知识与元数据构建知识图谱,实现文档的语义互联。对于文档知识抽取分别提出预训练模型结合规则配置的文字知识抽取模型和图片分类与光学字符识别融合的图片知识提取模型。统计查询模块基于构建的文档知识图谱实现多维统计分析、语义检索与智能问答等应用。该文档管理系统以智能化技术支持文档知识深度挖掘和反馈,能够实现文档价值充分利用。  相似文献   

4.
基于智能文档的RIA模型研究   总被引:2,自引:0,他引:2  
从软件架构发展的角度,介绍现有的RIA技术架构,在传统分层模型的基础上对RIA技术的设计模型进行了分析,并对智能文档进行了相应介绍.综合分析两种技术后提出一种基于智能丈档的IUA分层模型,并对该模型的具体实现和应用做详细描述.  相似文献   

5.
6.
肖露 《信息与电脑》2022,(16):227-230
文章以多模态深度学习技术为切入点,探讨多模态建模技术在智能型教学系统中的潜在应用,如时间序列预测算法(LongShort-TermMemory,LSTM)、残差神经网络(ResidualNetwork,ResNet)、YOLO、深度神经网络(Deep Neural Networks,DNN)和XGBoost,并介绍了课堂监测评估模型和教学策略推荐模型的运行机制。  相似文献   

7.
通过系统分析当前主流数据交换技术,提出基于智能文档的数据交换模型.通过对智能文档作为数据交换统一封装栽体、智能文档内置业务逻辑以及智能文档的增量式信息记录三方面的研究,设计适用于电子政务办公及数据交换的智能文挡.在此基础上,提出基于智能文档的柔性的分布式电子政务办公系统及数据交换模型.  相似文献   

8.
9.
企业办公自动化是当今社会的一种趋势,传统B/S架构模式的办公自动化软件具有部署简单、开发维护成本低等优点,但是对于需求复杂,需要完美Office体验的用户,传统模式就略显不足。VSTO技术是针对Office软件开发推出的一项新技术,在保证用户体验的前提下,网络访问、数据处理、用户验证等一系列功能均可以实现。基于VSTO的智能文档是解决办公自动化的另一种很好的途径。  相似文献   

10.
生成式人工智能技术自ChatGPT发布以来,不断突破瓶颈,吸引了资本规模投入、多领域革命和政府重点关注。本文首先分析了大模型的发展动态、应用现状和前景,然后从以下3个方面对大模型相关技术进行了简要介绍:1)概述了大模型相关构造技术,包括构造流程、研究现状和优化技术;2)总结了3类当前主流图像—文本的大模型多模态技术;3)介绍了根据评估方式不同而划分的3类大模型评估基准。参数优化与数据集构建是大模型产品普及与技术迭代的核心问题;多模态能力是大模型重要发展方向之一;设立评估基准是比较与约束大模型的关键方法。此外,本文还讨论了现有相关技术面临的挑战与未来可能的发展方向。现阶段的大模型产品已有强大的理解能力和创造能力,在教育、医疗和金融等领域已展现出广阔的应用前景。但同时,它们也存在训练部署困难、专业知识不足和安全隐患等问题。因此,完善参数优化、优质数据集构建、多模态等技术,并建立统一、全面、便捷的评估基准,将成为大模型突破现有局限的关键。  相似文献   

11.
为维护操作系统的安全性和可靠性,提出了一个具备泛用能力、基于人工智能模型的网络入侵检测系统框架,其主要功能是针对来自互联网里各种形式的网络流量进行检测,并嗅探出可能的入侵攻击及恶意网络连接并将其归类.该框架首先使用采样、独热编码、特征选择和归一化将网络流量实例进行预处理,获取基本信息和筛选重要特征;然后利用网络连接实例的特征值分布建立评分机制,对数据进行信息再提取;最后针对不同的网络流量形式,利用不同的基于机器学习或深度学习的模型进行结果判断.实验中使用三个公开基准数据集KDDCup99、UNSW-NB15和CICIDS2017进行训练和测试.通过与相关文献比较,发现提出方法在三个数据集的正确率和F1得分上均有着优异的表现.  相似文献   

12.
工业人工智能及应用研究现状及展望   总被引:2,自引:0,他引:2  
李杰  李响  许元铭  杨绍杰  孙可意 《自动化学报》2020,46(10):2031-2044
工业4.0将工业制造流程以及产品质量优化从以前依照经验和观察进行判断转变为以事实为基础, 通过分析数据进而挖掘潜在价值的完整智能系统. 人工智能技术的快速发展在工业4.0的实现中扮演着关键的角色. 然而, 传统的人工智能技术通常着眼于日常生活、社会交流和金融场景, 而非解決工业界实际所遇到的问题. 相比而言, 工业人工智能技术基于工业领域的具体问题, 利用智能系统提升生产效率、系统可靠性并优化生产过程, 更加适合解决特定的工业问题同时帮助从业人员发现隐性问题, 并让工业设备有自主能力来实现弹性生产并最终创造更大价值. 本文首先介绍工业人工智能的相关概念, 并通过实际的工业应用案例如元件级的滚珠丝杠、设备级的带锯加工机与机器群等不同层次的问题来展示工业人工智能架构的可行性与应用前景.  相似文献   

13.
在自然语言处理领域,分词是非拉丁语系语言处理的首要任务。而在中文自然语言处理中,常见的是针对现代汉语进行分词处理,对古汉语涉及得较少。针对这一问题,设计针对古汉语的分词系统。系统采用流行的深度学习方法,对中文首先进行分词,采用长短时神经网络LSTM提取序列特征;之后采用Softmax进行分类,设计针对古汉语分词的长短时神经网络。在测试中取得了理想的预期,基本可以满足设计需求。该系统一方面提高了教学的效率,降低了古汉语断句的难点;另一方面,在一定程度上提升了学习的兴趣。  相似文献   

14.
Neonatal sepsis is the third most common cause of neonatal mortality and a serious public health problem, especially in developing countries. There have been researches on human sepsis, vaccine response, and immunity. Also, machine learning methodologies were used for predicting infant mortality based on certain features like age, birth weight, gestational weeks, and Appearance, Pulse, Grimace, Activity and Respiration (APGAR) score. Sepsis, which is considered the most determining condition towards infant mortality, has never been considered for mortality prediction. So, we have deployed a deep neural model which is the state of art and performed a comparative analysis of machine learning models to predict the mortality among infants based on the most important features including sepsis. Also, for assessing the prediction reliability of deep neural model which is a black box, Explainable AI models like Dalex and Lime have been deployed. This would help any non-technical personnel like doctors and practitioners to understand and accordingly make decisions.  相似文献   

15.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。  相似文献   

16.
贝叶斯深度学习(BDL)融合了贝叶斯方法与深度学习(DL)的互补优势,成为复杂问题中不确定性建模与推断的强大工具.本文构建了基于t分布和循环随机梯度汉密尔顿蒙特卡罗采样算法的BDL框架,并基于数据不确定性和模型定不确定性给出了不确定性的度量.为了验证模型框架的有效性和适用性,我们分别基于人工神经网络(ANN)、卷积神经网络(CNN)和循环神经网络(RNN)构建了相应的BDL模型,并将模型应用于全球15个股票指数预测,实证结果显示:1)该框架在ANN、CNN和RNN下均适用,对全部指数的预测效果均很出色; 2)在预测精度和通用性方面,基于t分布BDL的模型比基于正态分布的BDL模型具有显著优越性; 3)在给定不确定性阈值之下的预测MAE比初始MAE显著提升,表明文中定义的不确定性是有效的,对不确定性建模具有重要意义.鉴于该BDL框架在预测精度、易于拓展和具备提供预测不确定性度量的优势,其在金融和其他具有复杂数据特征的领域均有广阔的应用前景.  相似文献   

17.
利用人工智能技术和深度学习算法,设计开发了基于AI+IOT的智慧家居系统。基于百度提供的免费的语音识别云平台,该系统使用ZigBee网络,对家居环境数据进行采集、分析,并通过物联网技术和人工智能技术实现远程语音控制各种家电的功能。基于深度学习,系统通过百度语音识别技术对自然语言进行语音识别,通过搭建系统编译环境成功融合了AI技术和IOT技术实现了具有语音控制功能的智能家居系统,致力于为人们提供更加便捷智能的生活。  相似文献   

18.
The advancement of artificial intelligence (AI) has truly stimulated the development and deployment of autonomous vehicles (AVs) in the transportation industry. Fueled by big data from various sensing devices and advanced computing resources, AI has become an essential component of AVs for perceiving the surrounding environment and making appropriate decision in motion. To achieve goal of full automation (i.e., self-driving), it is important to know how AI works in AV systems. Existing research have made great efforts in investigating different aspects of applying AI in AV development. However, few studies have offered the research community a thorough examination of current practices in implementing AI in AVs. Thus, this paper aims to shorten the gap by providing a comprehensive survey of key studies in this research avenue. Specifically, it intends to analyze their use of AIs in supporting the primary applications in AVs: 1) perception; 2) localization and mapping; and 3) decision making. It investigates the current practices to understand how AI can be used and what are the challenges and issues associated with their implementation. Based on the exploration of current practices and technology advances, this paper further provides insights into potential opportunities regarding the use of AI in conjunction with other emerging technologies: 1) high definition maps, big data, and high performance computing; 2) augmented reality (AR)/virtual reality (VR) enhanced simulation platform; and 3) 5G communication for connected AVs. This paper is expected to offer a quick reference for researchers interested in understanding the use of AI in AV research.   相似文献   

19.
20.
Explainable Artificial Intelligence (XAI) is an emerging research topic of machine learning aimed at unboxing how AI systems’ black-box choices are made. This research field inspects the measures and models involved in decision-making and seeks solutions to explain them explicitly. Many of the machine learning algorithms cannot manifest how and why a decision has been cast. This is particularly true of the most popular deep neural network approaches currently in use. Consequently, our confidence in AI systems can be hindered by the lack of explainability in these black-box models. The XAI becomes more and more crucial for deep learning powered applications, especially for medical and healthcare studies, although in general these deep neural networks can return an arresting dividend in performance. The insufficient explainability and transparency in most existing AI systems can be one of the major reasons that successful implementation and integration of AI tools into routine clinical practice are uncommon. In this study, we first surveyed the current progress of XAI and in particular its advances in healthcare applications. We then introduced our solutions for XAI leveraging multi-modal and multi-centre data fusion, and subsequently validated in two showcases following real clinical scenarios. Comprehensive quantitative and qualitative analyses can prove the efficacy of our proposed XAI solutions, from which we can envisage successful applications in a broader range of clinical questions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号