首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
实体对齐是目前知识融合阶段的主要工作之一,基于表示学习的方法是实体对齐的主要研究方向。首先,通过全面地研究当前代表性的实体对齐技术,总结出这些技术的特征及架构,并提出了一个捕捉这些技术关键特征的框架;然后根据这些技术使用的知识表示模型将其分成2类:基于Trans的技术和基于GNN的技术;给出了2个当前广泛使用的数据集,搭建了11个有代表性的基于TransE的模型和基于GNN的模型,并在DBP15K上的3个跨语言数据集上进行对比实验;评测主流模型和添加属性或字面等不同侧面信息后的模型的对齐效果,为未来大规模单模态乃至多模态知识图谱实体对齐研究提供参考。  相似文献   

2.
针对现有对话情绪识别方法中对时序信息、话语者信息、多模态信息利用不充分的问题,提出了一个时序信息感知的多模态有向无环图模型(MTDAG)。其中所设计的时序感知单元能按照时间顺序优化话语权重设置,并收集历史情绪线索,实现基于近因效应下对时序信息和历史信息更有效的利用;设计的上下文和话语者信息融合模块,通过提取上下文语境和话语者自语境的深度联合信息实现对话语者信息的充分利用;通过设置DAG(directed acyclic graph)子图捕获多模态信息并约束交互方向的方式,在减少噪声引入的基础上充分利用多模态信息。在两个基准数据集IEMOCAP和MELD的大量实验表明该模型具有较好的情绪识别效果。  相似文献   

3.
随着多传感器的普及,多模态数据获得科研和产业面的持续关注,通过深度学习来处理多源模态信息的技术是核心所在。文本生成图像是多模态技术的方向之一,由于生成对抗网络(GAN)生成图像更具有真实感,使得文本图像生成取得卓越进展。它可用于图像编辑和着色、风格转换、物体变形、照片增强等多个领域。将基于图像生成功能的GAN网络分为四大类:语义增强GAN、可增长式GAN、多样性增强GAN、清晰度增强GAN,并根据分类法提供的方向将基于功能的文本图像生成模型进行整合比较,厘清脉络;分析了现有的评估指标以及常用的数据集,阐明了对复杂文本的处理等方面的可行性以及未来的发展趋势;系统性地补充了生成对抗网络在文本图像生成方面的分析,将有助于研究者进一步推进这一领域。  相似文献   

4.
针对传统多元时序数据异常检测模型未考虑时空数据的多模态分布问题,提出了一种多模态生成对抗网络多元时序数据异常检测模型。利用滑动窗口分割时间序列并构造特征矩阵来捕获数据的多模态特征,将其与原始数据分别作为模态信息输入多模态编码器及多模态生成器中,输出具有时空信息的多模态特征矩阵,并将真实数据编码成特征矩阵,将两类特征矩阵作为判别器输入,利用梯度惩罚方法并拟合真实分布与生成分布之间的Wasserstein距离,取代二分类交叉熵损失训练判别器,结合生成器重构误差及判别器评分实现异常检测。基于安全水处理(SWaT)及水量分布(WADI)等数据集的测试结果表明,所提模型相比基准模型在F1-分数性能指标上分别提升了0.11和0.19,能够较好地识别多元时序数据异常,具有较好的鲁棒性以及泛化能力。  相似文献   

5.
深度学习中多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等. 然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针对性地选择最有信息价值的样本进行标注,从而降低标注成本并提高模型性能. 现有的主动学习方法往往面临着低效的数据扫描和数据位置调整问题,当索引需要进行大范围的更新时,会带来巨大的维护代价. 为解决这些问题,本文提出了一种面向多模态模型训练的高效样本检索技术So-CBI. 该方法通过感知模型训练类间边界点,精确评估样本对模型的价值;并设计了半有序的高效样本索引,通过结合数据排序信息和部分有序性,降低了索引维护代价和时间开销. 在多组多模态数据集上通过与传统主动学习训练方法实验对比,验证了So-CBI方法在主动学习下的训练样本检索问题上的有效性.  相似文献   

6.
针对现有的多模态虚假信息检测方法很少对多模态特征在特征层面进行融合,同时忽略了多模态特征后期融合作用的问题,提出了一种基于CNN多模态特征融合及多分类器混合预测的虚假信息检测模型。首次将多层CNN应用于多模态特征融合,模型首先用BERT和Swin-transformer提取文本和图像特征;随后通过多层CNN对多模态特征在特征层面进行融合,通过简单拼接对多模态特征在句子层面进行融合;最后将2种融合特征输入到不同的分类器中得到2个概率分布,并将2个概率分布按比例进行相加得到最终预测结果。该模型与基于注意力的多模态分解双线性模型(AMFB)相比,在Weibo数据集和Twitter数据集上的准确率分别提升了6.1%和4.3%。实验结果表明,所提模型能够有效提高虚假信息检测的准确率。  相似文献   

7.
针对多模态融合效果不佳,不能充分挖掘特定时间段,多视角关键情感信息的问题,提出了一种基于多视角的时序多模态情感分类模型,用于提取特定时间段,多视角下的关键情感信息。首先,对文本标题及文本内容两种视角下的数据进行低维空间词嵌入和序列表达,提取不同视角的多模态时序特征,对图片截取,水平镜像两种视角下的数据进行特征提取;其次,采用循环神经网络构建多模态数据的时序序列交互特征,增大互信息;最后,基于对比学习进行联合训练,完成情感分类。该模型在两个多模态情感分类基准数据集Yelp和Mutli-Zol上评估,准确度分别为73.92%、69.15%。综合实验表明,多视角的特定时间段多模态语句序列可提升模型性能。  相似文献   

8.
在临床诊断过程中,医生会同时结合医学图像和病理报告文本综合判定病情。针对现有的人工智能(AI)辅助诊断系统未充分利用文本检查内容的问题,提出一种基于BERT模型的图文多模态分类模型(ITMMB),在特征层实现医学图像和病理文本的多模态融合和分类。采用残差网络(ResNet)对图像预处理获得图像词嵌入向量,同时采用分词技术处理文本获得文本嵌入词向量,并将两类嵌入词向量送入BERT模型完成最终分类;此外,为适应BERT模型需要并获得更好的分类性能,优化了ResNet的残差模块、学习权重、损失函数和池化层。在Open Images数据集上的实验结果表明,与仅通过单一的医学图像或病理文本进行辅助诊断的模型相比,ITMMB的微平均F1分数分别提高38.76和4.66个百分点,能有效辅助医生临床诊断。  相似文献   

9.
近年来,使用对比学习技术在大规模无标注数据上所构建的预训练模型得到了广泛的应用(如车道检测、人脸识别等)。然而,其面临的安全和隐私问题也引起学者的广泛关注。文章聚焦于针对多模态对比学习模型的投毒攻击,该攻击将精心构造的数据注入训练集,以改变模型在特定数据上的预测行为。针对现有投毒攻击主要针对文本或图像单模态模型,没有利用文本或者图像间的多模态信息的问题,文章提出一种同时对文本与图像编码器投毒的靶向投毒攻击。首先,基于Beta分布自动生成水印图像透明度;然后,根据透明度生成添加水印后的样本,并根据水印样本与目标样本之间的欧式距离得到该透明度下应当投毒的样本数;最后,通过特定的优化算法生成投毒数据集。与现有的投毒攻击相比,文章所提方法具有更低的投毒率,并能够保持目标模型的性能。  相似文献   

10.
刘琴  谢珺  胡勇  郝戍峰  郝雅卉 《控制与决策》2024,39(6):2031-2040
多模态对话情绪识别旨在根据多模态对话语境判别出目标话语所表达的情绪类别,是构建共情对话系统的基础任务.现有工作中大多数方法仅考虑多模态对话本身信息,忽略了对话中与倾听者和说话者相关的知识信息,从而限制了目标话语情绪特征的捕捉.为解决该问题,提出一种基于听说知识融合网络的多模态对话情绪识别模型(LSKFN),引入与倾听者和说话者相关的外部常识知识,实现多模态上下文信息和知识信息的有机融合.LSKFN包含多模态上下文感知、听说知识融合、情绪信息汇总和情绪决策4个阶段,分别用于提取多模态上下文特征、融入听说知识特征、消除冗余特征和预测情绪分布.在两个公开数据集上的实验结果表明,与其他基准模型相比,LSKFN能够为目标话语提取到更加丰富的情绪特征,并且获得较好的对话情绪识别效果.  相似文献   

11.
李戈  彭鑫  王千祥  谢涛  金芝  王戟  马晓星  李宣东 《软件学报》2023,34(10):4601-4606
以自然语言生成为核心的大模型技术正在人工智能领域掀起热潮,并持续向更多的领域穿透其影响力.以ChatGPT为代表的自然语言生成大模型(以下简称大模型),已经在软件工程的多项活动中展示出其通过自然交互方式给人提供一定程度帮助的能力和潜力,正在发展成为一种基于自然交互的人机协同软件开发与演化工具.从人机协同软件开发与演化的视角,大模型作为一种软件工具呈现出了两大特征:其一是基于自然语言的人机交互,在相当大程度上拓展了人机协同的工作空间、提高了人机协同的效率和灵活性;其二是基于已积累的软件开发和演化知识、针对给定软件开发和演化任务的预测性内容生成,可以对软件开发和演化工作提供一定程度的支持和帮助.然而,由于大模型本质是基于概率与统计原理和训练数据所形成的数学模型,具有不可解释性和内生不确定性,其生成的是缺失可信性判断的预测性内容,而人在软件开发与演化中所需要完成的是具有可信保障的决策性任务,所以大模型作为一种软件工具,在人机协同的软件开发和演化工作环境中给人提供帮助的同时,也带来了诸多的挑战.围绕如何构造对软件开发与演化更有帮助的代码大模型、如何引导大模型生成对软件开发与演化更有帮助的预测性...  相似文献   

12.

近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力. 然而,越狱攻击正成为大语言模型的新兴威胁. 越狱攻击能够绕过大语言模型的安全机制,削弱价值观对齐的影响,诱使经过对齐的大语言模型产生有害输出. 越狱攻击带来的滥用、劫持、泄露等问题已对基于大语言模型的对话系统与应用程序造成了严重威胁. 对近年的越狱攻击研究进行了系统梳理,并基于攻击原理将其分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类. 详细总结了相关研究的基本原理、实施方法与研究结论,全面回顾了大语言模型越狱攻击的发展历程,为后续的研究提供了有效参考. 对现有的安全措施进行了简略回顾,从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术,并对不同方法的利弊进行了罗列与比较. 在上述工作的基础上,对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨,并结合多模态、模型编辑、多智能体等方向进行研究展望.

  相似文献   

13.

提出大语言模型安全通用基准测试集—JADE-DB,该数据集基于靶向变异方法自动化构建,能够将经验丰富的大语言模型安全测试员和多学科专家学者手工撰写的测试问题转化为高危通用问题,保持语言自然性的同时不改变其核心语义,且能够攻破十余款国内外知名大语言模型的安全防护机制. 根据语言复杂性差异,JADE-DB包含基础、进阶、高危3个安全测试等级,共计上千条覆盖违法犯罪、侵犯权益、歧视偏见和核心价值观4大类违规主题、30多种违规主题的通用测试问题,其中针对国内开源(中文,8款)、国内商用(中文,6款)和国外商用大语言模型(英文,4款)这3组大语言模型分别构建的3款通用高危测试集,可造成每组模型在高危测试集上的平均违规率均超过 70%,测试问题均可同时触发多款模型违规生成. 这表明,语言的复杂性导致现有大语言模型难以学习到人类无穷多种表达方式,因此无法识别其中不变的违规本质.

  相似文献   

14.
From AlphaGo to ChatGPT,the field of AI has launched a series of remarkable achievements in recent years.Analyzing,comparing,and summarizing these achievements at the paradigm level is important for future AI innovation,but has not received sufficient attention.In this paper,we give an overview and perspective on machine learning paradigms.First,we propose a paradigm taxonomy with three levels and seven dimensions from a knowledge perspective.Accordingly,we give an overview on three basic and tw...  相似文献   

15.
It is well known that dynamic link matching (DLM) is a flexible pattern matching model tolerant of deformation or nonlinear transformation. However, previous models cannot treat severely deformed data pattern in which local features do not have their counterparts in a template pattern. We extend DLM by introducing local linear maps (LLMs). Our model has a reference vector and an LLM for each lattice point of a data pattern. The reference vector maps the lattice point into a template pattern and the LLM carries the information regarding how the local neighborhood is mapped. Our model transforms local features by LLMs in a data pattern and then matches them with their counterparts in a template pattern. Therefore, our model is adaptable to larger transformations. For simplicity, we restricted LLMs to rotations. Neighboring LLMs are diffusionally coupled with each other. The model is numerically demonstrated to be very flexible in dealing with deformation and rotation compared to previous models. The framework of our model can be easily extended to models with more general LLMs (expansion, contraction, and so on).  相似文献   

16.
With the recent development of deep learning technology comes the wide use of artificial intelligence (AI) models in various domains. AI shows good performance for definite-purpose tasks, such as image recognition and text classification. The recognition performance for every single task has become more accurate than feature engineering, enabling more work that could not be done before. In addition, with the development of generation technology (e.g., GPT-3), AI models are showing stable performances in each recognition and generation task. However, not many studies have focused on how to integrate these models efficiently to achieve comprehensive human interaction. Each model grows in size with improved performance, thereby consequently requiring more computing power and more complicated designs to train than before. This requirement increases the complexity of each model and requires more paired data, making model integration difficult. This study provides a survey on visual language integration with a hierarchical approach for reviewing the recent trends that have already been performed on AI models among research communities as the interaction component. We also compare herein the strengths of existing AI models and integration approaches and the limitations they face. Furthermore, we discuss the current related issues and which research is needed for visual language integration. More specifically, we identify four aspects of visual language integration models: multimodal learning, multi-task learning, end-to-end learning, and embodiment for embodied visual language interaction. Finally, we discuss some current open issues and challenges and conclude our survey by giving possible future directions.  相似文献   

17.
超大预训练模型(Pre-trained model, PTM)是人工智能领域近年来迅速崛起的研究方向, 在自然语言处理(Natural language processing, NLP)和计算机视觉等多种任务中达到了有史以来的最佳性能, 促进了人工智能生成内容(Artificial intelligence-generated content, AIGC)的发展和落地. ChatGPT作为当下最火热的PTM, 更是以优异的表现获得各界的广泛关注. 本文围绕ChatGPT展开. 首先概括PTM的基本思想并对其发展历程进行梳理; 接着, 详细探讨ChatGPT的技术细节, 并以平行智能的视角阐述ChatGPT; 最后, 从技术、范式以及应用等多个方面对PTM的发展趋势进行展望.  相似文献   

18.
Software and Systems Modeling - Most experts agree that large language models (LLMs), such as those used by Copilot and ChatGPT, are expected to revolutionize the way in which software is...  相似文献   

19.
ChatGPT, an artificial intelligence generated content (AIGC) model developed by OpenAI, has attracted worldwide attention for its capability of dealing with challenging language understanding and generation tasks in the form of conversations. This paper briefly provides an overview on the history, status quo and potential future development of ChatGPT, helping to provide an entry point to think about ChatGPT. Specifically, from the limited open-accessed resources, we conclude the core techniques of ChatGPT, mainly including large-scale language models, in-context learning, reinforcement learning from human feedback and the key technical steps for developing ChatGPT. We further analyze the pros and cons of ChatGPT and we rethink the duality of ChatGPT in various fields. Although it has been widely acknowledged that ChatGPT brings plenty of opportunities for various fields, mankind should still treat and use ChatGPT properly to avoid the potential threat, e.g., academic integrity and safety challenge. Finally, we discuss several open problems as the potential development of ChatGPT.   相似文献   

20.
摘 要:如今电力已成为我们日常生活中不可缺少的一部分。然而,人们对电力知识的了解还有待进一步提高,电力知识推广的供给形式有待进一步创新。在AI大模型赋能各行各业高速发展的大背景下,电力领域的大模型存在例如数量不足和用户隐私数据保护力度不够等诸多问题。本研究以智谱AI和清华大学KEG实验室联合发布的对话预训练模型ChatGLM3为基础,设计开发了一个具备回答电力专业知识能力的智慧问答系统。在客户端和服务端数据传输与存储的过程中,我们采用了区块链加解密算法对数据进行处理和包装,以提高数据安全性。首先,收集高质量数据集,结合ChatGPT等基于Transformer的大模型,增强ChatGLM3的泛化能力;其次,通过Lora微调和全参微调等方法优化模型,优化后模型准确率提升31.78%,模型幻觉率降低了33.5%;最后,我们在系统终端数据存储过程中采用加解密算法对用户数据进行加密,以确保用户数据的安全性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号