首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 404 毫秒
1.
近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题,提出了一种基于显式知识推理和深度强化学习的动态决策框架,将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中,让智能体在强化学习中获得知识推理结果的干预,以提高智能体的训练效率,并增加模型的可解释性.将显式知识分为两种,即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策,加快训练速度;而后者将避免智能体作出灾难性决策,使其训练过程更为稳定.实验表明,该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率,并增加了模型的可解释性.  相似文献   

2.
目的 现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法 利用显著性注意力,用Faster R-CNN(region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果 模型在VQA(visual question answering)v2...  相似文献   

3.
针对现有深度知识追踪模型存在输入习题间复杂关系捕获能力弱、无法有效处理长序列输入数据等问题,提出了基于自注意力机制和双向GRU神经网络的深度知识追踪优化模型(KTSA-BiGRU)。首先,将学习者的历史学习交互序列数据映射为实值向量序列;其次,以实值向量序列作为输入训练双向GRU神经网络,利用双向GRU神经网络建模学习者的学习过程;最后,使用自注意力机制捕获练习题之间的关系,根据双向GRU神经网络输出的隐向量和注意力权重计算学习者正确回答下一问题的概率。实验在三个公共数据集上的性能分析优于现有的知识追踪模型,能提高深度知识追踪的预测精度。  相似文献   

4.
针对结合深度学习模型的协同过滤算法未考虑关联数据的多维交互随时间动态变化的问题,该文提出一种融合时间交互学习和注意力长短期记忆网络的张量分解推荐模型(LA-NTF).通过采用基于注意力机制的长短期记忆网络从项目文本信息中提取项目的潜在向量,然后使用融合注意力机制的长短期记忆网络来表征用户—项目关系数据在时间上的多维交互...  相似文献   

5.
毕鑫  聂豪杰  赵相国  袁野  王国仁 《软件学报》2023,34(10):4565-4583
知识图谱问答任务通过问题分析与知识图谱推理,将问题的精准答案返回给用户,现已被广泛应用于智能搜索、个性化推荐等智慧信息服务中.考虑到关系监督学习方法人工标注的高昂代价,学者们开始采用强化学习等弱监督学习方法设计知识图谱问答模型.然而,面对带有约束的复杂问题,现有方法面临两大挑战:(1)多跳长路径推理导致奖励稀疏与延迟;(2)难以处理约束问题推理路径分支.针对上述挑战,设计了融合约束信息的奖励函数,能够解决弱监督学习面临的奖励稀疏与延迟问题;设计了基于强化学习的约束路径推理模型COPAR,提出了基于注意力机制的动作选择策略与基于约束的实体选择策略,能够依据问题约束信息选择关系及实体,缩减推理搜索空间,解决了推理路径分支问题.此外,提出了歧义约束处理策略,有效解决了推理路径歧义问题.采用知识图谱问答基准数据集对COPAR的性能进行了验证和对比.实验结果表明:与现有先进方法相比,在多跳数据集上性能相对提升了2%-7%,在约束数据集上性能均优于对比模型,准确率提升7.8%以上.  相似文献   

6.
虽然深度强化学习能够解决很多复杂的控制问题, 但是需要付出的代价是必须和环境进行大量的交互, 这是深度强化学习所面临的一大挑战. 造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征. 导致智能体对所处状态理解不足, 从而不能正确给状态分配价值. 因此, 为了让智能体认识所处环境, 提高强化学习样本效率, 本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning, RPRL). 帮助智能体从高维视觉输入中学习并提取状态特征, 以此来提高强化学习样本效率. 该方法用前向的状态转移损失作为辅助损失, 使智能体学习到的特征包含环境转移的相关动态信息. 同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束, 进一步帮助智能体学习到高维度输入的平滑、规则表示. 该方法在DeepMind Control (DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较, 都获得了更好的性能.  相似文献   

7.
目前基于传统深度学习的关系抽取方法在复杂语境下抽取较为困难, 且未考虑语境中非目标关系对关系抽取所带来的影响. 针对这一问题, 本文提出了控制输入长短期记忆网络CI-LSTM (control input long short-term memory), 该网络在传统LSTM的基础上增加了由注意力机制和控制门阀单元组成的输入控制单元, 控制门阀单元可依据控制向量进行关键位置上的重点学习, 注意力机制对单个LSTM的输入的不同特征进行计算. 本文通过实验最终选择使用句法依存关系生成控制向量并构建关系抽取模型, 同时使用SemEval-2010 Task8关系数据集以及该数据集中具有复杂语境的样本对所提方法进行实验. 结果表明, 相比于传统的关系抽取方法, 本文所提CI-LSTM在准确率上有进一步提升, 并在复杂语境中具有更好的表现.  相似文献   

8.
知识推理是补全知识图谱的重要方法,旨在根据图谱中已有的知识,推断出未知的事实或关系.针对多数推理方法仍存在没有充分考虑实体对之间的路径信息,且推理效率偏低、可解释性差的问题,提出了将TuckER嵌入和强化学习相结合的知识推理方法 TuckRL (TuckER embedding with reinforcement learning).首先,通过TuckER嵌入将实体和关系映射到低维向量空间,在知识图谱环境中采用策略引导的强化学习算法对路径推理过程进行建模,然后在路径游走进行动作选择时引入动作修剪机制减少无效动作的干扰,并将LSTM作为记忆组件保存智能体历史动作轨迹,促使智能体更准确地选择有效动作,通过与知识图谱的交互完成知识推理.在3个主流大规模数据集上进行了实验,结果表明TuckRL优于现有的大多数推理方法,说明将嵌入和强化学习相结合的方法用于知识推理的有效性.  相似文献   

9.
经典的视觉注意力模型缺乏视觉对象间空间关系的推理能力,忽略了图像和问题文本之间的密集语义交互,导致在预测答案过程中对噪声的处理能力不足。针对上述问题,提出了一种基于门控图卷积网络和协同注意力的视觉问答模型。该模型基于图像中视觉对象之间的相对空间位置构建空间关系图;同时以问题为引导,在图卷积网络的基础上增加门控机制,能够动态控制具有不同空间关系的邻居对节点的贡献程度;然后将问题的词特征和带有空间关系感知能力的视觉特征输入双向引导的协同注意力模块,共同学习它们之间的密集语义交互。在VQA2.0数据集进行实验,结果表明:该模型具有较强的显式关系推理能力,在test-std测试集的总体准确率为70.90%,优于该数据集上的经典模型,有效地提升了视觉问答的准确率。  相似文献   

10.
知识推理是解决知识图谱中知识缺失问题的重要方法,针对大规模知识图谱中知识推理方法仍存在可解释性差、推理准确率和效率偏低的问题,提出了一种将知识表示和深度强化学习相结合的方法RLPTransE。利用知识表示学习方法,将知识图谱映射到含有三元组语义信息的向量空间中,并在该空间中建立强化学习环境。通过单步择优策略网络和多步推理策略网络的训练,使强化学习智能体在与环境交互过程中,高效挖掘推理规则进而完成推理。在公开数据集上的实验结果表明,相比于其他先进方法,该方法在大规模数据集推理任务中取得更好的表现。  相似文献   

11.
股票价格预测是金融和计算机学科交叉领域的经典问题,由于股票市场的复杂性和高波动性等特征,及时预测股票价格被认为是最具挑战性的问题之一.长短期记忆(LSTM)神经网络在时间序列预测问题中表现出良好的性能.然而,该模型及其改进模型专注于顺序捕获序列信息,在学习输入数据之间非序列性的内部关联方面没有优势.此外,模型在输入数据的融合方面往往并不全面.针对上述问题,提出了融合多源数据、具有自注意力机制的长短期记忆神经网络(SA-LSTM)股票价格预测模型.SA-LSTM模型具有自注意力单元,在学习序列特征时能够快速捕获长距离依赖关系,有效学习数据之间的相关性.在多源数据的融合方面,同时融合与目标股票直接间接相关的数据,解决输入数据不全面的问题.通过对股票次日收盘价预测的实验表明,与其他基准预测模型相比,该模型取得了最佳性能,在不同数据集上均具有最小预测误差.  相似文献   

12.
针对知识推理过程中,随着推理路径长度的增加,节点的动作空间急剧增长,使得推理难度不断提升的问题,提出一种分层强化学习的知识推理方法(knowledge reasoning method of hierarchical reinforcement learning, MutiAg-HRL),降低推理过程中的动作空间大小。MutiAg-HRL调用高级智能体对知识图谱中的关系进行粗略推理,通过计算下一步关系及给定查询关系之间的相似度,确定目标实体大致位置,依据高级智能体给出的关系,指导低级智能体进行细致推理,选择下一步动作;模型还构造交互奖励机制,对两个智能体的关系和动作选择及时给予奖励,防止模型出现奖励稀疏问题。为验证该方法的有效性,在FB15K-237和NELL-995数据集上进行实验,将实验结果与TransE、MINERVA、HRL等11种主流方法进行对比分析,MutiAg-HRL方法在链接预测任务上的hits@k平均提升了1.85%,MRR平均提升了2%。  相似文献   

13.
针对现有基于深度学习的图像修复方法对图像未受损区域多尺度特征空间信息利用不足的问题,提出一种利用金字塔空间注意力与特征推理的图像修复模型.首先,采用基于部分卷积的区域识别模块,用于识别本次循环中需要推理的区域,其次,通过循环特征推理模块高效地推理待推理区域的图像特征,最后,使用基于残差去冗余特征的特征融合模块以保证在融合中间特征图的过程中减少无效特征信息对图像修复的干扰.在人脸、街景等数据集上端对端地对所提模型进行实验的结果表明,与经典方法相比,该模型在峰值信噪比、结构相似度和平均L1损失评估指标方面分别提升了3%, 1%和3%.  相似文献   

14.
为促进目标检测模型与电力领域业务知识有机融合,缓解金具样本间长尾分布问题,有效提升输电线路金具的自动化检测效果,提出了融合共现推理的Faster R-CNN(faster region-based convolutional neural network)输电线路金具检测模型。首先,深入研究输电线路金具结构化组合规则,通过数据驱动的方式以条件概率对金具目标间的共现连接关系进行有效表达;然后,结合图学习方法,利用学习并映射的共现概率关联作为共现图邻接矩阵,使用基线模型(Faster R-CNN)提取的特征向量作为图推理输入特征,以自学习的变换矩阵作为共现图传播权重,完成图信息传播并实现有效的共现推理模型嵌入。实验证明,融合共现推理模块的Faster R-CNN模型较原始模型提升了6.56%的准确率,对于长尾分布样本中数量较少的金具性能提升尤其显著。  相似文献   

15.
多跳推理模型在知识图谱中充分挖掘和利用实体间的多步关系,组成路径信息,完成知识推理,然而,目前的稀疏知识图谱多跳推理模型大多存在数据稀少及推理路径可靠性较低等问题.为了解决该问题,文中提出融合语义信息的知识图谱多跳推理模型.首先,将知识图谱中的实体和关系嵌入向量空间,作为强化学习训练的外部环境.然后,利用查询关系和推理路径的语义信息,选择相似度最高的(关系,实体)对扩充智能体进行路径搜索的动作空间,以此弥补推理过程中数据稀少的不足.最后,使用推理路径和查询关系的语义相似度评价推理路径的可靠性,并作为奖励函数反馈给智能体.在多个公开稀疏数据集上的实验表明,文中模型明显提升推理性能.  相似文献   

16.
余超  董银昭  郭宪  冯旸赫  卓汉逵  张强 《软件学报》2023,34(4):1749-1764
针对深度强化学习在高维机器人行为控制中训练效率低下和策略不可解释等问题,提出一种基于结构交互驱动的机器人深度强化学习方法(structure-motivated interactive deep reinforcement learning, SMILE).首先,利用结构分解方法将高维的单机器人控制问题转化为低维的多关节控制器协同学习问题,从而缓解连续运动控制的维度灾难难题;其次,通过两种协同图模型(ATTENTION和PODT)动态推理控制器之间的关联关系,实现机器人内部关节的信息交互和协同学习;最后,为了平衡ATTENTION和PODT协同图模型的计算复杂度和信息冗余度,进一步提出两种协同图模型更新方法 APDODT和PATTENTION,实现控制器之间长期关联关系和短期关联关系的动态自适应调整.实验结果表明,基于结构驱动的机器人强化学习方法能显著提升机器人控制策略学习效率.此外,基于协同图模型的关系推理及协同机制,可为最终学习策略提供更为直观和有效的解释.  相似文献   

17.
准确预测风电机组各项指标对准确管控机组和调控电网的供需有着重要意义. 预测指标任务可抽象为风电时间序列预测任务. 目前时间序列预测模型主要采用深度学习模型, 但是风电时间序列具有较强的波动性和随机性, 导致绝大部分模型不能较好挖掘风电时间序列的复杂演化特性. 为解决上述问题, 提出了一种基于渐进式分解架构的风电时间序列预测方法, 该方法首先应用神经网络池化分解方法将复杂的依赖关系简化并应用注意力机制学习长期趋势, 然后运用多变量融合捕捉模块增强了网络整体的多变量关联挖掘能力, 最后, 融合趋势项和周期项对风电时间序列做出准确的预测. 实验结果表明, 该方法在风电时间序列的多步预测中均方误差相比基线模型至高可提升24%, 在多尺度预测长度下表现出预测性能稳定提升的同时, 计算效率显著优于同类模型.  相似文献   

18.
遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,本文提出了一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,本文设计了基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,本文使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,本文提出的模型在两个公共RSVQA数据集上具有显著优势.  相似文献   

19.
区别于传统深度强化学习中通过从经验回放单元逐个选择的状态转移样本进行训练的方式,针对采用整个序列轨迹作为训练样本的深度Q网络(Deep Q Network,DQN),提出基于遗传算法的交叉操作扩充序列样本的方法.序列轨迹是由智能体与环境交互的试错决策过程中产生,其中会存在相似的关键状态.以两条序列轨迹中的相似状态作为交叉点,能产生出当前未出现过的序列轨迹,从而达到扩充序列样本数量、增大序列样本的多样性的目的,进而增加智能体的探索能力,提高样本效率.与深度Q网络随机采样训练样本和采用序列样本向后更新的算法(Episodic Backward Update,EBU)进行对比,所提出的方法在Playing Atari 2600视频游戏中能取得更高的奖赏值.  相似文献   

20.
宋小华  欧阳丹彤 《软件学报》2012,23(9):2311-2322
在空间信息处理中,一些常识空间信息通常结合多方面空间关系,而且这些空间关系是动态变化的.为了有效地表示这些复杂的空间关系,并对其进行推理,提出了一种结合拓扑、方向和大小关系的空间信息处理模型TDSC (topology-direction-size calculus),并基于TDSC模型提出了处理动态空间关系变化的表示推理框架.首先,利用同对象多属性的方法建立了融合大小、拓扑和方向关系的完备至斥基本关系表示;然后提出了复合表生成算法和推理算法,使得原有模型的表示和推理结果可以直接在新模型中使用.同时提出处理动态空间关系的邻域划分图,给出了邻域划分图的自动生成算法,以及TDSC模型的邻域划分图.最后给出基于TDSC模型邻域划分图的表示和推理框架,并结合实例说明框架的正确性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号