排序方式: 共有36条查询结果,搜索用时 0 毫秒
1.
2.
策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法(PGPE)通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度估计方差大阻碍了其在现实问题中的实际应用。为进一步减小PGPE算法策略梯度估计的方差,提出了基于值函数估计的参数探索策略梯度算法(PGPE-FA),该算法在PGPE算法中引入Actor-Critic框架。具体地,提出的方法使用价值函数估计策略梯度,代替了PGPE方法使用轨迹样本估计策略梯度的方式,从而减小梯度估计方差。最后,通过实验验证了所提算法能够减小梯度估计的方差。 相似文献
3.
随着教育信息化程度的不断加深,以预测学生知识状态为目标的知识追踪正成为个性化教育中一项重要且富有挑战性的任务。知识追踪作为一项教育数据挖掘的时间序列任务,与深度学习模型强大的特征提取和建模能力相结合,在处理顺序任务时具有得天独厚的优势。为此,简要分析传统知识追踪模型的特点及局限性,以深度知识追踪发展历程为主线,总结基于循环神经网络、记忆增强神经网络、图神经网络的知识追踪模型及其改进模型,并对该领域的已有模型按照方法策略归类整理。同时梳理了可供研究者使用的公开数据集和模型评估指标,比较和分析不同建模方法的特点。对基于深度学习的知识追踪的未来发展方向进行探讨和展望,奠定进一步深入基于深度知识追踪研究的基础。 相似文献
4.
针对行人重识别中行人文本属性信息未被充分利用以及文本属性之间语义联系未被挖掘的问题,提出一种基于多模态的图卷积神经网络(GCN)行人重识别方法。首先使用深度卷积神经网络(DCNN)学习行人文本属性与行人图像特征;然后借助GCN有效的关系挖掘能力,将文本属性特征与图像特征作为GCN的输入,通过图卷积运算来传递文本属性节点间的语义信息,从而学习文本属性间隐含的语义联系信息,并将该语义信息融入图像特征中;最后GCN输出鲁棒的行人特征。该多模态的行人重识别方法在Market-1501数据集上获得了87.6%的平均精度均值(mAP)和95.1%的Rank-1准确度;在DukeMTMC-reID数据集上获得了77.3%的mAP和88.4%的Rank-1准确度,验证了所提方法的有效性。 相似文献
5.
针对Fisher score未充分考虑特征与标记以及标记之间的相关性,以及一些邻域粗糙集模型容易忽略边界域中知识粒的不确定性,导致算法分类性能偏低等问题,提出一种基于Fisher score与模糊邻域熵的多标记特征选择算法(MLFSF)。首先,利用最大信息系数(MIC)衡量特征与标记之间的关联程度,构建特征与标记关系矩阵;基于修正余弦相似度定义标记关系矩阵,分析标记之间的相关性。其次,给出一种二阶策略获得多个二阶标记关系组,以此重新划分多标记论域;通过增强标记之间的强相关性和削弱标记之间的弱相关性得到每个特征的得分,进而改进Fisher score模型,对多标记数据进行预处理。再次,引入多标记分类间隔,定义自适应邻域半径和邻域类并构造了上、下近似集;在此基础上提出了多标记粗糙隶属度函数,将多标记邻域粗糙集映射到模糊集,基于多标记模糊邻域给出了上、下近似集以及多标记模糊邻域粗糙集模型,由此定义模糊邻域熵和多标记模糊邻域熵,有效度量边界域的不确定性。最后,设计基于二阶标记相关性的多标记Fisher score特征选择算法(MFSLC),从而构建MLFSF。在多标记K近邻(MLKNN)分类器... 相似文献
6.
针对当前LSTM模型在对金融时间序列数据预测时普遍存在的滞后性问题,提出一种基于LSTM模型的金融数据跨尺度预测方法。通过在训练模型中加入最值选择机制,结合短周期数据转换为长周期数据方法,达到跨尺度预测效果,该跨尺度预测方法降低了金融时间序列数据预测的滞后性。通过结合经济学技术性指标的多维度数据,提高模型的预测精度。依据K线图思路,对金融时序数据进行处理,将K线图所反映的信息通过数值的角度回馈模型,通过这种改进型方法,提高模型的预测精度。通过实验验证,该方法相较传统方法预测精度更高,滞后性更低。 相似文献
7.
强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制。然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选择相应的行为。受人类决策机制的启发,为了让强化学习中的行为选择可控,使智能体能够根据意图选择动作,将意图变量加入到策略模型中,提出了一种基于意图控制的强化学习策略学习方法。具体地,通过意图变量与动作的互信息最大化使两者产生高相关性,使得策略能够根据给定意图变量选择相关动作,从而达到对智能体的控制。最终,通过复杂的机器人控制仿真任务Mujoco验证了所提方法能够有效地通过意图变量控制机器人的移动速度和移动角度。 相似文献
8.
9.
骨折复位及畸形矫正机器人对于人体肢体功能的重建具有积极的意义,其轨迹规划的质量直接影响着术后的效果和机器人的实用性,然而目前系统的轨迹规划研究分析较少。简述了骨折复位及畸形矫正机器人国内外发展现状,分析了断骨复位、重建轨迹规划的关键技术和共性问题,从轨迹规划的发展历程、分类以及求解方法三个方面对骨折复位及畸形矫正机器人的轨迹规划研究进展和关键技术进行了综述,并就目前存在的问题和未来发展趋势进行了总结分析,以期为骨折复位及畸形矫正机器人的轨迹规划提供参考和建议,具有积极的研究意义。 相似文献
10.
优化器是提高深度学习模型性能的关键因素,通过最小化损失函数使得模型的参数和真实参数接近从而提高模型的性能。随着GPT等大语言模型成为自然语言处理领域研究焦点,以梯度下降优化器为核心的传统优化器对大模型的优化效果甚微。因此自适应矩估计类优化器应运而生,其在提高模型泛化能力等方面显著优于传统优化器。以梯度下降、自适应梯度和自适应矩估计三类优化器为主线,分析其原理及优劣。将优化器应用到Transformer架构中,选取法-英翻译任务作为评估基准,通过实验深入探讨优化器在特定任务上的效果差异。实验结果表明,自适应矩估计类优化器在机器翻译任务上有效提高模型的性能。同时,展望优化器的发展方向并给出在具体任务上的应用场景。 相似文献