排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。 相似文献
2.
针对货运列车缓解阀盖缺失故障的检测,提出一种基于轮廓有向线段重构与成对几何直方图的匹配方法。该方法首先根据最大弦长和极半径确定采样初始位置,并根据局部弯曲度评价机制对轮廓进行动态分级采样;然后以采样点为端点按逆时针顺序构建有向线段,依次计算每对线段间的有向相对角和归一化当量距离,并最终将其作为该对线段的双重特征描述子计入二维直方图;最后使用巴氏距离对二维直方图间的相似性进行度量。实验分析表明,该算法对旋转、缩放和平移等几何变换有较好的鲁棒性,同时也兼顾了检测效率,满足了列车故障检测的实时性要求。 相似文献
1