期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

华夏王新晴芮挺邵发明王东《浙江大学学报(工学版)》2022,56(7):1464-1472

针对无人机机动目标跟踪的自主运动控制问题,提出连续型动作输出的无人机端到端主动目标跟踪控制方法. 设计基于视觉感知和深度强化学习策略的端到端决策控制模型,将无人机观察的连续帧视觉图像作为输入状态,输出无人机飞行动作的连续型控制量. 为了提高控制模型的泛化能力,改进基于任务分解和预训练的高效迁移学习策略. 仿真结果表明,该方法能够在多种机动目标跟踪任务中实现无人机姿态的自适应调整,使得无人机在空中能够稳定跟踪移动目标,显著提高了无人机跟踪控制器在未知环境下的泛化能力和训练效率. 相似文献

2.

深度确定性策略梯度和预测相结合的无人机空战决策研究

李永丰吕永玺史静平李卫华《西北工业大学学报》2023,(1):56-64

针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题，提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理，搭建无人机六自由度模型和机动动作库，在空战中目标通过深度Q网络算法生成相应机动动作库指令，同时我方无人机通过概率神经网络给出目标机动的预测结果。提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法，使得无人机能够根据当前空战态势选择合适的机动决策。仿真结果表明，该算法可以有效利用空战态势信息和目标机动预测信息，在保证收敛性的前提下提高无人机自主空战决策强化学习算法的有效性。相似文献

3.

基于Q学习的变体无人机控制系统设计

徐小野李爱军张丛丛姚宗信《西北工业大学学报》2012,30(3):340-344

针对变体无人机的控制问题,给出了Q学习控制方法。首先根据设计任务要求设计控制律控制变体无人机按给定航路完成飞行。同时根据飞行环境和飞行任务的变化,利用Q学习方法控制变体飞行器相应地改变外形(平直翼、小前掠翼、大前掠翼),使变体飞行器能始终保持最优飞行状态,以满足在变化很大的飞行环境里执行多种任务(如巡航、机动、盘旋、攻击等)的要求。仿真结果验证了该方法的正确性和有效性。相似文献

4.

基于深度强化学习算法的车辆行为决策研究

陈名松张泽功吴冉冉吴泳蓉《桂林电子科技大学学报》2022,42(1):29-35

针对传统的DDPG算法训练时间长和收敛速度慢的问题,提出一种将引导式学习和优选经验回放机制相结合融入DDPG的算法.改进的DDPG算法在训练初期的动作输出为引导式学习和策略网络共同作用的结果,后期引导式学习不再参与控制.同时引入经验池分离技术,将优势经验样本和劣势经验样本分开存储和固定比例随机抽取.在TORCS平台上进... 相似文献

5.

基于深度强化学习的自动驾驶车控制算法研究

《郑州大学学报(工学版)》2020,(4)

为了提高基于强化学习的自动驾驶车控制算法的学习效率,提出了一种结合专家经验的自动驾驶策略学习算法(deep deterministic policy gridient with expert,DDPGwE)。DDPGwE采用基于DDPG的强化学习框架进行模型在线训练,使用真实的人类驾驶数据对actor网络进行预训练,同时在actor网络中加入LSTM预测机制,提升自动驾驶车对将要发生状况的预判。在仿真平台TORCS中的实验结果表明,所提算法相较于原始DDPG算法,训练时间大大缩短,收敛速度加快,提高了模型的稳定性和泛化能力。相似文献

6.

基于改进强化学习的多智能体追逃对抗

薛雅丽叶金泽李寒雁《浙江大学学报(工学版)》2023,(8):1479-1486+1515

针对多智能体追逃问题，提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法（MADDPG）和双延迟-确定策略梯度算法（TD3）相结合，提出多智能体双延迟-确定策略梯度算法（MATD3）.针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题，提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数，将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励，提出DEPER-MATD3算法.基于此算法设计仿真实验，并与其他算法对比，实验结果表明，该算法有效解决了过估计问题，且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高，追击者有更大的概率追击到逃逸者. 相似文献

7.

基于深度强化学习的大口径轴孔装配策略

姜玉峰陈东生《浙江大学学报(工学版)》2023,(11):2210-2216

针对大口径轴孔装配任务中存在的惯性冲击大、力控不稳定、装配精度差等问题，提出基于深度强化学习与模糊策略的大口径轴孔装配策略.该策略通过模糊动作生成器对强化学习算法输出的装配动作进行补偿，实现精确的状态跟踪.通过深度确定性决策梯度（DDPG）算法采集环境状态数据并计算输出动作，引导机器人改变装配状态.引入模糊动作生成器，与DDPG算法结合生成DDPGFA装配策略，利用模糊策略添加动作系数，提高装配动作准确性.在合理制定奖赏函数和模糊规则的基础上，实现训练过程的快速收敛.通过设定安全阈值保证在线学习过程中系统的受力安全.大口径轴孔装配仿真和实验结果表明，与未采用模糊动作的强化学习装配策略相比，DDPGFA策略能在更稳定的步数下完成装配，且离线训练速度提升约15%，装配接触力减小约30%. 相似文献

8.

风光出力场景生成的条件深度卷积生成对抗网络方法

于龙泽肖白孙立国《东北电力学院学报》2021,41(6):90-99

针对多能源电力系统中给可再生能源消纳和系统优化调度带来不利影响的风电和光伏发电功率的不确定性的问题,提出了一种基于改进条件深度卷积生成对抗网络的风光出力场景生成方法.首先,设计适用于风电和光伏出力场景生成的条件生成对抗网络的网络结构,并采用Wasserstein距离作为判别器损失函数.然后,通过条件生成对抗网络的博弈训练使生成器学习到随机噪声与真实历史数据训练集的映射关系,从而高效地生成与真实场景分布接近的场景.最后,利用我国西北某省的风光历史出力数据进行测试,并与基于Markov和Copula理论的场景生成方法进行对比验证,结果表明文中方法生成的场景能够准确地描述可再生能源出力的不确定性. 相似文献

9.

基于DDPG的无人机轨迹规划及功率控制算法

杨青青陈剑彭艺《北京邮电大学学报》2023,(3):43-48

针对无人机辅助地面用户下行通信的场景，以用户的最小平均可达速率最大化为目标，提出了无人机轨迹约束、功率约束和用户接入调度的优化问题。考虑到约束条件的耦合性和优化问题的非凸性，将构建的优化问题建模为马可科夫决策过程，提出了一种基于深度确定性策略梯度(DDPG)的无人机轨迹规划和功率控制算法。仿真结果表明，所提算法能够有效地提高用户的最小平均可达速率。相似文献

10.

面向轴承智能诊断的多领域深度对抗迁移网络

贾峰李世豪沈建军关海宁《哈尔滨工业大学学报》2022,54(7):120-127

针对不同工况下轴承监测数据分布差异性导致的诊断精度下降问题,基于深度学习与迁移学习,提出一种多领域深度对抗迁移网络,用于变工况下轴承的智能诊断。将不同工况下的样本集视作属于不同的领域,在特征提取时利用深度残差网络将轴承源域的训练数据与目标域的测试数据映射到高维特征空间,提取监测数据高层抽象的特征表示;设计多领域对抗模块,以支持多故障模式的轴承样本在不同领域对抗模块上进行对抗迁移训练,保障源域与目标域数据在特征空间中的分布有效对齐;在利用源域数据训练故障分类器时引入标签平滑约束,增强故障识别的泛化能力,将源域故障诊断知识迁移到目标域数据的故障信息识别,实现变工况下的轴承智能诊断。利用变工况下的齿轮箱轴承故障数据集与电机轴承数据集对提出方法进行验证,结果表明：相比其他方法,提出的新方法考虑了轴承监测数据的多故障模式结构,更好地提取了领域不变特征,提升了变工况下轴承故障的识别精度。相似文献

11.

基于深度学习的洗衣机异常音检测

李春阳李楠冯涛王朱贺马靖凯《山东大学学报(工学版)》2020,50(2):108-117

基于卷积神经网络框架,提出一种洗衣机异音识别模型,根据卷积神经网络显著特征提取能力和平移不变性,学习洗衣机的异音特征,实现生产线洗衣机的异音自动智能识别。给出完整的过程解决训练数据集的建立、数据样本不平衡等问题。提出一种用于数据增强的网络模型——音频深度卷积生成对抗网络解决训练样本的稀缺性问题。该模型对传统的深度卷积生成对抗网络进行改进,以更好地适应工业音频的生成。利用该模型能够对原始数据进行扩展,生成洗衣机异音增强数据集,在该数据集的基础上进行卷积神经网络训练,经测试准确率达到0.999。利用添加背景噪声信号的数据集测试洗衣机异音识别模型的泛化能力,正确识别率达到0.902,表明该网络在识别洗衣机异音方面具有良好的鲁棒性。相似文献

12.

基于ARGAN表面阴影预处理与迁移学习风电机组叶片故障识别

《华北电力大学学报(自然科学版)》2021,48(2)

叶片是风电机组获取风能的重要部件。风电机组运行环境恶劣,叶片表面易出现剥落、开裂等多种故障。叶片故障的及时识别能够保障机组安全稳定运行。然而无人机拍摄叶片图像数据常出现光照不均,导致故障被阴影遮挡的情况,阴影边缘很难与叶片边缘区分开从而干扰计算机视觉算法,导致故障图像识别准确率低。对此利用专注递归生成对抗网络(Attentive Recurrent Generative Adversarial Network,ARGAN)对原始图像的阴影进行处理,减少阴影区域对算法识别分类的干扰,完整保留叶片故障区域,再将处理后的图像送入卷积神经网络,利用迁移学习思想进行训练学习。通过与传统图像处理方法以及条件生成对抗网络、深度卷积对抗网络对比,可得出ARGAN效果最佳,可使处理后的故障图像识别准确率达到89%,同时降低了均方根误差,从而验证了这种方法的可行性。相似文献

13.

一种基于对抗训练的医疗问答匹配方法

付洁琼孙亚伟刘建毅李金斌《北京邮电大学学报》2022,45(4):37-43

相较于英文开放领域的问答匹配,中文专业医疗领域的问答匹配任务更具有挑战性。针对中文语义和医疗数据的复杂、多样,大多数研究人员都专注于设计繁杂的神经网络来探索更深层次的文本语义,工作思路较为单一,同时神经网络模型很容易因为微小扰动而误判,模型的泛化能力较差。为此,提出了一种基于对抗训练的问答匹配模型,利用双向预训练编码器来捕获问答句的语义信息,从而得到对应的向量表征;再通过在词嵌入表示上添加扰动因子生成对抗样本;最后将初始样本和对抗样本共同输入带有线性层的模型中进行分类预测。在cMedQA V2.0数据集上通过对比实验证明了对抗训练可以有效提升问答匹配模型的性能。相似文献

14.

一种无监督学习型神经网络的无人机全区域侦察路径规划

《西北工业大学学报》2021,(1)

针对不确定信息条件下的无人机全区域侦察路径规划问题,提出了一种基于遗传算法的神经网络无监督学习方法。构建了环境模型、无人机模型与评价指标,并建立了无人机全区域侦察路径规划的神经网络模型。在此基础上,考虑到路径规划神经网络训练样本难以获取的问题,采用遗传算法对神经网络参数的无监督训练进行了优化。相对于传统方法,文中构建的评价指标不需要人为指定无人机机动规则,并且提出的离线学习方法具有优良的迁移能力。仿真结果表明,基于无监督学习型神经网络的无人机,能够在未知环境中规划出有效路径完成全区域侦察任务。相似文献

15.

自动驾驶路径优化的RF-DDPG车辆控制算法研究

下载免费PDF全文

焦龙飞谷志茹舒小华袁鹏王建斌《湖南工业大学学报》2024,39(1):62-69

针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题，提出了一种深度确定性策略梯度RF-DDPG（reward function-deep deterministic policy gradient）路径跟踪算法。该算法是在深度强化学习DDPG的基础上，设计DDPG算法的奖励函数，以此优化DDPG的参数，达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台，对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明，所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。相似文献

16.

双层优化的多无人机合作式冲突探测与解脱 总被引：2，自引：0，他引：2

付其喜梁晓龙张佳强侯岳奇《哈尔滨工业大学学报》2020,52(4):74-83

为解决多无人机基于航向的合作式短期冲突探测与解脱问题,提出一种局部集中双层优化的合作式方法.首先将既有冲突约束与潜在冲突约束视为同一类型约束,以保证多无人机冲突问题在最大范围内求解,并设计了基于采样的冲突探测方法;通过旋转局部坐标系减少了搜索的可行区域数量,且分析了终点约束与切线约束两种解脱约束条件;然后运用图论的方法对多无人机冲突问题进行冲突关系划分,将由机动导致的无人机额外飞行距离作为解脱代价设计了机动代价函数,为求解所设计的机动代价函数这个非线性优化问题提出了双层优化策略,即先利用随机并行梯度下降法(stochastic parallel gradient descent,SPGD)搜索航向解脱的初始可行解,再运用序列二次规划(sequential quadratic programming,SQP)求得最优解以进行最优的航向解脱. 最后运用蒙特卡洛法对算法进行了可靠性评价.结果表明,本方法能够满足在线规划的需要,在解脱开始距离D_avo=τ×v_i（τ=25 s）的情况下能够实现100%的冲突解脱,该方法能够在保证多无人机冲突解脱安全性的基础上减少机动消耗. 相似文献

17.

类别语义信息对齐的无监督领域自适应网络

贾熹滨李启铭王珞《北京工业大学学报》2023,(5):523-531

针对在目标应用场景中缺乏大量有标定训练数据的情况下难以获得有效的深度学习分类模型的问题,结合领域分布差异的方法与对抗学习方法的优势,提出以显式特征对齐与隐式领域对抗及类别对齐为基础的领域自适应框架.对于显式特征对齐模块,考虑到领域知识差异大带来的优化难题,采用渐进式协同优化策略,通过逐层减小不同语义层之间的领域差异,提升领域自适应性能.对于隐式类别对齐模块,为了增强目标特征的判别性,使用自训练方法获得伪标签,克服伪标签存在的标签噪声问题,并通过学习混淆矩阵优化伪标签的准确率,自动构造新的目标领域损失函数,从而在减小领域间差异的同时,提升源领域与目标领域相同类别的特征分布对齐的准确性.基于Office-31数据集的6个跨领域分类任务与基于Office-Home数据集的12组跨领域分类任务的实验结果表明,该方法在迁移学习任务上的平均分类准确率相较于基准方法分别提升11.9%和19.9%,所提出网络对于领域自适应任务是有效的. 相似文献

18.

基于小波采样理论的新型准则函数

毛伟伟张治国金晓宇《电子科技大学学报(自然科学版)》2024,(1):102-109

为解决在噪声环境下建模的过拟合问题,基于小波采样理论,提出一种适用于小波神经网络的新型准则函数,并设计了相应的训练算法。这种算法能够利用样本分布和误差训练输入和输出层权值,因此可以大大提高小波神经网络的学习效率。理论和试验表明,新型准则函数有力地保证了小波神经网络的泛化能力,其相应的算法具有全局收敛性,并对噪声变化具有良好的鲁棒性。相似文献

19.

基于多变量时序数据的对抗攻击与防御方法

刘坤曾恩刘博涵李俊达李江荣《北京工业大学学报》2023,(4):415-423

为了保证时序数据攻击检测模型的安全性,提出了基于多变量时间序列数据的对抗攻击与对抗防御方法.首先,针对基于自编码器的攻击检测模型,设计了在测试阶段实施的逃逸攻击.其次,针对设计的对抗攻击样本,提出了一种基于雅克比(Jacobian)正则化方法的对抗攻击防御策略,将模型训练过程中的Jacobian矩阵作为目标函数中的正则项,提高了深度学习模型对对抗攻击的防御能力.在工业水处理数据集BATADAL上进行实验,验证了所提出的对抗攻击方法和对抗防御方法的有效性. 相似文献

20.

面向事件检测的预训练主动学习模型

下载免费PDF全文

冯琳慧乔林波阚志刚《南京师范大学学报》2022,(2):041-47

深度学习在事件检测任务上取得了显著的成果,但模型严重依赖于大量的标注数据. 由于事件结构化的信息和丰富的标签表示,使得获取注释的成本很高,难以大量获得. 针对事件检测任务,为了提高语料标注效率,减少训练过程所需的标注样本数量,提出一种联合主动学习和预训练模型的事件检测模型. 针对主动学习模型存在的冷启动问题,设计了基于融合不确定性的特殊样本选择策略,估计样本在微调下游事件检测任务方面的潜在贡献. 一方面,结合预训练模型从原始任务中带来的丰富的语义信息,避免了重新设计网络结构或从零开始训练; 另一方面,利用主动学习选择信息丰富的样本能更好地微调预训练模型,减少数据标注成本. 在ACE 2005语料上进行数值实验验证,结果证明了所提出的EDPAL算法的有效性. 相似文献