摘 要: | 针对复杂电磁环境下的跳频抗干扰通信决策问题,提出了一种新的混合深度循环Q网络(MixDRQN)决策算法。该深度决策算法有效集成了双深度Q网络(DoubleDQN)和对决深度Q网络(DuelingDQN)两种决策机理的优点,并在信号处理前端引入长短时记忆(LSTM)层,以增强决策网络对输入频谱瀑布信号的时间相关特征提取能力。研究表明,所提出的混合决策算法通过引入DoubleDQN解决了基于ε-greedy算法导致的Q值估计偏高的问题,同时通过DuelingDQN和前端增加的LSTM层,能有效学习输入频谱瀑布信号的时间相关特征。实验结果显示,所提方法在多种干扰信号下的收敛速度及抗干扰性能均显著提升,收敛速度较已有算法提升8倍以上。
|