图/表 详细信息

基于深度强化学习的北极最优航线智能规划算法研究
胡浩帆, 吴阿丹, 韩冰, 朱小文, 陈胜鹏, 张瑞
冰川冻土, 2025, 47(2): 587-598.   DOI: 10.7522/j.issn.1000-0240.2025.0046

方向奖励到达新的状态坐标s新状态的最大Q值maxQs′,a′)
-2.461-5.1644
-1.539-1.7909
-1005-3.2645
-1.536-1.7908
表4 训练5分钟之后新状态s′对应的最大Q
本文的其它图/表