图/表 详细信息

基于深度强化学习的北极最优航线智能规划算法研究
胡浩帆, 吴阿丹, 韩冰, 朱小文, 陈胜鹏, 张瑞
冰川冻土, 2025, 47(2): 587-598.   DOI: 10.7522/j.issn.1000-0240.2025.0046

方向奖励到达新的状态坐标s新状态最大Q值maxQs′,a′)
-2.4610
-1.5390
-10050
-1.5360
表1 5号点到达不同状态时获得的奖励与新状态最大Q
本文的其它图/表