冰川冻土

基于深度强化学习的北极最优航线智能规划算法研究

胡浩帆, 吴阿丹, 韩冰, 朱小文, 陈胜鹏, 张瑞

冰川冻土, 2025, 47(2): 587-598. DOI: 10.7522/j.issn.1000-0240.2025.0046

方向	奖励	到达新的状态坐标s′	新状态的最大Q值maxQ（s′，a′）
上	-2.46	1	-5.1644
下	-1.53	9	-1.7909
左	-100	5	-3.2645
右	-1.53	6	-1.7908

表4 训练5分钟之后新状态s′对应的最大Q值

本文的其它图/表