冰川冻土

图/表详细信息

基于深度强化学习的北极最优航线智能规划算法研究

胡浩帆, 吴阿丹, 韩冰, 朱小文, 陈胜鹏, 张瑞

冰川冻土, 2025, 47(2): 587-598. DOI: 10.7522/j.issn.1000-0240.2025.0046

方向	奖励	到达新的状态坐标s′	新状态最大Q值maxQ（s′，a′）
上	-2.46	1	0
下	-1.53	9	0
左	-100	5	0
右	-1.53	6	0

表1 5号点到达不同状态时获得的奖励与新状态最大Q值

本文的其它图/表