×
模态框(Modal)标题
在这里添加一些文本
关闭
关闭
提交更改
取消
确定并提交
×
模态框(Modal)标题
×
ISSN 1000-0240
CN 62-1072/P
RSS服务
|
Email Alert
Toggle navigation
首页
期刊介绍
编委会
作者中心
出版伦理
期刊在线
当期目录
优先出版
过刊浏览
阅读排行
下载排行
引用排行
期刊订阅
广告合作
联系我们
English
图/表 详细信息
基于深度强化学习的北极最优航线智能规划算法研究
胡浩帆, 吴阿丹, 韩冰, 朱小文, 陈胜鹏, 张瑞
冰川冻土, 2025, 47(
2
): 587-598. DOI:
10.7522/j.issn.1000-0240.2025.0046
方向
奖励
到达新的状态坐标
s
′
新状态最大
Q
值max
Q
(
s
′,
a
′)
上
-2.46
1
0
下
-1.53
9
0
左
-100
5
0
右
-1.53
6
0
表1
5号点到达不同状态时获得的奖励与新状态最大
Q
值
本文的其它图/表
图1
北极航道分布
图2
基于强化学习的最优航线提取
图3
强化学习4×4格网环境(左)与其初始状态(右)
图4
网络训练过程中不同状态下的
Q
值变化
表2
5号点更新一次后4个动作方向对应的最新
Q
值
表3
训练初始阶段5号点执行4个不同动作的概率
表4
训练5分钟之后新状态
s
′对应的最大
Q
值
表5
训练5分钟后5号点4个动作方向最新
Q
值
图5
训练收敛后智能体根据
Q
值得到的贪婪策略
图6
普通商船2013年7月15日北极通航环境构建
图7
智能体探索未知环境
图8
自动预测的2020年7月15日北极普通商船最优航线
表6
基于传统A*算法和深度强化学习提取北极航线的优缺点
图9
本研究提取的最优航线与已有航线进行对比
注:
红线是2013年8月“永盛”号商船实际航行轨迹,绿线为本文算法自动计算出的最优路线。海洋中不同的颜色代表不同的海冰厚度。