图/表 详细信息

基于深度强化学习的北极最优航线智能规划算法研究
胡浩帆, 吴阿丹, 韩冰, 朱小文, 陈胜鹏, 张瑞
冰川冻土, 2025, 47(2): 587-598.   DOI: 10.7522/j.issn.1000-0240.2025.0046

动作是否为实际最优动作采取该动作概率值
0.2/4=0.05
(1-0.2)+0.2/4=0.85
0.2/4=0.05
0.2/4=0.05
表3 训练初始阶段5号点执行4个不同动作的概率
本文的其它图/表