冰川冻土

基于深度强化学习的北极最优航线智能规划算法研究

胡浩帆, 吴阿丹, 韩冰, 朱小文, 陈胜鹏, 张瑞

冰川冻土, 2025, 47(2): 587-598. DOI: 10.7522/j.issn.1000-0240.2025.0046

方法	航线提取时间	优点	缺点
A*算法	29.5 s	（1）算法原理简单；（2）不需针对模型进行训练和预测	（1）A使用传统贪婪策略，每次都选择当前最优的路径，容易造成局部最优，导致规划失败或者只能找到次优的路径；（2）A算法模型复杂且计算量大，很难进行实时的路径规划
深度强化学习	0.54 s	（1）预测结果速度非常快；（2）使用 $ϵ$ -贪婪策略，在训练中广泛探索不同的状态，找到更合理的路线	需要对模型进行训练，针对本研究构建北极的环境格网，训练一次需要10 min左右

方法

航线提取时间

优点

缺点

A*算法

29.5 s

（1）算法原理简单；

（2）不需针对模型进行训练和预测

（1）A*使用传统贪婪策略，每次都选择当前最优的路径，容易造成局部最优，导致规划失败或者只能找到次优的路径；

（2）A*算法模型复杂且计算量大，很难进行实时的路径规划

深度强化学习

0.54 s

（1）预测结果速度非常快；

（2）使用 $ϵ$ -贪婪策略，在训练中广泛探索不同的状态，找到更合理的路线

需要对模型进行训练，针对本研究构建北极的环境格网，训练一次需要10 min左右

表6 基于传统A*算法和深度强化学习提取北极航线的优缺点

本文的其它图/表