图/表 详细信息

基于深度强化学习的北极最优航线智能规划算法研究
胡浩帆, 吴阿丹, 韩冰, 朱小文, 陈胜鹏, 张瑞
冰川冻土, 2025, 47(2): 587-598.   DOI: 10.7522/j.issn.1000-0240.2025.0046

方向QQ
Q(5,上)=-6.7102-6.7102+0.001×(-2.46-0.97×5.1644+6.7102)=-6.7110
Q(5,下)=-3.2645-3.2645+0.001×(-1.53-0.97×1.7909+3.2645=-3.2645
Q(5,左)=-95.4797-95.4797+0.001×(-100-0.97×3.2645+95.4797=-95.4874
Q(5,右)=-3.2645-3.2645+0.001×(-1.53-0.97×1.7908+3.2645=-3.2645
表5 训练5分钟后5号点4个动作方向最新Q
本文的其它图/表