由于感知的不确定性、动态障碍物的存在以及非线性耦合的运动控制难题,无人水下航行器(UUV)在复杂海洋环境中实现安全、高效的自主导航面临着重大挑战。近日,中国科学院福建物质结构研究所泉州装备制造研究中心巢建树课题组提出了一种分层自主导航框架:该框架集成了改进的粒子群优化(PSO)算法用于三维全局路径规划,并采用了融合噪声网络(Noisy Networks)与比例优先经验回放(PPER)技术的深度确定性策略梯度(DDPG)算法用于局部避碰。为解决执行过程中动态侧滑及洋流引起的航向偏差问题,本研究进一步开发了一种新颖的三维自适应视线(3D ALOS)制导方法;该方法将水平面与垂直面上的非线性运动进行解耦,从而确保了鲁棒的航迹跟踪性能。全局规划器采用了一种综合考量偏航角与俯仰角调整的多目标代价函数;与此同时,改进后的PSO算法引入了非线性同步自适应权重机制,以提升算法的收敛速度并有效避免陷入局部最优解。在局部避碰环节,所提出的DDPG框架融合了增强记忆的状态-动作表示、基于门控循环单元(GRU)的时序处理机制,以及分层采样的经验回放策略,显著提升了学习过程的稳定性和探索效率。
图1. 以目标为导向的DDPG避碰算法框架
图2. 变深条件下不同规划算法的UUV避碰规划轨迹图
图3. 变深条件下,不同规划算法下UUV执行器的变化曲线
这项工作有效地将全局规划、局部避碰与路径跟踪有机结合,构建了一套连贯统一的自主导航策略,所提出的方法在面临稀疏奖励、感知受限及非线性运动耦合的场景时,使UUV具备高效、安全导航的能力。
相关研究成果以“Three-Dimensional Autonomous Navigation of Unmanned Underwater Vehicle Based on Deep Reinforcement Learning and Adaptive Line-of-Sight Guidance”为题发表于Journal of Marine Science and Engineering期刊。中国科学院福建物质结构研究所泉州装备制造研究中心袁建亚工程师为论文共同第一作者。研究工作获得汉江国家实验室联合培养基金、中央高校基本科研基金、水下机器人技术国家重点实验室基金以及高水平科研引导专项等项目的支持。
论文链接:https://www.mdpi.com/2077-1312/13/12/2360
(巢建树课题组供稿)