基于深度强化学习的望远镜阵列观测策略优化
2023年5月,太原理工大学光电工程学院智能光学成像实验室联合国家天文台及鹏城实验室在分布式望远镜阵列观测策略优化上取得新进展。该工作研发了一种基于强化学习的望远镜阵列控制系统,能够有效的解决时域天文学中针对快速移动目标的监测和搜寻任务,发表在国际著名天体物理期刊AJ(The Astrophysical Journal)上。
因为具有大视场,低成本、易维护等优点,大视场小口径望远镜(Wide Field Small Aperture Telescope, WFSAT)被广泛的应用于时域天文学中。望远镜阵列指的是在相同地点或者不同地点的多台望远镜对同一观测任务进行联合观测,能够以更高的频率获得天文观测数据。随着望远镜阵列中望远镜的数目增多和科学任务的复杂度提升,对望远镜阵列的调度方案要求越来越高。
相较于传统算法只考虑静态因素、耗费大量的计算资源等劣势,深度强化学习处理连续动态图像的能力将有助于解决望远镜阵列的策略调度问题。深度强化学习是指将深度学习和强化学习结合起来,通过智能体与未知环境交互,学习最优行动策略的机器学习方法。其主要思想是基于强化学习的奖励机制,通过深度神经网络对状态和行动的价值进行估计和优化,以实现自主决策和行动。深度强化学习已经在许多领域取得了重大进展,例如游戏、机器人控制、自然语言处理等。然而,真实环境往往难以控制和复制,而且存在风险和成本的考虑。因此,研究人员通常使用模拟环境来训练深度强化学习模型,以便在实际应用中进行测试和验证,并且可以随时重复训练过程,以便进行更深入的调试和分析。
图1. 强化学习基本流程,包含智能体和环境两个部分,通过状态、奖励和动作交互实现智能体和环境的交互。
为实现望远镜阵列观测策略优化,首先需要构建一个高保真数字模拟环境对观测流程进行仿真(数字模拟环境当前正在由智能光学成像实验室数字孪生小组进行发展和落实,具体看参考本网站其他报道)。具体而言,本研究构建了望远镜阵列模型、天体模型和天球模型以及各模型之间的连接,最终搭建了望远镜阵列数字模拟环境(下图所示为模拟环境的可视化界面)。
图2.观测仿真模型可视化模块,不同颜色的锥体分别表示不同位置望远镜的可视化范围,白色为不同卫星/空间碎片轨道。
本研究以空间碎片监测和搜寻为典型案例,验证深度强化学习算法框架的性能。空间碎片监测和搜寻要求望远镜阵列在一定的时间范围内搜寻环境中未知的空间碎片并对已知空间碎片进行周期性监测(以维护空间碎片轨道编目)。下图是根据任务的要求和强化学习的原理搭建的基于强化学习的空间目标望远镜网络示意图。
图3.针对空间碎片监测任务的望远镜阵列监测算法结构图。
经过训练,深度强化学习适应了空间目标监测和搜寻任务中环境的变化,并能够在不同的环境中表现优异的性能。下图是训练后的强化学习算法在不同环境中的性能表现。可以看到传统巡天算法在每组实验中只能找到10个左右目标并对8个左右的目标进行监测。而强化学习算法能找到大约120个目标并对大约100个目标进行监测。
图4.本工作提出的办法和巡天观测性能比较。“Change Time”指的是相对于训练环境改变了模拟时间,“Change Debris”指的是相对于训练环境改变了空间目标轨道,“Change Observatories”指的是相对于训练环境改变了观测站位置,“Change All”指的是相对于训练环境改变了以上三个因素。图中可见,本论文提出的方法兼顾新空间碎片发现和监测功能,能够实现较好的观测能力。
本研究研发的结合数字模拟环境和深度强化学习的望远镜阵列观测策略优化框架具有优异的性能和强大的泛化能力,通过对参数修改或对实测数据接入就能够应用于各类地、空望远镜阵列的观测策略优化。
本研究由太原理工大学光电工程学院智能光学成像实验室贾鹏、贾奇伟、江天成和中国科学院国家天文台刘继峰研究员完成。本研究获得国家自然科学基金(NSFC资助号:12173027、12173062),中国载人航天工程科学研究基金(NO. CMS-CSST-2021-A01),民用航天基金(D050105)等项目的资助。
新闻链接:http://aojp.lamost.org/?page_id=1749
成果论文链接:Jia P, Jia Q, Jiang T, et al. Observation strategy optimization for distributed telescope arrays with deep reinforcement learning[J]. The Astronomical Journal, 2023, 165(6): 233.