自适应强化学习用于鲁棒开放量子系统控制:一种带有时序优化的多任务框架
提出了一种多任务软演员-评论家(SAC)强化学习框架,该框架专为跨多种哈密顿量的开放系统量子控制而设计,能够学习最优脉冲序列,同时自动发现特定问题所需的演化时间T和控制脉冲段数N。在51种哈密顿量变体上的实验结果表明,该多任务SAC模型能够生成控制脉冲,在环境噪声下以高保真度将系统从初始态驱动至目标态,为适用于实际噪声量子器件的通用量子控制奠定了重要基础。通过逐步扩展训练哈密顿量集合,该团队研究了使用给定数量的样本哈密顿量训练得到的单一多任务模型,是否能够成功完成来自同一哈密顿量空间但未在训练中遇到的哈密顿量的态转移任务。此外,该工作的鲁棒性保真度失衡量(RIM)分析表明,与GRAPE优化的控制相比,SAC训练得到的策略在脉冲幅度扰动和退相干率变化方面展现出更优的鲁棒性。

