在开放量子系统中利用强化学习驾驭环境记忆

开放量子系统中的非马尔可夫记忆效应为保持相干性和增强可控性提供了宝贵资源。然而,利用这些效应需要适应历史依赖动力学的策略。该研究团队引入了一种强化学习框架,可自主学习如何在耦合结构库的受驱二能级系统中放大信息回流量。基于Breuer-Laine-Piilo测量中迹距离的正时间导数构建奖励机制,研究人员训练了PPO和SAC智能体,并将其性能与基于梯度的最优控制理论(OCT)进行对比。虽然OCT能增强单个主导回流峰,但强化学习策略不仅拓宽了该复苏峰,还激活了后续记忆窗口中的额外贡献,从而在更长时间内产生持续的迹距离正增长。因此,强化学习实现的累积非马尔可夫性显著超过最优控制理论的结果。这些发现表明:无模型的长期学习能自然发现分布式回流策略,同时凸显了强化学习在调控开放量子系统记忆效应方面的潜力。
作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-01-03 18:22

量科快讯