用于抗噪声量子电路优化的重放缓冲区工程
量子电路优化的深度强化学习面临三个根本性瓶颈:忽视时序差分(TD)目标可靠性的经验回放缓存、基于课程学习的架构搜索需在每一步环境交互时进行完整量子-经典评估,以及在硬件噪声环境下重新训练时常规丢弃无噪声轨迹的问题。该团队通过将回放缓存作为量子优化的核心算法杠杆,提出了ReaPER+——一种退火式回放规则,在训练初期采用TD误差驱动的优先级采样,随着价值评估趋于稳定逐渐过渡到可靠性感知采样,在量子编译和QAS基准测试中较固定PER、ReaPER和均匀回放实现了4-32倍的样本效率提升,同时持续发现更紧凑的电路结构;在LunarLander-v3上的验证证实该原理具有领域无关性。此外,该工作通过开发OptCRLQAS消除了课程强化学习中的量子-经典评估瓶颈,将昂贵评估成本分摊到多次架构修改中,使12量子比特优化问题的单回合墙钟时间最高减少67.5%且不降低解的质量。最后提出轻量级回放缓存迁移方案,通过复用无噪声轨迹热启动噪声环境学习,无需网络权重迁移或ε贪婪预训练,在6/8/12量子比特分子任务中,较从头训练基线将达到化学精度的步数减少85-90%,最终能量误差降低最高达90%。这些成果共同证明:经验存储、采样与迁移是实现可扩展、噪声鲁棒量子电路优化的决定性杠杆。

