混合奖励驱动的强化学习在高效量子电路合成中的应用
该研究团队提出了一种强化学习(RL)框架,用于高效合成从固定初始态生成指定目标量子态的量子电路,解决了含噪声中等规模量子(NISQ)时代和未来容错量子计算的核心挑战。该方法在离散化量子态空间内采用基于动作序列的表格型Q学习,有效应对空间维度的指数级增长问题。该框架创新性地设计了混合奖励机制:结合静态领域知识奖励(引导智能体逼近目标态)与可定制动态惩罚项(抑制门拥堵和状态冗余回溯等低效电路结构)。通过稀疏矩阵表示和状态空间离散化技术,该方法实现了高维环境的高效探索,同时将计算开销降至最低。在七量子比特以内的图态制备任务测试中,该算法持续发现具有最优门数量的最小深度电路。此外,当框架扩展至通用门集处理任意量子态时,仍能生成最小深度电路,彰显了算法的鲁棒性与适应性。研究结果证实,这种强化学习驱动的方法能高效探索复杂量子态空间并合成接近最优的量子电路,为量子电路优化提供了资源高效的基础方案。
