参数化量子态制备中的强化学习方法:对比研究

该研究团队将强化学习驱动的定向量子电路综合(DQCS)方法从纯离散门选择扩展到包含连续单量子比特旋转(Rx、Ry、Rz)的参数化量子态制备。通过对比两种训练机制:一种是联合选择门类型、作用量子位及旋转角度的单阶段智能体;另一种是先提出离散电路框架、再通过Adam优化器结合参数平移梯度微调旋转角度的两阶段方法。利用Gymnasium和PennyLane平台,研究人员评估了近端策略优化(PPO)和优势演员-评论家(A2C)算法在2至10量子位系统上的表现,测试了复杂度渐增(λ值1至5)的目标任务。结果显示A2C未能形成有效策略,而PPO在稳定超参数下(单阶段:学习率约5×10⁻⁴,自保真误差阈值0.01;两阶段:学习率约10⁻⁴)表现成功。两种方法均能可靠重构计算基态(成功率83%-99%)和贝尔态(成功率61%-77%),但可扩展性在λ≈3-4时趋于饱和,即便λ=2也无法扩展到10量子位目标。两阶段方法仅带来有限精度提升(约3%),却需耗费约三倍运行时。基于固定计算预算的实用性考量,该工作建议采用单阶段PPO策略,提供了具体合成电路实例,并通过与经典变分基线的对比指出了提升可扩展性的潜在路径。

作者单位: VIP可见
提交arXiv: 2026-02-18 15:10

量科快讯