通过强化学习实现递归QAOA的自适应量子比特分配
递归量子近似优化算法(RQAOA)通过使用浅层量子电路估计成对相关性,并递归地消除变量,直到经典求解器能够处理剩余实例,从而解决组合优化问题。每一步消除操作都需要测量采样,而总采样成本随递归阶段数量增加而增长。在近期量子设备上,增加采样次数会直接导致暴露于更多硬件级噪声源(如读出误差和退相干),因此采样高效执行不仅是降低成本的手段,更是直接影响解决方案可靠性的因素。尽管采样缩减已在NISQ算法中得到广泛研究,但RQAOA递归循环内部的逐步测量控制却鲜有关注。该团队将这种逐步分配问题建模为序列决策问题,并针对加权Max-Cut实例的深度-1 RQAOA提出了两种策略。一种手工设计的启发式策略基于步骤难度的局部指标分配采样;一种表格型双Q学习智能体在拉格朗日约束目标下学习残差策略,以调整该基线。两种方法均在固定容量公平协议下进行评估,该协议均衡所有策略的每一步预算,同时保持消除规则不变,从而可分离自适应测量控制的贡献。在一组涵盖不同大小和结构的加权图实例上,相对于均匀分配,启发式策略将总采样量减少了约23%,而强化学习策略实现了36%的缩减,且每次成功的有效采样比低于两个基线。这种改进在训练中未见的问题规模上依然存在,表明强化学习能够在递归量子优化中发现高效、实例自适应的测量策略。

