基于强化学习的量子退火小嵌入

量子退火(QA)是一种用于求解组合优化问题的量子计算范式,这类问题通常被表述为二次无约束二进制优化(QUBO)问题。量子退火的关键步骤是子图嵌入——将问题图映射到量子处理器的稀疏拓扑结构上。该过程计算成本高昂,且随着问题规模与硬件复杂度的增加,计算效率急剧下降。现有启发式方法通常针对特定问题图或硬件拓扑开发,难以实现普适性应用。 强化学习(RL)通过将子图嵌入视为序列决策问题,为这一挑战提供了创新解决方案:智能体通过迭代地将问题变量映射到硬件量子比特来学习构建子图嵌入。该研究团队提出基于近端策略优化(PPO)智能体的强化学习方法,在Chimera和Zephyr两种硬件拓扑结构上测试了其对全连接图与随机生成问题图的嵌入能力。实验结果表明,该智能体始终能生成有效的子图嵌入,尤其在更新的Zephyr拓扑结构上展现了合理的量子比特使用效率。该方法不仅能适应中等规模问题,还能灵活应对不同图结构,凸显了强化学习作为量子退火中子图嵌入通用框架的巨大潜力。

量科快讯