QUASAR:通过代理强化学习利用工具增强型大语言模型进行量子汇编代码生成

设计和优化任务特定的量子电路对于发挥量子计算优势至关重要。最近基于大语言模型(LLM)的量子电路生成已成为一种有前景的自动化解决方案。然而,根本性挑战仍未解决:(i)参数化量子门需要精确的数值以实现最佳性能,这些数值还取决于多个方面,包括量子门数量、参数以及电路的布局/深度;(ii)由于缺乏量子领域专业知识,LLM 通常生成低质量或错误的量子电路。该研究团队提出 QUASAR,一种基于工具增强型 LLM 的量子电路生成和优化的代理强化学习(RL)框架。为使 LLM 与量子专业知识对齐并改进生成的量子电路,QUASAR 设计了(i)利用外部量子模拟器的量子电路验证方法,以及(ii)RL 训练中复杂的分层奖励机制。广泛评估表明,生成的量子电路在语法和语义性能上均有提升。在增强 4B LLM 时,QUASAR 在 Pass@1 中实现了 99.31% 的有效性,在 Pass@10 中达到 100%,优于 GPT-4o、GPT-5 和 DeepSeek-V3 等工业级 LLM 以及若干仅使用监督微调(SFT)和仅使用强化学习的基线方法。
提交arXiv: 2025-10-01 14:40

量科快讯