QBugLM:基于大语言模型的量子软件调试的智能体基准测试框架

量子软件缺陷往往产生静默的错误输出而非显式报错,这使得传统技术难以检测和修复。尽管大语言模型在经典软件工程任务中表现优异,但其调试量子代码的能力仍鲜有探索。为弥补这一空白,该团队提出QBugLM——一个多智能体框架,可自动化量子软件调试流程:从基于分类学的缺陷注入,到基于LLM的检测与修复,最终到基于仿真的验证,适用于框架无关的OpenQASM 3.0程序。该研究进一步利用QBugLM开展了全面案例研究,以Claude 4.6 Sonnet和Qwen3 Coder Next两个大语言模型为基准,对比不同提示策略、缺陷类别及量子程序的表现。结果表明,迭代反馈至关重要:单次重试即可将Pass@1从低于25%提升至高于80%。此外,在固定资源约束下,对于具备推理能力的模型,更简单的结构化提示甚至能超越思维链和ReAct策略。该工作为基准测试大语言模型调试量子程序的能力迈出了初步步伐,并为未来自动化量子软件修复的研究提供了实用见解。
作者单位: VIP可见
提交arXiv: 2026-06-05 14:34

量科快讯