QuanBench+:基于大语言模型的量子代码生成统一多框架基准

大型语言模型(LLMs)正日益广泛应用于代码生成领域,但量子代码生成的评估目前仍主要局限于单一框架内,导致难以区分量子推理能力与框架熟悉度。该研究团队推出QuanBench+统一基准测试平台,覆盖Qiskit、PennyLane和Cirq三大框架,包含42个标准化任务,涵盖量子算法、门分解和态制备等领域。研究人员采用可执行功能测试评估模型性能,报告Pass@1和Pass@5指标,并对概率性输出采用基于KL散度的接受标准。此外还研究了基于反馈修复后的Pass@1表现——允许模型在遇到运行时错误或错误答案后修正代码。跨框架测试显示:单次生成最高得分分别为Qiskit框架59.5%、Cirq框架54.8%、PennyLane框架42.9%;经反馈修复后最佳成绩分别提升至83.3%、76.2%和66.7%。这些结果既表明显著进展,也揭示可靠的多框架量子代码生成尚未实现,目前仍高度依赖框架特定知识。
作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-03-25 20:51

量科快讯