训练后Qiskit代码助手的量子可验证奖励
Qiskit是一个开源的量子计算框架,允许用户设计、模拟并在真实量子硬件上运行量子电路。该研究团队探索了针对大语言模型的训练后优化技术,以辅助编写Qiskit代码。团队提出将量子验证作为确保代码质量及量子硬件可执行性的有效方法。为此,研究人员开发了合成数据生成管道,可自动生成量子问题-单元测试对,并利用其创建偏好数据来通过DPO算法对齐大语言模型。此外,该工作运用GRPO算法进行模型训练,充分利用量子硬件提供的可验证奖励机制。最终集成DPO与GRPO的优化模型在极具挑战性的Qiskit-HumanEval-hard基准测试中,性能超越了所有最强的开源基线模型。
