QSpark:迈向可靠的Qiskit代码生成

量子电路必须具备容错能力,但类似于Granite-20B-Code和StarCoder这样的大语言模型常常输出存在缺陷的Qiskit代码。该研究团队采用两种强化学习方法(组相对策略优化GRPO和优势比偏好优化ORPO),利用经过丰富标注的合成数据集对320亿参数模型进行微调。在Qiskit HumanEval基准测试中,ORPO以56.29%的Pass@1通过率(较Granite-8B-QK提升约10个百分点)、GRPO以49%通过率全面超越通用基线模型;在原始HumanEval测试中二者分别达到65.90%和63.00%。GRPO在基础任务(42/54)上表现优异,ORPO则擅长中等难度任务(41/68),但两者均未能解决五项高级任务,这表明人工智能辅助量子编程虽取得显著进展,但仍存在提升空间。

量科快讯