重新审视量子代码生成:领域知识应置于何处?

近期大语言模型(LLMs)的突破使得包括科学和工程领域代码生成在内的编程任务自动化程度日益提升。在量子软件开发等快速演进的软件生态系统中,框架往往涉及复杂的抽象层次,核心问题在于如何在保持库可维护性的同时,将领域知识有效整合至基于LLM的辅助工具中。该工作基于Qiskit-HumanEval基准测试,系统研究了Qiskit代码生成的专门化策略。研究人员将先前提出的参数专门化微调基线模型,与采用检索增强生成(RAG)技术和执行反馈代理机制的多款最新通用LLM进行对比。结果表明:现代通用LLM始终优于参数专门化基线模型——微调模型在Qiskit-HumanEval上的pass@1准确率约为47%,而最新通用模型在零样本和检索增强场景下达到60-65%,最强评估模型结合迭代执行反馈代理机制时更提升至85%,较零样本通用性能提高逾20%,较参数专门化基线提升超35%。代理执行反馈带来最稳定的性能提升(尽管伴随运行时成本增加),而RAG的改进幅度则因模型而异且相对有限。这些发现表明,无需领域特定微调,仅通过推理时增强技术即可实现性能突破,从而为LLM辅助的量子软件开发提供了更灵活、更易维护的新范式。
作者单位: VIP可见
提交arXiv: 2026-03-23 16:46

量科快讯