微调大型语言模型以实现量子推理
大语言模型(LLMs)展现出超越自然语言建模与文本生成的能力。其在推理能力方面的最新进展,引发了研究人员将LLMs应用于需要深厚领域知识与复杂推理能力的科学任务中的兴趣。量子计算作为一个知识门槛高且硬件限制严格的高度专业化领域,有望从这类进展中获益良多。然而,必须首先回答的一个关键开放问题是:如何开发能够向LLMs注入真正的量子推理能力(而非任务特定的模式匹配)的微调流程?该团队通过以量子电路仿真为训练目标来研究这一问题,要求模型预测由一系列量子门操作产生的测量概率分布。该团队提出并比较了两种微调流程:(1)基于显式逐门状态向量仿真轨迹的监督微调(SFT);(2)一种两阶段SFT+群体相对策略优化(GRPO)方法,该方法依次应用SFT,随后采用带有可验证奖励的GRPO。该研究的发现表明,SFT在分布内和门计数外推准确率上几乎达到完美,显著优于基础模型和GPT-OSS-120B基线。SFT+GRPO在分布内精度上做出一定妥协,以换取对SFT单独无法处理的更大量子比特系统的更好泛化能力。两种流程均显著优于基线,这表明针对显式推理轨迹进行定向微调是提升LLMs量子推理能力的有效策略。

