QuantumQA:通过物理一致性数据集与验证感知强化学习提升科学推理能力
大语言模型(LLMs)在通用推理方面展现出强大能力,但在量子力学等科学领域通常缺乏可靠性——这些领域要求严格遵守物理约束。这种局限性源于可验证训练资源的稀缺性,以及标准对齐范式中粗粒度反馈信号的不足。 为解决数据挑战,该团队推出了QuantumQA数据集,该大规模数据集通过任务自适应策略和混合验证协议构建。该协议结合确定性求解器与语义审核,确保科学严谨性。在此基础上,该团队提出专用于“可验证奖励强化学习(RLVR)”的验证感知奖励模型(VRM),采用自适应奖励融合(ARF)机制,动态整合来自科学执行套件(SES)的确定性信号与多维语义评估,实现精确监督。 实验结果表明,该方法持续超越基线模型和通用偏好模型。值得注意的是,经过优化的80亿参数模型取得了与专有模型相媲美的性能,验证了将可验证的、基于规则的反馈纳入强化学习循环,能够为纯粹参数扩展提供一种高效替代方案。

