量子力学领域大语言模型评估:跨模型与跨任务的比较研究

该研究团队对大型语言模型在量子力学问题求解方面进行了系统性评估。该研究评估了来自5家机构(OpenAI、Anthropic、Google、阿里巴巴、深度求索)的15个模型,涵盖三个能力层级,测试内容包括20项任务(涉及公式推导、创意问题、非标准概念和数值计算),共计完成900项基线评估和75项工具增强评估。研究结果显示出明显的层级差异:旗舰模型平均准确率达81%,分别比中端模型(77%)和快速模型(67%)高出4个和14个百分点。任务难度呈现显著特征:公式推导表现最佳(平均92%,旗舰模型达100%),而数值计算最具挑战性(42%)。数值任务中工具增强效果呈现任务依赖性:在3倍token消耗下整体仅提升4.4个百分点,但存在从+29分到-16分的巨大异质性。三次重复实验的再现性分析显示平均有6.3个百分点的波动,其中旗舰模型稳定性突出(GPT-5实现零波动),而专用模型需多次评估。本工作贡献包括:(i)建立带自动验证的量子力学基准;(ii)量化层级性能体系的系统评估;(iii)工具增强权衡的实证分析;(iv)再现性特征描述。所有任务、验证器和结果均已公开。

作者单位: VIP可见
提交arXiv: 2025-11-09 15:39

量科快讯