探索人工智能推理临界点(CritPt):一项前沿物理研究基准

尽管具备推理能力的大语言模型(LLMs)在中学数学竞赛和编程领域进展迅速,但它们能否有效应对前沿物理研究中复杂的开放式挑战?更重要的是,物理学家期望LLMs协助完成哪些类型的推理任务?为解答这些问题,该团队推出了CritPt(基于综合思维的复杂物理研究测试,发音同“临界点”)——首个针对未发表科研级推理任务的基准测试,覆盖凝聚态物理、量子物理、原子分子与光学物理、天体物理、高能物理、数学物理、统计物理、核物理、非线性动力学、流体力学和生物物理等现代物理学研究领域。CritPt包含71个复合研究挑战,模拟入门级完整科研项目,并进一步分解为190个更细粒度的检查点任务。所有题目均由50多位活跃物理学者根据自身研究原创设计,经人工筛选确保答案具有抗猜测性和机器可验证性,并通过专为高级物理输出格式定制的自动化评分管线进行评估。研究发现:当前最先进的LLMs在独立检查点任务上初显潜力,但远未达到可靠解决完整科研挑战的水平——基础模型最高平均准确率仅4.0%(GPT-5高配版),配备编程工具后小幅提升至约10%。通过CritPt提供的真实且标准化的评估,该工作揭示了当前模型能力与实际物理研究需求间的巨大鸿沟,为开发具有科学依据的AI工具奠定了基础。

作者所在地: VIP可见
作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2025-09-30 17:34

量科快讯