量子力学领域大语言模型评估:跨模型与跨任务的比较研究
该研究团队对大型语言模型在量子力学问题求解方面进行了系统性评估。该研究评估了来自5家机构(OpenAI、Anthropic、Google、阿里巴巴、深度求索)的15个模型,涵盖三个能力层级,测试内容包括20项任务(涉及公式推导、创意问题、非标准概念和数值计算),共计完成900项基线评估和75项工具增强评估。研究结果显示出明显的层级差异:旗舰模型平均准确率达81%,分别比中端模型(77%)和快速模型(67%)高出4个和14个百分点。任务难度呈现显著特征:公式推导表现最佳(平均92%,旗舰模型达100%),而数值计算最具挑战性(42%)。数值任务中工具增强效果呈现任务依赖性:在3倍token消耗下整体仅提升4.4个百分点,但存在从+29分到-16分的巨大异质性。三次重复实验的再现性分析显示平均有6.3个百分点的波动,其中旗舰模型稳定性突出(GPT-5实现零波动),而专用模型需多次评估。本工作贡献包括:(i)建立带自动验证的量子力学基准;(ii)量化层级性能体系的系统评估;(iii)工具增强权衡的实证分析;(iv)再现性特征描述。所有任务、验证器和结果均已公开。
量科快讯
【悉尼大学科学家首次对真实分子的化学动力学进行了量子模拟】悉尼大学的研究人员最近首次对真实分子的化学动力学进行了量子模拟,相关成果已于日前发表在《美国化学会志》上。该研究通过模拟分子受光激发后的行为…
45 分钟前
【瑞典六所高校联合成立量子技术中心,将打造国家级研究枢纽】瑞典六所高校近日联合签署谅解备忘录,共同成立瑞典量子技术中心,以打造一个集研究、创新、教育与能力建设于一体的国家级量子技术枢纽。参与高校包括…
14 小时前
2 天前
【科学家找到能帮助量子传感器消除噪声影响的新型量子纠缠态】科罗拉多大学博尔德分校的物理学家与JILA研究人员及尼尔斯·玻尔研究所、联合量子研究所、印度理工学院马德拉斯分校的合作者近日在《物理评论X》…
2 天前
3 天前

