量子力学领域大语言模型评估：跨模型与跨任务的比较研究 | 量子科技中心_量科网

量子力学领域大语言模型评估：跨模型与跨任务的比较研究

ArXiv预印本仅供参考 2026-02-25 14:21

参考来源 ➔ 下载PDF ➔

该研究团队对大型语言模型在量子力学问题求解方面进行了系统性评估。该研究评估了来自5家机构（OpenAI、Anthropic、Google、阿里巴巴、深度求索）的15个模型，涵盖三个能力层级，测试内容包括20项任务（涉及公式推导、创意问题、非标准概念和数值计算），共计完成900项基线评估和75项工具增强评估。研究结果显示出明显的层级差异：旗舰模型平均准确率达81%，分别比中端模型（77%）和快速模型（67%）高出4个和14个百分点。任务难度呈现显著特征：公式推导表现最佳（平均92%，旗舰模型达100%），而数值计算最具挑战性（42%）。数值任务中工具增强效果呈现任务依赖性：在3倍token消耗下整体仅提升4.4个百分点，但存在从+29分到-16分的巨大异质性。三次重复实验的再现性分析显示平均有6.3个百分点的波动，其中旗舰模型稳定性突出（GPT-5实现零波动），而专用模型需多次评估。本工作贡献包括：(i)建立带自动验证的量子力学基准；(ii)量化层级性能体系的系统评估；(iii)工具增强权衡的实证分析；(iv)再现性特征描述。所有任务、验证器和结果均已公开。

作者单位： VIP可见

提交arXiv： 2025-11-09 15:39

量科快讯

【奥地利ISTA物理学家发现一种量子材料具有奇异的行为性质】奥地利科学技术研究所（ISTA）物理学家的最新研究显示，材料UTe₂可表现出多种形式的零电阻现象（即超导性），并具有多项尚未完全解释的特性。…

1 天前

【MIT-IBM计算研究实验室成立，主攻量子计算与人工智能方向】IBM与麻省理工学院（MIT）昨日联合宣布成立MIT-IBM计算研究实验室，以在双方长期合作基础上推进下一代计算发展。据了解，该实验室将研究…

1 天前

【Xanadu联手美国橡树岭实验室可在Frontier超算上运行PennyLane程序】Xanadu宣布与美国能源部橡树岭国家实验室（ORNL）进行合作，双方将在全球最先进计算系统之一的Frontier超级计算机上，利用Xana…

1 天前

【培养未来量子劳动力费米实验室SMQ项目新一届学员毕业】费米国家加速器实验室通过其“周六晨间量子”（SMQ）项目，为芝加哥地区的高中生打开了探索量子科学与技术职业的大门。4月25日，该项目新一届学…

1 天前

【Microchip扩展PQC就绪设备产品组合推出平台信任根与安全启动控制器】随着行业向后量子密码学（PQC）过渡，Microchip Technology正在扩展其Trust Shield系列的PQC就绪设备产品组合…

1 天前

【欧洲成立新量子计算咨询委员会，旨在为欧盟委员会提供量子计算发展建议】欧洲一个新的量子计算咨询委员会（Q-CAB）已正式成立，它旨在为欧盟委员会提供关于欧洲量子计算发展现状的建议，这些建议将是独立且与平台无关的…

1 天前

【加拿大卡尔加里大学牵头的三个量子研究项目获得NSERC资助】卡尔加里大学牵头的三个量子研究项目近日获得加拿大自然科学与工程研究委员会（NSERC）的资助，该资助属于加拿大国家量子战略的一部分。据悉，该…

1 天前

【美国海军向Infleqtion授予一项价值100万美元的量子启发式AI软件开发合同】量子计算与量子传感公司Infleqtion日前宣布，美国海军已向其授予一项价值100万美元的合同，用于推进其面向射频信号处理的量子启发式快速…

1 天前

【英国和南非研究人员发现可利用光的自然几何结构对其进行控制】英国东安格利亚大学的科学家合作发现了光的一种隐藏特性，使其在无需镜面、材料或特殊透镜的情况下即可发生扭转、自旋并呈现不同的行为。来自英国和南…

1 天前

【芝加哥量子交易所发布面向美国中西部地区的量子人才发展战略】美国芝加哥量子交易所（CQE）日前发布一份新报告，提出了面向美国中西部地区的量子人才发展战略，以便为未来十年伊利诺伊州、威斯康星州和印第安纳…

1 天前

【QuantumDiamonds的量子传感半导体测试系统已在台湾宜特科技成功部署】德国量子传感半导体测试公司QuantumDiamonds近日宣布，其QDm.1系统已在中国台湾地区的宜特科技股份有限公司（iST）成功部署。…

1 天前

【Haiqu与汇丰银行联合提出可扩展量子电路编码方法，突破概率分布建模瓶颈】Haiqu与汇丰银行在联合发表的一项新研究中提出一种可扩展方法，能用于将真实世界的概率分布编码进量子电路，以解决量子计算应用中的一个关键瓶颈…

1 天前

【Silence Laboratories推出首个量子安全的数字资产托管保险库】Silence Laboratories日前发布了首个量子安全保险库，可用于数字资产托管与交易签名的安全防护。据了解，该量子安全保险库基于该…

1 天前

【法国研究人员发现特殊气体原子配对后会同步“舞蹈” 填补超导理论空白】法国国家科学研究中心的研究人员在接近绝对零度的一种特殊气体中直接观测了单个原子发生配对现象。令人意外的是，这些原子在配对之后并未独立运动，而…

2 天前

【IonQ与Florida LambdaRail等合作启动美国首个全州性量子安全网络计划】IonQ与Florida LambdaRail日前宣布达成一项合作协议，以共同推进Florida LambdaRail建设覆盖美国佛罗里达州…

2 天前

【Wave Photonics的PDK已支持在Cadence Spectre软件中进行光子电路模拟】Wave Photonics的PDK（工艺设计套件）已全面支持在Cadence Spectre软件中进行光子电路模拟。据该公司称，Caden…

2 天前

【离子阱量子计算机开发商Quantum Art的A轮融资额已扩展至1.4亿美元】全栈离子阱量子计算机开发商Quantum Art日前宣布，已将其近期完成的A轮融资扩展至1.4亿美元。据报道，本轮融资由Bedford Ri…

2 天前

【Monarch Quantum与中性原子量子计算公司Oratomic达成战略合作】美国量子光子学公司Monarch Quantum与中性原子量子计算公司Oratomic宣布建立战略合作关系，目标是推进实用规模量子计算机的商…

2 天前

【麦吉尔大学研究人员开发的新型器件有望用于构建声子激光器】加拿大麦吉尔大学的研究人员开发出一种新型器件，可在极低温条件下产生声子，即类似声波的粒子。据研究人员介绍，该器件通过在二维晶体层中通入电流，…

2 天前

【布法罗大学研究人员找到能使手性半导体更高效吸收可见光的方法】美国纽约州立大学布法罗分校牵头的研究团队近日找到一种方法，能使手性半导体更高效地吸收可见光。据了解，手性半导体是一类结构呈左旋或右旋的电子材…

2 天前

【日本迎来首套企业级量子系统 IQM全栈量子计算机将于年底落地】超导量子计算公司IQM近日宣布，日本东洋（TOYO）株式会社已采购其全栈20量子比特量子计算机Radiance系列，这是日本首次部署企业级量…

2 天前

【滑铁卢大学量子计算研究所衍生企业QuantumCore正进行1070万加元融资】从滑铁卢大学量子计算研究所（IQC）孵化成立仅六个多月的初创公司QuantumCore，正凭借1070万加元的新一轮稀释及非稀释性融资加速商…

2 天前

【IQMP国家量子算法中心宣布其重大挑战计划已资助五项量子算法研究】位于美国伊利诺伊州量子与微电子园（IQMP）的国家量子算法中心（NQAC）近日宣布了其“重大挑战”计划中的五项资助。该计划旨在推动量子计算在…

2 天前

【Multiverse Computing与Marubeni签署MOU，将推动CompactifAI在日本部署】Multiverse Computing近日宣布与日本大型综合商社之一Marubeni（丸红）株式会社签署一份谅解备忘录。该协议标志着Mul…

3 天前

【歌德大学物理学教授获大众基金会200万欧元资助，将推进新型量子材料研究】歌德大学物理学家Olena Fedchenko正致力于研究新型量子材料，这些材料将是未来技术突破的关键。自2025年起，她担任由歌德大学“G…

3 天前

【量子网络安全公司Quantropi将与Mandeville合并，拟在多伦多证券交易所上市】Mandeville Ventures已与量子网络安全公司Quantropi签署最终合并协议，以推进此前宣布的交易，并使这家总部位于加拿大渥…

3 天前

【RIKEN研究人员成功抑制“暗模式”干扰量子系统有望助力可扩展量子器件开发】日本理化学研究所（RIKEN）的研究人员展示了一种方法，可阻止困扰量子系统的“暗模式”削弱量子效应。该研究团队通过工程化手段使暗模式暂时转变…

3 天前

【马普所科学家研发出新型宽带集成光电探测器，具备低暗电流与雪崩模式】马克斯·普朗克微观结构物理研究所的科学家近日展示了一种用于可见光与近红外光子电路的宽带集成光电探测器，具备低暗电流、高速运行及雪崩模式能力。…

3 天前

【美德研究人员提出下一代原子钟新蓝图核心完全依赖于原子集体行为】来自美国科罗拉多大学与德国波恩大学的研究人员近日提出了一种由高度同步激光器驱动的原子钟理论蓝图，其中的原子将协同工作而非独立运行。通过使用与…

3 天前

【EPFL科学家利用悬浮金刚石中的NV色心实现亚微米级热输运测量】瑞士洛桑联邦理工学院（EPFL）的研究人员近日报告了一种在悬浮金刚石纳米结构中实现空间分辨热输运的新方法。该方法将氮-空位（NV）中心自旋缺…

3 天前