量子力学领域大语言模型评估：跨模型与跨任务的比较研究 | 量智信息中心_量科网

量子力学领域大语言模型评估：跨模型与跨任务的比较研究

ArXiv预印本仅供参考 2026-02-25 14:21

参考来源 ➔ 下载PDF ➔

该研究团队对大型语言模型在量子力学问题求解方面进行了系统性评估。该研究评估了来自5家机构（OpenAI、Anthropic、Google、阿里巴巴、深度求索）的15个模型，涵盖三个能力层级，测试内容包括20项任务（涉及公式推导、创意问题、非标准概念和数值计算），共计完成900项基线评估和75项工具增强评估。研究结果显示出明显的层级差异：旗舰模型平均准确率达81%，分别比中端模型（77%）和快速模型（67%）高出4个和14个百分点。任务难度呈现显著特征：公式推导表现最佳（平均92%，旗舰模型达100%），而数值计算最具挑战性（42%）。数值任务中工具增强效果呈现任务依赖性：在3倍token消耗下整体仅提升4.4个百分点，但存在从+29分到-16分的巨大异质性。三次重复实验的再现性分析显示平均有6.3个百分点的波动，其中旗舰模型稳定性突出（GPT-5实现零波动），而专用模型需多次评估。本工作贡献包括：(i)建立带自动验证的量子力学基准；(ii)量化层级性能体系的系统评估；(iii)工具增强权衡的实证分析；(iv)再现性特征描述。所有任务、验证器和结果均已公开。

作者单位： VIP可见

提交arXiv： 2025-11-09 15:39

量科快讯

【量子安全技术公司EigenQ宣布两项重要管理层人事任命】量子技术公司EigenQ近日宣布，任命量子安全领域权威专家Mark Pecen为董事会副主席，同时将密码学副总裁Alexander Trus…

8 分钟前

【NordForsk启动G7-北欧量子技术联合计划，将资助12个量子研究合作项目】NordForsk发起了一项G7-北欧量子技术研究联合资助计划，将为最多12个国际协作项目提供资金支持，覆盖量子计算、量子通信、量子传感、量…

24 分钟前

【IonQ获最终批准收购SkyWater，加速量子芯片制造能力布局】量子平台公司IonQ日前已获得美国监管部门最终批准，完成对美国最大的纯本土半导体代工厂SkyWater Technology的收购。收购完成…

53 分钟前

【Cloudflare新动作：两项产品已支持后量子身份认证ML-DSA算法】Cloudflare昨日宣布，其Authenticated Origin Pulls和Custom Origin Trust Store两款…

1 小时前

【面向物理AI时代，SEALSQ加速推进量子安全的硬件信任根】SEALSQ昨日宣布更新其最初于2026年3月公布的抗量子硬件认证路线图。该公司表示，随着人工智能向自主物理AI系统演进，从机器人、车辆到边…

1 小时前

【安永加拿大主导在本地部署一台量子计算机，加速企业量子应用探索】安永（EY）宣布扩展其全球量子计算能力，EY加拿大公司主导部署了一台本地安装的量子计算机，这是EY在人工智能及其他前沿技术领域超过30亿美元…

1 小时前

【Horizon Quantum与QM联手为Ember-1超导量子系统量身打造嵌入式校准框架】Horizon Quantum昨日宣布与Quantum Machines（QM）达成战略合作，共同开发嵌入式校准技术，以提升量子系统的效率，…

1 小时前

【美国量子经济发展联盟发布新版《量子网络应用路线图》】美国量子经济发展联盟（QED-C）发布了新版《量子网络应用路线图》，确定了在安全通信、网络计算和分布式传感等领域实现具有商业价值的量子网络应…

2 小时前

【Riverlane与Unitary基金会设立DeltaKit社区基金，支持量子纠错开源生态建设】英国量子纠错公司Riverlane昨日宣布与Unitary Foundation联合推出DeltaKit Community Fund社区基…

23 小时前

【四家量子技术企业签约加入美国首个开放接入的纠缠量子网络ABQ-Net】四家领先量子技术企业Infleqtion、Bandelier、Tensora与Aliro昨日签约加入美国首个开放接入、基于纠缠的量子网络AB…

23 小时前

【Bloq Quantum与QClairvoyance达成合作，共推量子教育与劳动力培训】量子软件基础设施提供商Bloq Quantum与量子技术研究与教育机构QClairvoyance近日宣布建立战略合作伙伴关系，双方将共同推动…

23 小时前

【香港金管局发布《香港银行业量子准备度白皮书》，并公布量子准备度指数】香港金管局昨日发布《香港银行业量子准备度白皮书》，并首次公布量子准备度指数，评分仅为2.3分（满分10分），显示银行业在量子技术部署上仍处于…

1 天前

【Multiverse Computing获5.7亿美元C轮融资，估值较B轮涨5倍达17亿美元】Multiverse Computing日前宣布完成5.7亿美元（约5亿欧元）C轮融资，投前估值达17亿美元（约15亿欧元），较其B轮估值增…

1 天前

【PQSecure与QuickLogic成功将双方的后量子密码和eFPGA硬IP相集成】PQSecure Technologies与QuickLogic近日成功演示了将PQSecure-Agility后量子密码IP与后者的eFP…

1 天前

【英国NCSC与沃达丰联合发布后量子密码迁移建议，敦促组织提前应对量子威胁】英国国家网络安全中心（NCSC）与沃达丰（Vodafone）近日分享了双方联合主办的英国首次政府与行业后量子密码（PQC）迁移专题研讨会形成…

1 天前

【量子技术公司Qubitrium宣布参与北约双重用途量子技术暑期培训计划】量子技术公司Qubitrium昨日宣布，将作为共同组织者和学术联合主任参与北约科技组织（NATO STO）2026年暑期培训计划“双重用途量…

1 天前

【瑞士量子计算公司ZuriQ完成2550万美元种子轮融资，Quantonation领投】从苏黎世联邦理工学院拆分的瑞士量子计算公司ZuriQ昨日宣布完成2550万美元种子轮融资，由Quantonation领投，此轮融资是其在20…

1 天前

【Quside推出quside-curand库，以将量子熵接入英伟达CUDA工作流】Quside近日宣布推出C++/CUDA库quside-curand，可通过类似cuRAND的主机生成器接口，将该公司的Garnet Plu…

1 天前

【Rigetti联手HPE与匹兹堡超算中心，获500万美元资助打造新量子-经典混合平台】Rigetti Computing昨日宣布将与HPE（慧与科技）和匹兹堡超算中心（PSC）合作，共同建设名为TangleLab的超算测试平台…

1 天前

【QTREX与美国东北大学携手攻关低温量子互连技术，聚焦增材制造电子微系统结构】专注于量子计算基础设施增材制造电子（AME）的QTREX昨宣布，与美国东北大学启动一项研究合作，聚焦于低温量子互连的先进微系统结构。根据协议…

2 天前

【长春光机所研究团队提出新型量子级联激光器，可实现室温低功耗激光发射】中国科学院长春光学精密机械与物理研究所孟博研究员团队提出一种采用高脚杯形波导结构的新型量子级联激光器（QCL），实现了室温低功耗激光发射。在…

2 天前

【伊利诺伊大学研究团队利用新型金刚石色心IL1造出单光子量子源】美国伊利诺伊大学厄巴纳-香槟分校的研究人员在金刚石中发现了一种可作为量子光发射器的新型色心，并将其命名为IL1。该发射器能够发射异常明亮且窄…

2 天前

【科学家提出新型声学概念，有望实现单个芯片间进行远距离量子信息传输】英国华威大学的研究人员与合作者提出一种“量子声子链接”的新概念，有望实现单个芯片上大量量子比特间的远距离通信。该方法利用一种名为“压缩应变锗…

2 天前

【美国联合量子研究所科研人员探索量子计算机及其错误如何增强人工智能】美国联合量子研究所（JQI）的研究人员与合作者近日在《物理评论快报》上发表一篇论文，探讨量子计算如何影响与增强人工智能。该团队在多种量子计算…

2 天前

【日本AIST与泰国朱拉隆功大学就量子技术实际应用签署谅解备忘录】日本产业技术综合研究所（AIST）近日与泰国朱拉隆功大学签署谅解备忘录，双方将围绕量子技术的社会应用加强合作。根据协议，AIST旗下量子与A…

2 天前

【 AT&T扩大与D-Wave合作，加速量子计算技术在通信领域应用探索】美国电信运营商AT&T近日与量子计算公司D-Wave Quantum签署一份协议，将扩大使用D-Wave的量子计算技术，以应对其网络…

2 天前

【田纳西州量子黑客松将于11月在查塔努加举办，将利用量子技术探索能源领域复杂挑战】由The Company Lab联合查塔努加量子协作组织（CQC）与田纳西大学查塔努加分校合作举办的田纳西量子黑客松现已开放报名。这场36小…

2 天前

【芝加哥大学等团队展示新型超导量子架构，有望推动拓扑量子计算发展】一个由芝加哥大学、普渡大学、波士顿大学及AppliedTQC研究人员组成的团队，通过实验展示了一种新型超导量子电路架构，可在实验中实现此前仅…

2 天前

【ICFO提出新型量子点生长策略，突破短波红外探测的尺寸限制】ICFO的研究团队提出一种合成砷化铟胶体量子点的新方法，可突破此前短波红外（SWIR）探测在量子点尺寸上的限制。由于量子点尺寸越大，吸收波长…

2 天前

【普林斯顿大学提出镱-171亚稳态量子计算架构，利用可检测擦除错误提升纠错能力】普林斯顿大学的研究人员提出了一种构建量子计算机的新方法，旨在减少计算错误并提高错误的检测与修正效率。该团队设计的策略是开发一种基于亚稳态镱-…

2 天前