Qiskit QuantumKatas:改编微软量子计算练习用于大语言模型评估
该团队将微软的QuantumKatas(一套成熟的量子计算课程)从Q#语言适配到最广泛采用的量子计算框架Qiskit,并整合了一个评估框架用于系统性的大语言模型评估。由此产生的基准测试包含26个类别共350项任务,涵盖从基础门电路到高级算法(Grover算法、Simon算法、Deutsch-Jozsa算法)、纠错、密钥分发以及量子游戏等内容。每项任务均包含自然语言提示、标准解决方案,以及通过经典电路模拟进行的确定性测试验证。由于该基准测试建立在QuantumKatas经过验证的教学设计之上,而非从零创建任务,因此继承了其严谨的难度递进结构和全面的概念覆盖,同时贡献了框架适配、评估基础设施和实证分析。该团队评估了16个大语言模型在7种提示配置下的表现——共计39,200次模型运行——以证明该基准测试的实用性。主要发现有三点:(1)该基准测试能有效区分模型能力,最佳配置下的通过率从32.3%到83.1%不等,前沿模型与开源模型之间平均差距为26.1个百分点;(2)模型在实现已知算法方面表现出色(SimonsAlgorithm 82.1%,BasicGates 81.6%),但在问题编码方面表现不佳(SolveSATWithGrover 34.4%,DistinguishUnitaries 40.0%);(3)思维链提示呈现出轻微的双峰效应——它对三个模型(其中两个根据供应商文档明确进行了推理调优)是最佳策略,但会降低其余模型的性能,使其在总体表现中处于中游(平均56.3%),落后于少样本5提示(57.8%)。该团队发布了该基准测试、评估框架和基线结果,以支持关于大语言模型在量子计算领域能力的研究。

