QCoder Benchmark:通过基于模拟器的反馈弥合语言生成与量子硬件间的鸿沟

大型语言模型(LLMs)在自动化编程代码生成领域的应用日益广泛。该任务可视为一种连接自然语言、人类知识与编程逻辑的语言生成任务。然而,在需要与硬件设备交互的领域中——例如量子编程(人类开发者编写在量子计算机上执行的Python代码)——相关研究仍存在不足。为填补这一空白,该研究团队推出QCoder基准测试框架,通过模拟硬件设备的反馈来评估LLMs的量子编程能力。该基准测试具备两大核心特性:首先,其支持超越传统Python执行的量子模拟器环境评估,可获取电路深度、执行时间和错误分类等特定领域指标反馈,用于指导更优的代码生成;其次,它整合了从真实编程竞赛中收集的人类代码提交记录,使LLM输出既能与人类代码进行定量比较,又可开展定性分析。实验显示,即便是GPT-4o等先进模型,准确率也仅达18.97%,凸显了该基准的挑战性。而基于推理的o3类模型则能达到78%的准确率,超越了人类代码平均成功率(39.98%)。该工作已公开QCoder基准测试数据集及评估API,以支持后续研究。
作者单位: VIP可见
提交arXiv: 2025-10-30 03:27

量科快讯