对测量的质疑:量子误差缓解基准中的统计伪影

QEM被广泛认为是连接NISQ设备与FTQC的一条可行桥梁。然而,用于评估QEM技术在具体问题上有效性的实证研究,其结论的有效性却很少受到严格审视。该团队使用一个涵盖统计严谨性、可重复性和报告质量的八项标准框架,系统性地回顾了81篇近期QEM论文。在适用的论文中,仅有15篇(25%)使用了推断性方法,而25篇(42%)仅以描述性方式报告不确定性,未检验所声称的效果是否得到统计支持。为证明这些缺失造成的后果,该团队以ZNE作为代表性和广泛使用的案例研究,识别出当前QEM基准测试中两个叠加的人为误差来源。首先,该团队观察到参数敏感性:在一项包含132种配置的扫描中,隐含假设的选项(如比例因子、外推方法和硬件校准)并非仅仅偶然存在,而是主动影响结果,参数变化可使结论从统计显著改善变为统计显著恶化。其次,该团队发现一种漂移诱导的效能幻觉:在真实硬件上进行的72小时纵向研究中,仅时间漂移本身就能使相同ZNE配置的效果量增大到三倍以上,完全取决于执行时间,并且还大幅减少了独立观察的有效数量。这些发现并不意味着QEM方法本身存在根本缺陷,而是表明当前的评估实践可能使缓解性能显得比证据所支持的结果更为可靠。因此,该团队提出QEM评估的最低报告标准,包括明确的参数文档、稳健性检验、纵向漂移评估以及带有效果量报告的推断性统计检验。
作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-05-28 12:56

量科快讯