在 Apple M4 Pro 统一内存架构上进行量子电路模拟时内存层级转换的对照研究

状态向量量子电路仿真受内存带宽限制,但内存层级结构、访问模式与硬件并行性之间的相互作用尚未得到充分表征。该团队利用Apple M4 Pro统一内存架构(UMA)解决这一问题——在该架构中,CPU与GPU共享相同的物理LPDDR5X DRAM(两者STREAM带宽均约为224 GB/s),从而消除了内存技术与互连因素的干扰。通过采用热隔离、多试验方法,在GHZ和QFT电路上(量子比特数从3到30)对11个仿真后端进行测试,该团队做出了三项核心贡献。首先,Roofline分析证实所有门实现的运算强度均≤0.38 FLOP/byte,远低于现代硬件任何合理峰值计算对应的脊点,确立了结构性内存受限特性。其次,该团队发现在28→29量子比特的过渡处存在一个可复现的4.46倍时序突变——该现象在热隔离条件下得到确认,并在GHZ与QFT电路上交叉验证;tensordot后端表现出完整的突变,而直接索引后端在整个过程中保持约2倍/量子比特的缩放比例。第三,尽管STREAM预测GPU加速比仅为1.85倍(MLX CPU 119.9 GB/s vs. MLX GPU 221.9 GB/s),所有三类算法均超越该预测:tensordot为3.1-4.1倍,平面索引为3.5-5.9倍,直接索引为6-10倍,这表明峰值流式带宽无法预测非连续内存访问模式下的仿真加速比,且随着访问不规则性增加,差距进一步扩大。这些发现为UMA架构上的量子仿真工作负载提供了硬件表征框架。

作者单位: VIP可见
提交arXiv: 2026-05-09 08:22

量科快讯