近期量子控制中Lindblad主方程模拟的缓存层次结构与向量化分析

基于Lindblad主方程的开放量子系统模拟是近期量子控制工作流中的计算瓶颈,涵盖优化脉冲工程(GRAPE)、基于轨迹的鲁棒性分析以及反馈控制器设计等应用场景。针对近期量子控制相关的系统规模(单量子比特泄漏系统d=3、双量子比特d=9、三量子比特d=27),每个时间步长的主要计算开销在于(d²×d²)复矩阵向量乘法——即分别执行9×9、81×81或729×729稠密矩阵向量运算。其工作集大小(1.5KB、105KB和8.1MB)横跨现代CPU的L1、L2和L3缓存边界,这使其成为缓存层次性能分析的理想对象。该研究团队量化了算术强度(在大d极限下≈1/2 FLOP/字节),构建了传播核的Roofline模型,并通过系统调整编译器标志与数据布局,分离出自动向量化、融合乘加运算和数组结构(SoA)内存布局的贡献。研究表明:采用SoA布局配合-O3 -march=native -ffast-math编译选项,较标量结构数组基线可实现2-4倍加速,其中-ffast-math对GCC实现复数运算自动向量化至关重要。这些发现为针对近期系统规模的量子模拟库开发者提供了一系列具体优化建议。

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-03-17 21:53

量科快讯