通过缓存局部性优化加速集成GPU上的状态向量量子模拟:一种跨架构评估

量子算法的经典模拟是电路开发、测试和验证的关键工具。尽管使用GPU加速能显著缩短模拟时间,但大多数高性能模拟器都依赖于针对数据中心硬件的特定厂商框架。为了拓宽量子模拟的访问途径的模拟应用范围,本工作提出了一种厂商无关的方法,专门针对消费级笔记本电脑中常见的集成GPU。状态向量模拟的一个主要挑战是其固有的空间局部性差,这造成了内存带宽瓶颈。因此,基线实现的相对GPU加速比会随着模拟量子比特数量的增加而严重下降严重。为了解决这一限制,研究人员引入了一种状态分区优化,分区优化方法,通过重新组织量子状态组织量子态向量,最大化末级缓存局部性,并最小化代价高昂的主存访问。该团队使用量子相位估计算法,在Intel、AMD和Apple的不同架构上评估了该策略。实验结果表明,所提出的优化方法成功缓解了较大量子比特规模下的性能退化。特别是在28量子比特的模拟中,该优化方法扭转了Intel Core i5平台上的性能劣势,将GPU相对于CPU的加速比从0.95倍提升至1.89倍,并将Apple M1 Pro的加速比从3.71倍提升至5.88倍。总体而言,该方法带来了持续的执行时间改进,证明了改进,集成GPU用于量子模拟的可行性。
作者单位: VIP可见
提交arXiv: 2026-05-14 17:17

量科快讯