分布式变分量子线性求解器

变分量子线性求解器(VQLS)作为一种解决线性系统的量子-经典混合算法,面临实际可扩展性瓶颈:在最坏情况下,每次优化迭代所需的酉矩阵线性组合(LCU)分解需进行O(L²)次电路评估,其中L会随n量子比特系统以4ⁿ规模增长。该团队通过两种互补策略解决这一计算瓶颈:首先提出基于NVIDIA CUDA-Q的分布式VQLS框架(D-VQLS),实现O(L²)代价函数评估的异步可扩展分布式计算;其次采用基于快速沃尔什-哈达玛变换(FWHT)的泡利分解结合1%系数阈值法,将LCU项数从O(2ⁿ)降至O(1)(n>6量子比特时),使每次迭代的电路复杂度从O(n·4ⁿ)压缩至O(n)(针对稀疏结构化矩阵)。以10量子比特三对角托普利兹系统为例,该方法将单次迭代电路数从2300万降至90,112个(缩减256倍),同时保持超99.99%的解保真度。 本文还针对早期容错量子处理器(QPU)的可行性,提供了VQLS应用于任意矩阵时的资源估算——包括门数量、量子比特需求及单次迭代电路评估数。D-VQLS框架在NERSC Perlmutter超算上通过多节点多GPU理想态矢量模拟得到验证:在三对角托普利兹和Hele-Shaw流动基准测试中,相较于经典解实现了超99.99%的保真度;在24个GPU上实现近乎理想的强扩展性,96个GPU处理10量子比特系统时(单次迭代360,448个电路)弱扩展效率达95.3%。系统性能分析确定了分布式量子电路工作负载的最优资源配置,使所研究配置获得2.52倍加速比。

作者单位: VIP可见
提交arXiv: 2026-04-15 21:27

量科快讯