在多块GPU上并行化大规模张量网络缩并

精确的张量网络收缩是量子电路模拟、量子纠错、组合优化以及多体动力学的基础。当前主流的并行化策略——切片法——其计算规模呈指数增长,并伴随冗余计算。该团队提出了一种多GPU框架,该框架通过显式通信将中间张量分布到不同设备上,利用面向GEMM的模式重排序和通信感知的模式分布规划,将固定的收缩路径转换为通信高效的调度方案。在单个DGX H100节点(8个GPU,NVLink)内,这种分布策略在单纯并行切片的基础上实现了额外$7$至$173$倍的加速,几乎捕获了所有可用的计算缩减(87%至101%),这是因为NVLink的高带宽使得通信开销相对于计算而言微乎其微。将同样的四个工作负载扩展到InfiniBand连接的1024块H100 GPU上,相比切片法获得的额外加速比范围为$42\times$到$67{,}869\times$,这表明通信感知的分布式收缩在应对前沿张量网络时,其性能远超基于切片法的扩展极限。

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-06-01 08:02

量科快讯