叠加梯度下降:利用量子原理进行模型训练

目前,大规模语言模型(LLMs)正越来越多地采用AdamW等经典优化技术进行训练,以提高收敛性和泛化能力。然而,量子启发方法增强经典训练的机制尚未得到充分探索。该研究团队提出了叠加梯度下降法(SGD)——一种通过注入量子电路扰动将梯度更新与量子叠加联系起来的新型优化器,并建立了数学框架,在PyTorch和Qiskit中实现了混合量子经典电路。在合成序列分类和大规模LLM微调任务中,该方法比AdamW收敛更快且最终损失更低。尽管结果令人鼓舞,但可扩展性和硬件限制仍制约着实际应用。总体而言,该工作为量子计算与深度学习的交叉领域提供了新见解,为利用量子原理控制和增强模型行为指明了可行路径。

作者单位: VIP可见
提交arXiv: 2025-11-01 16:37

量科快讯