持久性DPO:一种用于生成量子特征求解器的新型损失函数与混合学习方法

该团队研究了生成式量子本征解算器(GQE)[1],该方法通过训练经典生成模型来产生具有特定性质的量子电路(例如描述分子基态)。研究人员提出两种改进GQE的方法:首先,指出了直接偏好优化(DPO)作为GQE损失函数时的局限性,并提出持续性DPO(P-DPO)作为解决方案;其次,为改进GQE训练阶段的在线学习,引入了在线与离线学习相结合的混合方法。通过基于Transformer解码器架构的GQE实现,研究团队在BeH₂分子基态搜索实验中验证了改进方法——P-DPO相较DPO能获得更低能量值,而混合学习方法进一步提升了收敛性和最终能量值,尤其在P-DPO框架下效果更为显著。

量科快讯