基于混合量子-经典生成模型架构的量子强化学习引导扩散模型用于图像合成

扩散模型通常采用静态或启发式的无分类器引导(CFG)调度策略,这些方法往往难以适应不同时间步长和噪声条件的变化。该工作提出了一种量子强化学习(QRL)控制器,可在每个去噪步骤动态调整CFG值。该控制器采用混合量子-经典架构的演员-评论家设计:具有环形纠缠结构的浅层变分量子电路(VQC)生成策略特征,通过紧凑的多层感知机(MLP)映射为针对ΔCFG的高斯动作分布,而经典评论家网络则负责估计价值函数。策略优化采用近端策略优化(PPO)算法结合广义优势估计(GAE),其奖励函数综合考量了分类置信度、感知质量提升和动作正则化三个要素。在CIFAR-10数据集上的实验表明,相比经典强化学习执行器和固定调度策略,该团队的QRL策略在减少参数量的同时提升了感知质量(LPIPS、PSNR、SSIM指标)。针对量子比特数量和电路深度的消融实验揭示了精度与效率的权衡关系,扩展评估则验证了在长程扩散调度下仍能保持稳健的生成能力。

量科快讯