基于知识蒸馏的分阶段混合视觉量子强化学习

视觉环境为量子强化学习(QRL)带来了严峻挑战:高维观测、不稳定的RL优化,以及受约束的变分量子电路(VQC)难以联合训练。本文研究将知识蒸馏(KD)作为视觉QRL的一种分阶段混合策略。该工作并未从像素层面端到端训练混合视觉智能体,而是首先训练一个经典视觉教师模型,冻结其编码器作为特征接口,并将教师模型的策略行为蒸馏到紧凑的下游头部网络中。这些头部网络可以是经典或基于VQC的,从而使得小型量子兼容学生模型能够在与紧凑经典控制模型相同的冻结表征下进行评估。该工作在CartPole Pixels和Acrobot Pixels上评估了该流程。结果表明,分阶段KD能够使得浅层VQC头部网络在直接基于像素的训练更为困难的场景中,习得非平凡的视觉控制行为。角度编码的VQC头部网络可保持接近教师模型的性能,而振幅编码的头部网络则将紧凑性推向极致,但代价是更脆弱、对预算更敏感且模拟时间更长。总体而言,分阶段KD将视觉QRL重新定义为紧凑头部网络学习问题,为在标准端到端RL循环之外训练小型量子兼容策略开辟了一条实用途径。
作者单位: VIP可见
提交arXiv: 2026-06-29 16:28
访客五签:

量科快讯