基于量子度量编码的离线强化学习改进

在实际应用中,样本受限的强化学习(RL)场景十分常见,但传统离线RL在此约束下的表现往往欠佳。该研究团队提出了一种创新解决方案——量子度量编码器(QME),通过状态空间重构突破这一瓶颈。该方法摒弃了直接在原始状态和奖励上应用RL框架的常规思路,转而将状态嵌入到更紧凑且富有意义的表征空间中,其编码结构的设计灵感源自量子电路。对于经典数据,QME作为可经典模拟的可训练酉嵌入模块,在传统设备上实现量子启发的运算;对于量子态形式的量子数据,QME可直接在量子硬件上运行,实现无需测量或重编码的训练。基于三组样本量均限制为100的数据集实验,采用经典RL算法Soft-Actor-Critic(SAC)和Implicit-Q-Learning(IQL)验证显示:使用QME嵌入状态配合解码奖励训练的离线RL智能体,其性能显著优于原始数据训练方案。就最大奖励性能而言,三数据集平均提升幅度达116.2%(SAC)和117.6%(IQL)。进一步分析框架的Δ-双曲性(这种表征空间几何特性对RL训练效率具关键影响)发现,QME嵌入状态展现出低Δ-双曲性特征,表明性能提升源于编码引发的状态空间几何结构优化。因此,QME诱导的低Δ-双曲性及其卓越效能,可为有限样本条件下的高效离线RL方法开发提供重要启示。
作者单位: VIP可见
提交arXiv: 2025-11-13 10:58

量科快讯