一点自由带来深远影响:生成模型下强化学习的经典与量子算法
该团队提出了用于学习有限时域与无限时域平均奖励马尔可夫决策过程(MDPs)的创新经典及量子在线算法。这些算法基于混合探索-生成式强化学习(RL)模型,使智能体能够通过“模拟器”以生成采样的方式与环境自由交互。通过在学习算法中运用经典及新型量子算法来逼近生成模型下的最优策略,研究表明可以规避RL领域常见的“面对不确定性的乐观主义”和“后验采样”等范式,直接计算并运用最优策略,从而获得比前人研究更优的后悔界。
对于有限时域MDPs,所提出的量子算法获得的后悔界仅与时间步长T呈对数关系,突破了经典算法Op√T的界限。这一时间依赖性与Ganguly等人(arXiv'23)及Zhong等人(ICML'24)的量子研究结果一致,但在状态空间规模S和动作空间规模A等参数上具有更优的依赖性。针对无限时域MDPs,经典与量子算法仍保持Op√T的时间依赖性,但S和A因子更优。值得注意的是,该工作提出了一种针对无限时域MDPs的新型后悔度量标准,在此标准下量子算法可实现多对数级T的后悔值,较经典算法呈指数级提升。最后,所有研究成果均被推广至紧凑状态空间。
