针对部分可观察马尔可夫决策过程(POMDPs)的准最优规划混合量子经典算法
强化学习(RL)为部分可观测环境中的决策问题提供了原则性框架,这类环境可建模为马尔可夫决策过程,并通过动态决策贝叶斯网络进行紧凑表示。最新研究表明,利用量子拒绝采样结合振幅放大技术可加速稀疏贝叶斯网络的推断,从而在估算接受概率时获得计算加速。 基于此,该研究团队提出“量子贝叶斯强化学习”(QBRL)——一种面向部分可观测环境的混合量子-经典前瞻算法,适用于基于模型的强化学习。在容错量子设备假设下,研究人员给出了无需黑箱预言机的严格时间复杂度分析。不同于标准处理方法假设黑箱预言机,该工作明确规定了推断流程,使得复杂度界限能更精确反映真实计算成本。研究证明,对于动态特性构成稀疏贝叶斯网络的环境,通过量子增强的信念更新可实现基于决策周期的近最优规划,且速度提升可达次二次方量级。此外,该团队通过数值实验将QBRL与经典算法在简单但具代表性的决策任务上进行对标,详细分析了量子计算优势转化为决策性能的具体机制,并揭示该优势程度会随部署场景不同而产生显著变化。
