Q-Policy:可扩展强化学习的量子增强策略评估

该团队提出了Q-Policy,这是一种混合量子-经典强化学习(RL)框架,通过利用量子计算原语,在数学上加速了策略评估和优化。Q-Policy将价值函数编码在量子叠加态中,通过振幅编码和量子并行性实现多个状态-动作对的同步评估。研究团队引入了一种量子增强的策略迭代算法,在标准假设下,证明了评估步骤的样本复杂度具有可证明的多项式减少。为了验证该方法的可行性和理论正确性,研究人员在小型离散控制任务的经典模拟上对Q-Policy进行了验证。由于当前硬件和模拟的限制,实验主要展示了概念验证行为,而非大规模实证评估。研究结果表明,Q-Policy有潜力作为未来量子设备上可扩展RL的理论基础,解决超越经典方法的RL可扩展性挑战。

量科快讯