QnRL: 量子原生强化学习

量子强化学习(QRL)是一种在随机环境中学习有效决策策略的极具前景的方法。不同于直接对控制这些环境的随机变量进行建模,现有QRL架构通过估计期望结果来间接近似环境行为,这限制了其表达能力和自适应潜力。克服此类挑战需要一种新颖的QRL方法,该方法利用量子计算机的分布特性,将环境随机变量直接建模为量子态分布。因此,本文提出了一种名为量子原生强化学习(QnRL)的新型框架。QnRL是一个分布强化学习框架,通过叠加和纠缠量子态,在希尔伯特空间中自然学习条件分布。因此,QnRL能够利用量子系统的固有属性直接对随机学习环境的行为进行建模。QnRL通过一种新提出的量子振幅回踢(QuAK)算法实现这一目标,该算法能够比较多个叠加分布的第\(m\)阶矩的\(n\)次幂。理论上证明,通过QuAK,一个条件动作策略分布完全在希尔伯特空间内从量子生成模型的矩中蒸馏出来,并通过QnRL进行优化。这种复杂的分布组合还被证明提供了额外的维度,用于表达纯经典和经典采样的量子分布模型所未知的环境相关性。在多种环境下的实验结果表明,与基线相比,QnRL实现了高达\(82.9\%\)的评估分数提升,平均参数数量减少高达\(94.3\%\),对未见观测的期望回报估计更为准确,并且能更好地适应变化的随机条件。

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-06-06 17:54

量科快讯