基于互信息的量子策略梯度流水线中时序表达能力与可训练性评估指标
近年来,传统监督学习的诸多局限性日益凸显,这促使强化学习——以及进一步利用量子纠缠与叠加等资源的量子强化学习——成为备受关注的新型替代方案。在众多强化学习方法中,基于梯度的策略梯度方法因其多重优势备受推崇。在量子领域,这类方法更具独特价值:它们能通过参数化量子电路(PQCs)便捷实现。从学习效能角度考量,两大核心指标尤为关键:表达能力,以及针对梯度优化方法而言的可训练性。尽管学界已多次尝试量化PQCs的表达能力与可训练性,但强化学习语境下的系统性研究尚属空白。为此,该研究团队创新性地定义了适用于强化学习的表达能力概念,并证明动作分布与奖励信号分布之间的互信息能在特定层面同时反映表达能力与可训练性信息。此项研究的价值在于:其一为强化学习中PQCs的筛选提供了简易判据;其二在智能体表现无法通过回合结果显式评估的黑箱场景下,仍能间接推演学习进程。
量科快讯
1 小时前
4 小时前
3 天前



