带有记忆的量子过程强化学习

在强化学习中,智能体通过与环境进行序贯交互来最大化奖励,仅能获取部分概率性反馈。这产生了探索与利用的根本性权衡:智能体必须在学习隐藏动态特性的同时,利用已有知识最大化目标收益。虽然该框架在经典场景中已被广泛研究,但将其应用于量子系统时,需要处理通过未知动态演化的隐藏量子态。该研究团队通过建立环境维护隐藏量子记忆(通过未知量子通道演化)、智能体使用量子仪器序贯干预的框架,将这一问题形式化。针对此设定,研究人员采用了一种基于乐观最大似然估计的改进算法。该工作将分析扩展至连续动作空间,从而能够对一般正算子值测度(POVM)进行建模。通过控制量子通道和仪器中估计误差的传播,该团队证明所提策略的累积遗憾度按𝒪̃(√K)随K次实验次数的变化规律增长。进一步地,通过将其约化为多臂量子老虎机问题,研究人员建立了信息论下界,表明这种亚线性增长特性在忽略多对数因子情况下严格最优。作为物理应用案例,该工作研究了状态无关的自由能提取问题。当从由隐藏记忆关联的非独立同分布量子态序列中提取自由能时,对信源认知的任何缺失都会导致热力学耗散。在此设定下,数学层面的遗憾度精确量化了这种累积耗散。通过自适应算法,智能体能够利用历史能量输出来动态优化提取方案,实现亚线性累积耗散,从而获得渐近趋零的耗散率。

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-03-26 07:58

量科快讯