基于动态电路量子比特重用与格罗弗轨迹优化的量子强化学习

研究人员开发出一种全量子强化学习框架,该框架集成了量子马尔可夫决策过程、基于动态电路的量子比特复用技术以及用于轨迹优化的Grover算法。该框架将状态、动作、奖励和转移完全编码在量子域内,通过量子叠加态实现状态-动作序列的并行探索,并彻底消除了经典子程序。动态电路操作(包括电路中间测量和重置功能)使得同一物理量子比特能在多轮智能体-环境交互中重复使用,在保持逻辑连续性的前提下,将T个时间步所需的量子比特数从7*T降至7个。量子算术运算用于计算轨迹回报值,随后对评估后的轨迹叠加态实施Grover搜索,从而放大测量到最高回报轨迹的概率,加速最优策略的识别。仿真实验表明,基于动态电路的实现方案在保持轨迹保真度的同时,较静态设计方案减少了66%的量子比特用量。在IBM Heron级量子硬件上的实验部署证实,该框架能在当前量子处理器限制下正常运行,验证了噪声中等规模量子条件下全量子多步强化学习的可行性。此项工作为大规模序列决策任务推进了量子强化学习的可扩展性和实际应用。
提交arXiv: 2025-09-19 14:11

量科快讯