从经典数据到量子优势——基于量子硬件的策略评估
量子策略评估(QPE)是一种强化学习(RL)算法,其效率比经典蒙特卡洛估计方法高出平方量级。该算法通过量子力学直接实现有限马尔可夫决策过程,其中智能体和环境由酉算子建模,并以叠加态交换状态、动作及奖励。此前,研究人员已通过量子模拟器手动实现并参数化量子环境以完成基准测试。本文中,该团队演示了如何利用量子硬件上的量子机器学习(QML)从经典观测数据批次中学习这些环境参数,并将习得的量子环境应用于QPE,最终在量子硬件上完成策略评估。实验表明,尽管存在噪声和短相干时间等挑战,QML与QPE的融合仍展现出实现强化学习量子优势的广阔前景。
