量子Fisher预条件强化学习:从单量子比特控制到瑞利衰落链路适配

该研究团队在本信件中提出“量子预处理策略梯度算法”(QPPG)——一种基于自然梯度的链路自适应算法,该算法采用带Tikhonov正则化的完整逆量子费舍尔信息矩阵对策略更新进行白化处理。QPPG架接了经典几何与量子几何的桥梁,即便在噪声环境下仍能保持稳定学习。通过在经典及量子环境(包括含噪单量子比特Gym任务与瑞利衰落信道)中的测试表明,QPPG收敛速度较REINFORCE算法快4倍,并在不确定条件下保持1dB的性能增益。该算法在百次训练周期内即获得90%的回报率,且具备高噪声鲁棒性,充分展示了基于完整量子费舍尔信息的预处理方法对可扩展量子强化学习的优势。

量科快讯