面向应用驱动目标的量子网络控制强化学习
量子网络的优化控制对于实现具有严格性能要求的分布式量子应用至关重要。在硬件受限的近期架构中,有效控制可能决定此类应用部署的可行性。由于量子网络动态特性适合建模为马尔可夫决策过程,动态规划和强化学习(RL)为优化控制策略提供了有力工具。然而,量子密钥分发中的密钥生成率等关键性能指标,往往涉及描述量子态质量与生成速率间非线性关系的相互依赖变量——这类目标难以通过基于累加奖励的标准强化学习方法捕捉。该研究团队提出了一种新型强化学习框架,可直接优化非线性可微目标函数,同时考虑经典通信延迟引入的不确定性。研究人员在两个具备多路复用能力的量子网络节点间进行纠缠蒸馏实验评估,发现在特定参数区间内,该框架所得策略优于启发式基线方法。该工作开创了强化学习优化量子网络非线性目标函数的先河,为更高级应用场景开辟了道路。
