混合量子经典策略梯度在网络物理系统自适应控制中的应用:VQC与MLP对比研究
该研究团队在基准控制环境中对经典强化学习与量子强化学习范式进行了比较评估,重点研究了二者的收敛行为、观测噪声下的鲁棒性以及计算效率。该工作采用多层感知机作为经典基线模型,参数化变分量子电路作为量子对照模型,两者均在CartPole-v1环境中经过500轮训练。实证结果表明:经典多层感知机实现了接近最优的策略收敛,平均回报达到498.7±3.2,且在整个训练过程中保持稳定平衡;而变分量子电路表现出有限的学习能力,平均回报仅为14.6±4.8,主要受限于电路深度和量子比特连通性。噪声鲁棒性分析进一步揭示:多层感知机策略在高斯扰动下呈现渐进式性能衰减,而变分量子电路在同等噪声水平下表现出更高敏感性。尽管渐近性能较低,变分量子电路展现出显著更少的参数数量和略微增加的计算时间,凸显了其在低资源量子处理器上的扩展潜力。研究结果表明:虽然经典神经策略在当前控制基准中仍占主导地位,但一旦硬件噪声和表达能力限制得到缓解,量子增强架构可能提供显著的效率优势。