通过变分量子电路实现的量子层次强化学习
强化学习是最具挑战性的学习范式之一,其效能与效率的提升极具价值。分层强化学习通过时间抽象来结构化决策过程,是该领域的重要变体。尽管参数化量子计算已在非分层强化学习中展现出优势,但这类优势能否迁移至分层决策场景仍是一个关键未解问题。该工作基于选项-评论家架构开发了一种混合分层智能体。该混合智能体用变分量子电路替代经典组件,用于特征提取器、选项价值函数、终止函数和选项内策略。在标准基准环境中的评估显示,采用量子特征提取器的混合智能体在节省高达66%可训练参数的同时,性能优于经典基线方法。该研究还发现一个架构瓶颈:量子选项价值估计会严重降低性能。进一步的消融实验揭示了量子电路架构选择对性能的影响机制。该工作为参数高效的混合分层智能体建立了设计原则。

