利用通信实现量子多智能体强化学习中的涌现合作

经典多智能体强化学习中的涌现合作行为已获得广泛关注,尤其在序列社会困境(SSDs)研究领域。虽然传统强化学习方法已展现出促进合作涌现的能力,但将这些方法扩展到量子多智能体强化学习的研究仍然有限——特别是在基于通信的机制方面。本工作将四种通信机制应用于量子Q学习智能体:相互确认令牌交换协议(MATE)、其扩展版本互认分布式激励令牌交换协议(MEDIATE)、同伴奖励机制“馈赠”(Gifting)以及强化型智能体间学习(RIAL)。该团队在三种序列社会困境(重复囚徒困境、重复猎鹿博弈和重复懦夫博弈)中对这些方法进行评估。实验结果表明,采用时序差分测量的MATE(MATETD)、自适应MATE(AutoMATE)、以及MEDIATE-I与MEDIATE-S协议在所有困境中均实现了高水平合作,证实了通信机制是促进量子多智能体强化学习中合作涌现的有效途径。
作者单位: VIP可见
提交arXiv: 2026-01-26 12:21
访客五签:

量科快讯