多智能体马尔可夫纠缠
价值分解长期以来一直是多智能体动态规划与强化学习(RL)的基本技术。具体而言,全局状态(s₁,s₂,...,s_N)的价值函数通常被近似为局部函数之和:V(s₁,s₂,...,s_N)≈∑ᵢVᵢ(sᵢ)。该方法可追溯至不安定多臂老虎机问题中的索引策略,并在现代强化学习系统中获得了广泛应用。然而,这种分解为何能高效运作的理论依据仍缺乏深入研究。 该工作揭示了支持价值分解的底层数学结构,证明当且仅当其转移矩阵不存在“纠缠”现象时(这一概念类比于量子物理中的量子纠缠),多智能体马尔可夫决策过程(MDP)才允许价值分解。受物理学家测量量子纠缠的启发,研究人员提出了多智能体MDP“马尔可夫纠缠度”的测量方法,并证明该度量可用于界定通用多智能体MDP中的分解误差。 基于马尔可夫纠缠度的概念,该团队证实了一类广泛使用的索引策略具有弱纠缠特性,在N个智能体系统中可实现𝒪(√N)次线性的分解误差规模。最后,研究表明马尔可夫纠缠度在实际应用中可被高效估算,为实践者提供了评估价值分解质量的实证代理指标。
