该研究团队在部分可观测马尔可夫决策过程(POMDPs)中的决策代理与单输入过程函数(高阶量子操作的经典极限)之间建立了精确对应关系。在此对应关系中,代理的策略与记忆更新被整合为过程函数w,通过链接积与POMDP环境进行交互。这揭示了双重解释:从物理学视角看,过程函数作为接收局部操作(代理干预)的环境;而从人工智能视角看,它编码了代理,插入的函数则代表环境。该团队将这一观点拓展至多代理系统,通过将观测无关的分散式POMDPs识别为多输入过程函数的自然作用域。
作者所在地:
VIP可见
作者单位:
VIP可见
提交arXiv:
2025-12-11 18:58