用于高效样本强化学习的量子玻尔兹曼机

该研究团队在理论上提出了支持连续动作强化学习的连续半量子玻尔兹曼机(CSQBMs)。该模型通过将可见单元的指数族先验与隐藏单元的量子玻尔兹曼分布相结合,构建了一种混合量子-经典模型,在保持强大表达能力的同时降低了量子比特需求。关键突破在于能够解析计算连续变量的梯度,从而可直接整合到行动者-评论家算法中。基于此,研究人员进一步提出连续Q学习框架,通过从CSQBM分布中进行高效采样来替代全局最大化操作,从而克服连续控制中的不稳定性问题。

作者所在地: VIP可见
作者单位: VIP可见
提交arXiv: 2025-11-06 22:40
访客五签:

量科快讯