强盗游荡在希尔伯特空间

该论文研究了基于多臂老虎机模型的量子态特性在线学习中的探索-利用权衡问题。在给定未知量子态的流式访问条件下,研究团队需在每轮实验中从一组可观测量的动作集合中选择最优测量方案以最大化其期望值。通过利用历史信息优化动作策略,该工作旨在最小化遗憾值——即当前收益与理论最大可能收益之间的累积差距。研究团队推导了信息论下界并提出了具有匹配上界的最优策略,证明遗憾值通常随实验轮数的平方根增长。 作为应用,该研究将量子态层析重构问题重新建模,在高效学习量子态的同时最小化测量干扰。针对纯态和连续动作空间,该工作基于加权在线最小二乘估计器开发了样本最优算法,实现了多对数级遗憾值。该算法运用乐观原则并控制设计矩阵的特征值,还将框架应用于量子推荐系统和未知量子态的热力学功提取。在最后这个应用场景中,研究结果表明相较于基于层析的协议,该方案在功耗散方面展现出指数级优势。

作者所在地: VIP可见
作者单位: VIP可见
提交arXiv: 2025-09-29 10:26

量科快讯