噪声量子强化学习策略的形式化验证

量子强化学习(QRL)旨在利用量子效应构建序列决策策略,使其比经典方法更高效地完成任务。然而,QRL策略面临着量子测量和硬件噪声(如比特翻转、相位翻转和退极化误差)带来的不确定性,可能导致不安全行为。现有研究缺乏系统性方法来验证训练后的QRL策略在特定噪声条件下是否符合安全要求。该团队提出QVerifier——一种将概率模型检测应用于噪声建模前后QRL策略分析的形式化验证方法。该工具通过构建策略与环境交互的完整模型,将量子不确定性直接融入转移概率,并利用Storm模型检测器验证安全属性。多组QRL环境实验表明,QVerifier能精确量化不同噪声模型对安全性的影响,既揭示了性能退化现象,也发现了噪声可能带来的意外增益。由于量子硬件访问成本高昂,QVerifier提供的部署前严格安全验证对QRL的安全关键应用至关重要。该方法瞄准了一个潜在的经典-量子协同优势:经过训练的QRL策略既能在量子硬件上高效执行,又保持足够简洁以支持经典概率模型检测——尽管其计算速度无法满足经典系统的实时部署需求。

作者单位: VIP可见
提交arXiv: 2025-12-01 10:26

量科快讯