针对BB84量子密钥分发中自适应窃听的对抗强化学习
BB84量子密钥分发的安全性源自一项物理保证:任何窃听者都会以可统计检测的方式干扰信道。先前的研究通过假设Eve以固定的、经过解析优化的速率进行攻击来评估这一特性。该工作转而考察当Eve被建模为一个学习智能体时会发生什么。研究人员采用经典强化学习,具体包括表格型Q-Learning、SARSA和Double Q-Learning,来实现自适应BB84窃听。该方法将攻击者的决策建模为一个马尔可夫决策过程,其中智能体观察量子比特误码率(QBER)反馈,并逐个量子比特地决定是拦截还是放行。实验在三种信道噪声水平(\(μ_{ch}\in\{1\%,3\%,5\%\}\))下进行,并基于五个独立的随机种子进行验证(每种条件下45次训练运行,每次运行10,000回合)。与最佳非自适应解析基线相比,在 \(μ_{ch}=1\%\) 的条件下,Q-Learning将检测率从 \(99.4\%\) 降低至 \(0.28\%\pm0.27\%\),同时每个回合提取大约10.5个正确的比特。这是一个355倍的降低,且具有统计显著性(Mann-Whitney \(U\) 检验,\(p=0.020\))。该团队还报告了收尾阶段爆发行为的自发涌现——智能体独立地学会在最后一个数据块集中发起攻击。这种攻击手法在引入随机化检查点间隔后消失,同时其隐蔽性表现在统计上无明显差异。这些结果表明,在量子密码安全性评估中应考虑包含自适应对抗基线。

