大规模语言模型采样与量子随机数防御的种子劫持

大型语言模型(LLMs)依赖确定性伪随机数生成器(PRNGs)进行自回归采样,这一机制构成了现有防御体系未能覆盖的关键供应链攻击面。本研究提出SeedHijack后门攻击方法,通过操控PRNG输出强制攻击者指定令牌的选择,且无需修改模型logits。在针对GPT-2(124M)的540次试验基准测试中,该攻击在9种采样配置下实现了99.6%的精确令牌注入成功率;在四个对齐模型(1.5B-7B,涵盖RLHF/SFT/推理蒸馏)上达到100%成功率,并突破了本工作中测试的所有对齐方法。研究进一步提出基于硬件量子随机数生成器(QRNG)的防御方案,在评估威胁模型下该方案可消除攻击影响,且中位数开销极低(延迟增加+0.6%,内存增加+7.7 MB)。本工作揭示了关键的采样层漏洞,并提供了一种实用可部署的QRNG防御方案。

作者单位: VIP可见
提交arXiv: 2026-05-08 06:17

量科快讯