量子筛追踪器:一种用于大语言模型逐层激活追踪的混合框架

“机制可解释性研究致力于逆向解析大语言模型(LLMs)的内部计算机制,然而从高维多义性噪声中分离稀疏语义信号仍是一项重大挑战。本文提出量子筛追踪器——一种用于表征事实回忆回路的混合量子-经典框架。该研究团队构建了模块化流程:先通过经典因果追踪定位关键网络层,再将特定注意力头的激活映射至指数级庞大的量子希尔伯特空间。基于开源权重模型(Meta Llama-3.2-1B与阿里巴巴Qwen2.5-1.5B-Instruct)的双阶段分析揭示了基础架构差异:Qwen模型的第7层作为经典回忆枢纽运作,而Llama模型的第9层则表现为干扰抑制回路——当消融已识别的注意力头时,事实回忆能力反而提升。研究结果表明,量子核能有效区分这种建设性(回忆)与消减性(抑制)机制,为注意力网络的细粒度拓扑分析提供了高分辨率工具。”

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-02-06 16:40

量科快讯