通过量子注意力机制实现的高阶Token交互
标准点积自注意力在单层中仅计算标记之间的成对(二阶)交互;要表示一般的 \(k\) 阶交互,已知需要单层中的超二次资源或跨深度的组合。该工作引入了 **量子高阶注意力(Quantum Higher-Order Attention, QHA)**,一种浅层、硬件可实现的量子注意力头,通过数据重上传和全连接的非 Clifford 纠缠器,在电路内合成 \(k\) 阶标记交互,并通过局部单量子比特读出将其暴露出来。该工作证明了:(i) 表达能力分离:任何嵌入维度为 \(m\)、具有 \(H\) 个头和 \(p\) 位精度的标准自注意力单层,若满足 \(mHp = o(N/\log\log N)\),则无法表示一个 QHA 头以电路深度 \(O(\log k)\)(\(O(k)\) 个两量子比特门)所表示的 \(k\) 阶相关族;(ii) 其局部设计实例化的可训练性保证:在局部读出和 \(O(\log n)\) 深度下,梯度方差为 \(\Omega(1/\mathrm{poly}(n))\)(无贫瘠高原),该团队通过实验证实了这一点——同时明确指出,该团队进行基准测试的更具表现力的全连接实例化是通过经验训练的,并显示出指数衰减的梯度。在实验上,在参数预算小 \(6.5\) 倍的情况下,QHA 能从不相交输入中泛化出每个阶数 \(k \le 6\) 的隐藏子集奇偶性,而更大的经典注意力头在阶数约 \(2\) 处便崩溃;与理论一致,优势的大小追踪目标的傅里叶度数——在奇偶性上最大,当存在低阶结构时则缩小。作为一项应用,QHA 在三个领域——遗传上位性、含噪声学习奇偶性以及图三角形检测——中充当紧凑的高阶交互检测器,在参数预算最小(而领域标准线性方法失效)的情况下达到噪声上限。

