Boltzmann注意力机制:可学习的伊辛耦合实现协同注意力

注意力机制是现代序列模型的核心,但标准注意力主要通过单个查询-键相似度来计算相关性。尽管softmax归一化在位置之间引入了竞争,但标准注意力层并未显式参数化注意力决策之间的可学习交互。这限制了该机制在注意力机制内部直接建模协同或对抗性共注意力结构的能力。该团队提出玻尔兹曼注意力,这是一种基于能量的泛化方法,其中注意力模式由相互作用的伊辛模型控制。该方法用可学习的成对耦合增强了通常依赖于数据的局部场,使得模型能够表示超出softmax或sigmoid注意力所捕获的位置间相关性。在字符级语言建模和合成括号匹配上的实验表明,在标准Transformer架构内,玻尔兹曼注意力持续优于标准softmax注意力,且随着序列长度增加,优势更加显著。一项四路消融研究证实,改进源于可学习的成对耦合。这些结果表明,显式的位置间交互为基于注意力的序列建模提供了一种有原则的增强方式。此外,伊辛公式为基于量子计算的采样策略开辟了自然路径:该团队证明,非绝热量子退火提供了一种实用的训练方法,同时保持了与精确玻尔兹曼计算相当的竞争力。

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-06-10 06:58

量科快讯