一种通用的张量结构压缩方案,用于高效实现大型语言模型

大型语言模型(LLM)以密集线性变换为主导,其存储、内存和计算开销阻碍了高效适配与部署,同时掩盖了结构简化对功能的影响。该工作提出张量混合(MixT),一种通用的张量结构压缩方案,用可直接执行的张量算子混合体替代目标密集线性层。由于直接作用于通用线性投影而非模型特定组件,MixT可潜在适用于基于Transformer的LLM及其他密集神经映射。该团队在统一恢复协议下对Qwen3-8B和LLaMA2-7B评估MixT,识别出宽泛的可压缩区域:在模型特定边界发生突变之前,MMLU准确率基本保持不变。该突变与输出熵、预测熵及层间几何结构的协同变化同步。在LLaMA2-7B的突变边界处,MixT将全模型参数量减少47.5%,推理FLOPs减少37.1%,训练FLOPs减少52.1%,峰值推理内存减少60.4%,展示了其在低成本LLM压缩中的实际潜力。
作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-05-25 02:00
访客五签:

量科快讯