通过约束二元优化实现大型语言模型的模块移除
通过移除整个Transformer模块来压缩资源密集型大型语言模型看似是个简单构想,但确定哪些模块可移除实则构成了指数级难度的组合优化问题。该研究团队将模块移除问题表述为可映射到物理系统(伊辛模型)的约束二元优化问题,其能量函数能有效预测下游模型性能。这种数学框架可高效评估大量候选模块移除方案,并产生许多超越连续区域的高质量非平凡解。实验表明,该方法在多个基准测试中优于当前最先进的模块移除技术,经短期微调后性能优势持续存在,在MMLU基准上最高可获得6个百分点的提升。该方案仅需对少量活跃参数进行前向和反向传播计算,配合(至少近似)伊辛求解器即可实现,且能直接应用于任何架构。研究人员以近期发布的NVIDIA-Nemotron-3-Nano-30B-A3B-FP8模型为例验证了普适性,该模型展现出高度非均匀且极具挑战性的模块结构。
量科快讯
1 天前
1 天前
1 天前
2 天前
3 天前
3 天前

