大型语言模型微调中的人工纠缠
大型语言模型(LLMs)可通过仅修改少量可训练参数的参数高效微调(PEFT)方法适应新任务,这类方法通常采用低秩更新机制。本研究从量子信息理论视角出发,提出“人工纠缠”这一创新概念——定义为人工神经网络(特别是LLMs)参数系统的纠缠熵,并建立基于纠缠特性的参数结构表征体系。研究团队以10亿和80亿参数的LLaMA模型为对象,在Tulu3和OpenThoughts3数据集上对比分析了低秩适配(LoRA)与全参数微调(FFT)方法,发现:(1)LoRA中查询/值投影矩阵更新的内部人工纠缠呈现具有中心抑制特征的体积律(称为“纠缠谷”),其表现对超参数敏感且显著区别于FFT;(2)注意力矩阵的外部人工纠缠(对应表征空间的token间关联)则遵循带对数修正的面积律,对LoRA超参数及训练步数保持稳健性。受黑洞物理中“无毛定理”启发,研究人员提出:虽然LoRA与FFT产生不同的内部纠缠特征,但这些差异不会体现在注意力输出中,这种“无毛”特性正是低秩更新有效的内在机制。该工作还通过随机矩阵理论提供了理论支撑,并将分析拓展至矩阵乘积态适配(MPS Adaptation)方法,观察到定性相似的行为规律。
量科快讯
11 小时前
12 小时前
1 天前
【新研究表明利用纠缠原子云进行量子测量可实现更高测量精度】瑞士巴塞尔大学与法国巴黎卡斯特勒–布罗塞尔实验室(LKB)的研究人员最近合作证明,空间上分离的量子物体之间的纠缠不仅可实现,还能够用于同时高…
1 天前
4 天前

