大型语言模型微调中的人工纠缠
大型语言模型(LLMs)可通过仅修改少量可训练参数的参数高效微调(PEFT)方法适应新任务,这类方法通常采用低秩更新机制。本研究从量子信息理论视角出发,提出“人工纠缠”这一创新概念——定义为人工神经网络(特别是LLMs)参数系统的纠缠熵,并建立基于纠缠特性的参数结构表征体系。研究团队以10亿和80亿参数的LLaMA模型为对象,在Tulu3和OpenThoughts3数据集上对比分析了低秩适配(LoRA)与全参数微调(FFT)方法,发现:(1)LoRA中查询/值投影矩阵更新的内部人工纠缠呈现具有中心抑制特征的体积律(称为“纠缠谷”),其表现对超参数敏感且显著区别于FFT;(2)注意力矩阵的外部人工纠缠(对应表征空间的token间关联)则遵循带对数修正的面积律,对LoRA超参数及训练步数保持稳健性。受黑洞物理中“无毛定理”启发,研究人员提出:虽然LoRA与FFT产生不同的内部纠缠特征,但这些差异不会体现在注意力输出中,这种“无毛”特性正是低秩更新有效的内在机制。该工作还通过随机矩阵理论提供了理论支撑,并将分析拓展至矩阵乘积态适配(MPS Adaptation)方法,观察到定性相似的行为规律。
量科快讯
【悉尼大学科学家首次对真实分子的化学动力学进行了量子模拟】悉尼大学的研究人员最近首次对真实分子的化学动力学进行了量子模拟,相关成果已于日前发表在《美国化学会志》上。该研究通过模拟分子受光激发后的行为…
45 分钟前
【瑞典六所高校联合成立量子技术中心,将打造国家级研究枢纽】瑞典六所高校近日联合签署谅解备忘录,共同成立瑞典量子技术中心,以打造一个集研究、创新、教育与能力建设于一体的国家级量子技术枢纽。参与高校包括…
14 小时前
2 天前
【科学家找到能帮助量子传感器消除噪声影响的新型量子纠缠态】科罗拉多大学博尔德分校的物理学家与JILA研究人员及尼尔斯·玻尔研究所、联合量子研究所、印度理工学院马德拉斯分校的合作者近日在《物理评论X》…
2 天前
3 天前

