RiverONE:通过模拟量子机器生成知识密集型视觉语言模型

量子计算通过叠加、纠缠和测量引发的非线性特征,为高维信息的表示与变换提供了强大的范式。尽管当前的量子硬件还不足以直接用于大规模视觉-语言模型(VLM)推理,但在模型构建阶段,可以利用模拟量子计算为紧凑的经典AI系统生成结构化参数。该团队构建了RiverONE——一个用于量子校准图表理解的轻量级视觉-语言模型,该模型采用模拟量子计算技术。它配备了一个专用视觉编码器和一个基于InternVL的语言骨干。为弥补压缩带来的信息损失,该研究引入了量子生成参数,这些参数在训练后以经典张量的形式实现。这使得RiverONE在推理时能够完全在经典GPU上运行,无需量子硬件或运行时量子模拟。拥有约19亿参数的RiverONE,在量子校准图表理解任务上,性能至少达到NVIDIA Ising Calibration 1的95%,而参数量仅为后者的不到10%。这些结果表明,模拟量子计算可以作为构建轻量级、知识密集型科学视觉-语言模型的实用构建阶段机制。该研究的代码可在 https://github.com/THeWakeSystems/RiverOne 获取。
作者单位: VIP可见
提交arXiv: 2026-06-29 08:44

量科快讯