QCalEval:用于量子校准图表理解的视觉语言模型基准测试
量子计算校准工作依赖于实验数据的解读,而校准曲线图为此任务提供了最具普适性的人类可读表征方式。然而目前尚缺乏对视觉语言模型(VLM)解读这类曲线图能力的系统评估。该研究团队推出首个面向量子校准曲线的VLM基准测试QCalEval:涵盖超导量子比特与中性原子两大体系,包含22个实验家族的87种场景类型共计243个样本,并在零样本和上下文学习两种模式下评估六类问题回答表现。表现最佳的通用零样本模型平均得分为72.3分,多数开源模型在多图像上下文学习场景下性能下降,而前沿闭源模型则显著提升。在90亿参数规模下进行的监督微调消融实验表明,SFT虽能提升零样本性能,但无法弥合多模态上下文学习的差距。作为参考案例,团队发布了基于Qwen3.5-35B-A3B的开源模型NVIDIA伊辛校准1.0版,其零样本平均得分达74.7分。

