QPragSGG:面向长尾场景图生成的混合量子谓词学习

场景图生成(SGG)需要对物体及其交互进行关系推理,但其性能常因严重的长尾谓词不平衡而受限。经典的SGG模型通常依赖数据集统计信息,导致预测偏向于常见关系而非细粒度语义谓词。尽管现有的去偏策略提升了平均召回率,但当前框架中的谓词分类仍常依赖于参数成本高昂的大型经典决策模块。本研究通过用加权交叉熵训练的量子谓词头(QP-Head)替换因果特征增强网络(CFEN)中的经典谓词头,为SGG引入了一种混合量子谓词分类器。据作者所知,这是首批评估混合量子架构在Visual Genome 150上进行场景图谓词分类效果的研究之一。该团队研究了量子比特数量、编码策略、纠缠结构及电路深度对关系预测的影响。最优的4量子比特QP-Head采用振幅编码和强纠缠层,将4096维的配对特征压缩为16维的量子兼容表示,对应256倍的压缩比。该模型仅使用96个可训练量子参数,实现了57.25%的mR@100,而经典CFEN参考值为41.1%。扩展至8量子比特时,该模型仍保持强劲的长尾性能,使用384个量子参数达到55.38%的mR@100,而深度分析则显示出表达能力与运行时间开销之间的权衡。这些结果表明,紧凑的混合量子谓词头能够支持复杂视觉推理任务中参数高效的长尾关系分类。
作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-06-03 10:15

量科快讯