量子视觉词义消歧:通过量子推理模型解析歧义

视觉词义消歧主要针对多义词场景,其中候选图像容易产生混淆。传统方法采用经典概率计算图像与目标词各释义的匹配似然度,通过求和形成后验概率。然而由于语义不确定性的挑战,不同来源的释义不可避免地带有语义偏差,可能导致消歧结果出现偏倚。受量子叠加态建模不确定性的启发,该工作提出一种“无监督视觉词义消歧量子推理模型”(Q-VWSD),将目标词的多个释义编码为叠加态以缓解语义偏差,随后执行量子电路并观测结果。通过形式化分析发现,Q-VWSD是基于经典概率方法的量子推广形式。在此基础上,研究人员进一步设计了可在经典计算机上高效运行的启发式Q-VWSD版本。实验表明,该方法性能优于当前最先进的经典方法,尤其在有效利用大语言模型提供的非专业化释义时,性能得到进一步提升。该研究展示了量子机器学习在实际应用中的潜力,并为在量子硬件尚未成熟时,于经典计算机上发挥量子建模优势提供了范例。
作者单位: VIP可见
提交arXiv: 2025-12-31 07:47

量科快讯