迈向组合式人工智能模型的比较框架

自然语言处理领域的DisCoCirc框架通过将单个词语单元按照文本语法结构组合,能够构建具有组合性的文本模型。模型的组合性特质可带来两方面优势:组合泛化能力(模型通过学习支撑整个数据分布的组合规则,实现超出训练分布范围的泛化)以及组合可解释性(通过单独检查模块化组件及其组合过程来理解模型运作机制)。该研究团队采用范畴论语言,以框架无关的方式阐述这些概念,并针对该框架调整了一系列组合泛化测试方案。应用于DisCoCirc框架时,研究人员考察了不同模型学习组合泛化的表现。基于量子电路的模型与经典神经网络在扩展版bAbI测试数据集上展开对比,该数据集特别设计用于检验组合性的多维度特性。两种架构在“生产性”和“可替换性”任务中的表现差异小于5%,但在“系统性”任务中差距超过10%,并在“过度泛化”任务中呈现不同趋势。总体而言,神经模型更容易出现训练数据过拟合现象。此外,该工作还展示了如何对已训练模型进行组合式解释——通过分析模型组件间的交互机制,阐释了模型的行为模式。

量科快讯