一个用于可证明高效估算夏普利值的统一框架

Shapley 值已成为解释哪些特征会影响机器学习模型决策的关键工具。然而,计算精确的 Shapley 值非常困难,通常需要进行指数级(在特征维度上)的模型评估。为了解决这个问题,许多与模型无关的随机估计器应运而生,其中最具影响力且应用最为广泛的是 KernelSHAP 方法 (Lundberg & Lee, 2017)。虽然已知相关的估计器(例如无偏 KernelSHAP (Covert & Lee, 2021) 和 LeverageSHAP (Musco & Witter, 2025))能够满足理论保证,但 KernelSHAP 的界限仍然难以捉摸。该团队描述了一个广泛而统一的框架,该框架涵盖了 KernelSHAP 及其相关估计器,这些估计器分别使用有放回抽样策略和无放回抽样策略构建。然后,该团队证明了适用于该团队框架中所有估计器的强非渐近理论保证。据该团队所知,这为 KernelSHAP 提供了首个理论保证,并进一步阐明了现有估计器之间的权衡。通过对决策树模型的小维和中维数据集进行全面的基准测试,该团队根据精确的 Shapley 值验证了该团队的方法,并在适度的样本量下始终保持较低的均方误差。此外,该团队还进行了具体的实现改进,以将方法扩展到高维数据集。该团队的方法在 MNIST 和 CIFAR10 等数据集上进行了测试,与 KernelSHAP 库相比,其结果始终更佳。

量科快讯