电子结构数据中惊人的高冗余度
用于电子结构的机器学习(ML)模型通常依赖于通过昂贵的Kohn-Sham密度泛函理论模拟生成的大规模数据集。该研究揭示了各类材料系统(包括分子、简单金属和复杂合金)中此类数据集存在惊人的高冗余度。研究结果挑战了当前普遍认知——即需要庞大而全面的数据集才能实现电子结构的准确ML预测。该团队证明,即使随机修剪也能大幅缩减数据集规模且预测精度损失极小,而采用最先进的基于覆盖率的修剪策略,在使用数据量减少100倍的情况下仍能保持化学精度和模型泛化能力,同时训练时间缩短三倍以上。相比之下,广泛使用的基于重要性的修剪方法(剔除看似冗余数据)在高修剪因子下可能出现灾难性失效,这可能是由于数据覆盖率的大幅下降所致。电子结构数据中这种迄今未被探索的高冗余特性,有望为每个材料类别识别出具有代表性的最小化核心数据集。
