通过工程化模型-量子框架从有限真实数据实现全面的pKa数据增强

质子解离常数(pKa)对功能分子发现与分子建模至关重要。基于已建立的最大实验性pKa数据库iBonD,研究人员及其他学者已开发了多种方法,包括基于机器学习的经验预测与高精度能量计算。尽管有此基础,高质量pKa数据的快速扩充仍受到根本性限制。作为该工作的一部分,该团队利用一组经过广泛优化的机器学习模型,对未标记分子数据集进行了大规模基于回归的pKa预测。结果表明,由于未标记分子数据集的特征分布,pKa数据分布近似正态分布,且尾部区域样本极度稀缺。虽然此类扩充对提升整体数据可用性与预测建模具有极高价值,但对于高效发现具有广谱pKa性质的分子而言,仍显不足。为解决此问题,该团队探索从广阔化学空间中定向生成具有稀疏pKa性质的分子。鉴于传统连续潜空间VAE-RNN分子生成方法稳定性不足,且在补充稀疏数据方面未能展现明显优势,该团队设计并实现了一种量子辅助的稀疏pKa分子生成方法。该方法的可行性在模拟量子退火器上得到验证,并在物理相干伊辛机(CIM)上进一步实现了优越的极值采样。(未完待续)
作者单位: VIP可见
提交arXiv: 2026-06-10 16:17

量科快讯