研究人员用量子中心超算模拟12635原子蛋白质复合体
2026年5月4日——来自克利夫兰诊所、理化学研究所和IBM的研究团队使用两台IBM量子计算机和两台超级计算机,对具有生物学意义的分子进行了大规模建模。
就在过去几个月里,利用量子计算进行化学模拟的规模取得了巨大提升。作为该领域的最新里程碑,来自克利夫兰诊所、理化学研究所和IBM的研究人员采用以量子为中心的超级计算框架,计算了两个大型蛋白质-配体复合物的电子结构,其中最大规模的模拟达到了12635个原子。
这些分子分别是T4-溶菌酶(属于参与免疫系统降解细菌膜中肽聚糖的蛋白质家族)和胰蛋白酶(在胰腺中产生,用于消化)。该团队模拟了这些蛋白质与自然界中与之相互作用的分子结合,并浸入液态水溶液中的情形,规模分别达到11608个原子和12635个原子。通过汇聚来自美国和日本的国际研究团队,研究人员得以开发出必要的算法和工作流改进,从而达成这一里程碑。
仅仅在四个月前,该团队才首次利用量子计算模拟了含有303个原子的微型蛋白质Trp-cage。今天的新成果不仅展示了相比Trp-cage结果系统规模增加了40倍,还在工作流的特定步骤中,将精度相比此前最先进的QCSC方法提升了210倍。
为了达到这种规模和精度的新高度,研究人员对工作流中使用的经典方法和量子方法都进行了改进。他们在两台156量子比特的IBM Quantum Heron r2处理器上进行了量子采样,然后使用经典超级计算机Fugaku和Miyabi-G处理所得数据。来自理化学研究所的高性能计算专家加入了该团队,并在工作中发挥了关键作用。
虽然该方法尚未超越最佳经典方法的表现,但它表明量子计算如今已成为科学研究的实用工具,并且其发展趋势预示着未来将取得更优异的成果。
该论文第一作者、克利夫兰诊所Merz实验室负责人Kenneth Merz博士表示:“(这一成果)是梦寐以求的事情之一。”
研究人员为何在化学领域探索量子计算
宇宙的运行基于量子力学。尤其是化学,直接受量子力学过程支配。这意味着,一个可控、可编程的量子系统很可能是对其进行计算建模的最佳工具。
Merz表示,在他的职业生涯中,计算机模拟化学的能力取得了显著进步。20世纪80年代末,芯片设计的改进推动了性能和速度的百倍提升。并行处理和GPU则带来了自身数量级的改进。
Merz说:“但我们发现,经典计算的改进速度正在真正放缓。如果想再获得一两个数量级的提升,量子计算很可能是出路。”
随着系统规模的增大,在经典计算机上进行精确的电子结构计算变得越来越困难。仅靠经典方法可以高效模拟蛋白质行为的某些方面,但对整个蛋白质进行高精度的量子力学处理仍然不切实际。
QCSC将经典计算几十年的进步与当今量子计算机的强大能力结合在一起。
这项新工作所依据的初始Trp-cage结果依赖于一种称为波函数嵌入的技术。该技术将计算分解成计算上可处理的片段,称为“簇”。经典计算机解决较简单的簇。然后,量子计算机使用一种称为基于采样的量子对角化的方法来解决更复杂的簇——这些簇涉及微型蛋白质中原子之间更多的纠缠。最后,经典计算机再将分子重新拼接起来。
该工作流的性能与成熟的经典方法相当。而且,由于它将大分子分解成易于处理的小块,因此具有巨大的扩展潜力。研究人员预计,随着未来几年量子技术的进步,该工作流很快就能取得超越任何经典方法的结果。
Merz说,这令人兴奋,因为更好的计算化学方法可能为社会带来巨大益处。如果研究人员在实验室合成和测试新分子之前,就有可靠的方法预测其行为,那么药物研发、新材料科学和一般化学研究的步伐都可能显著加快。
Merz说:“更快地获得更好的救命药物。为家庭技术或国家基础设施提供更好的材料。我的意思是:更好的化学工作流真正意味着帮助你和后代过上更好、更健康生活的方法。”
该团队如何突破12000个原子
为了对T4-溶菌酶和胰蛋白酶进行建模,该团队在两台量子计算机上使用了多达94个量子比特,运行了9200个电路超过100小时,并收集了13亿个测量结果。这使得这项工作成为迄今为止已知的、用于量子化学的最耗资源的QCSC执行。
Trp-cage模拟是对分子本身进行建模,而T4-溶菌酶和胰蛋白酶的模拟则捕捉了溶液中的蛋白质-配体对,这意味着每次模拟都包含一个结合分子和蛋白质工作的水溶液环境,从而使得结果成为蛋白质行为更真实的模型。
从303个原子达到这一规模,需要的不仅仅是额外的计算时间或更大的超级计算机。研究人员需要改进算法设计,并借助理化学研究所HPC专家的深思熟虑,才能达到胰蛋白酶的规模。
将Trp-cage分解成可处理的簇是一个计算密集型过程,但利用有限的HPC资源即可实现。在那个规模下,EWF依赖于对单个电子如何在分子中相互作用的局部理解来找到良好的分割点。
该工作的合著者、IBM研究员Mario Motta表示,在EWF方法的传统实现中,创建片段“浴”——即选择单个片段周围环境中高度纠缠的轨道——对于像胰蛋白酶这样大小的分子来说成本过高。这是因为片段浴的创建使用了M?ller-Plesset二阶微扰理论或MP2计算,这些计算对计算资源要求很高。
由于MP2计算的扩展方式,如果分子大小翻倍,EWF方法将需要25倍的经典计算资源才能工作。因此,一个606个原子的分子将其分解成簇所需的计算工作量将是Trp-cage的32倍。这并不现实。
好消息是,像胰蛋白酶这样的分子中的任何给定电子都是“局域化”在其局部环境中的。Merz博士及其克利夫兰诊所的同事认为,可以利用所谓的线性缩放方法来简化计算。
Motta说:“在这个分子中,来自超过7-10埃距离的信息在量子力学层面上并不会真正影响该簇。在那个距离上,纠缠已经消失。因此,可以将MP2浴扩展限制在以每个原子为中心的球体内。”
Motta说,通过改进EWF,使其只考虑那些最重要、局部的相互作用,就可以在胰蛋白酶的规模上实现该方法。
在改进经典方法的同时,该团队还实施了一种新颖的SQD方法,使其能够扩展到以前不可能达到的规模。他们将这种新方法称为TrimSQD。
SQD解决了电子结构计算的基本挑战之一:分子电子可能配置的数量随分子大小呈组合级增长。量子计算机对这个广阔的空间进行采样,识别出关键配置供经典计算机聚焦。经典计算机利用由此产生的信息来寻找解决方案。正是这一创新使得过去18个月中许多重要的量子化学成果成为可能,包括将SQD与EWF集成,从而实现了基准性的Trp-cage计算。
TrimSQD改进了EWF SQD工作流,以更好地识别出可供量子计算机聚焦的有用部分。它的工作原理是将搜索区域分解成可以单独搜索的子空间。
基态是大量(实际上是组合级数量)电子配置的叠加。有些配置贡献显著,有些则不然。像Klaus Ruedenberg这样的理论化学家将显著配置称为“活木”,其他配置称为“枯木”。寻找显著配置“就像试图解决一个非常复杂的拼图”,Motta说。
Motta举例说,也许你正试图用许多看起来相似的拼图碎片拼出雅克-路易·大卫的画作《拿破仑加冕》,这是“活木”的例子。但有人混入了梵高的《星夜》和卡洛的《两个弗里达》的碎片——一个非最优的量子电路,或量子设备上的噪声可能引入了配置性的“枯木”。SQD会从一大堆拼图碎片中挖掘出相关碎片。TrimSQD则将问题分解成多个较小的堆,在这些堆中,拿破仑和约瑟芬的“活木”面孔在杂乱中更清晰地凸显出来。
改进后的EWF工作流和TrimSQD构成了大规模以量子为中心的超级计算的一个范式示例。该团队将量子采样工作分布到两台Heron r2上——位于克利夫兰诊所的ibm_cleveland和位于理化学研究所的ibm_kobe。然后,他们将量子计算机返回的子空间对角化任务,分配给理化学研究所的Fugaku超级计算机以及由东京大学和筑波大学运营的GPU加速超级计算机Miyabi-G。QPU、GPU和CPU都作为问题求解计算架构的一部分做出了贡献,展示了超级计算的未来愿景。
下一步是什么?
Merz说:“我认为这项研究可能会让人们从观望中行动起来。”他补充说,这样的结果比他在2024年时预期的要早几年到来。
他说,这项工作表明量子计算如今可以成为化学领域的有用工具。而且随着技术的改进,该工作流只会变得更加强大。这项研究中的方法可以轻松移植到未来的容错量子计算机上,例如预计于2029年推出的IBM Quantum Starling。
他的团队已经在与合作伙伴合作,在材料科学领域进行相关应用,并且在生物学、化学和药物发现领域,量子探索有着明确的机会。
Merz说:“太神奇了。他们开发了一台拥有156个量子比特的计算机,你可以让它们纠缠。自然界中没有这样的东西。而且它只会变得越来越复杂。”
他表示希望看到其他研究人员,尤其是化学家,将这项工作引入新的方向。
这项工作表明,当量子计算和HPC研究人员通力合作时,QCSC才能取得最佳进展。这得益于能够使用克利夫兰诊所、理化学研究所、密歇根州立大学和东京大学的HPC资源。


