文章转载自公众号:DeDrug
原文链接:https://mp.weixin.qq.com/s/wsFt5_UEGH6V-qNReQkXWQ
2026年02月25日,华东理工大学药学院/华东师范大学药学院、人工智能新药创智中心李洪林团队、华东师范大学计算机学院张凯团队,联合复旦大学类脑智能科学与技术研究院张捷团队等多家单位在Nature Machine Intelligence发表题为“Conditional diffusion with locality-aware modal alignment for generating diverse protein conformational ensembles” 的研究论文。

该研究提出了一种名为Mac-Diff的条件扩散模型,用于生成蛋白质的构象分布,加速MD采样,并能有效预测蛋白质的构象异质性。该模型通过创新设计的局部感知模态对齐注意力模块,有效融合了物理先验、残基对空间关系及进化驱动的序列表征。在生成蛋白质构象分布方面,Mac-Diff不仅在采样效率上显著优于传统分子动力学 (MD) 模拟,更能有效探索蛋白质构象空间,在准确性与多样性的平衡等多个指标展现出色性能。在探索蛋白构象异质性方面,Mac-Diff在多个测试蛋白质案例上成功捕获了功能相关的构象态,综合表现优于绝大多数现有方法。
蛋白质作为生命活动的基本执行单元,其内禀灵活性是发生构象转换,进而行使生物学功能的基础。然而,捕捉这种动态特性一直面临巨大挑战:(1) 传统实验方法通常只能解析单一静态结构,难以捕捉瞬态构象及其变化过程。(2) 尽管MD模拟被广泛用于采样蛋白质连续的动态轨迹,但受限于积分步长和采样时间尺度等原因,计算过程仍昂贵耗时。(3) 近年来,以AlphaFold2为代表的模型通过端到端的整合结构和共进化信息显著提升了蛋白质结构预测的精度,但其输出仍偏向于热力学上最稳定的结构。最近,一系列基于AlphaFold2的变体通过扩展AlphaFold2的输入(MSA、模板等)及输出以探索蛋白质的功能构象。但其通用性及表现仍有待进一步验证和提升。另一方面,以扩散方法为代表的生成模型在构建蛋白质的几何表示、设计去噪网络及引入序列表征作为条件信息时,大多依赖于结构预测模型的组件。考虑到结构预测模型的优化目标是PDB数据库中单一的稳态结构,这种依赖性可能会引入归纳偏置,进而限制生成模型对多个亚稳态构象空间的探索能力,导致预测结果偏向于单个主导结构。基于上述背景和研究现状,能否从序列表征中提取足够的信息以解决构象异质性问题仍有待进一步探索,此外,目前针对上述挑战已开发的模型仍显不足。因此,如何设计一种既能利用大规模预训练模型的无偏序列信息,又能有效探索蛋白质构象景观的生成模型,是当前领域仍需解决的关键科学问题之一。
为此,研究团队开发了一种基于分数的“模态对齐条件扩散算法”——Modal-aligned conditional Diffusion (Mac-Diff) ,用于快速生成真实且多样的蛋白质构象集合(图1)。Mac-Diff算法的设计包括三个主要组成部分:1) 局部感知的模态对齐注意力 (Locality-Aware Modal Alignment-attention, LAMA-attention) 模块基于物理先验,将蛋白质语言模型ESM-2的序列表征和残基对的空间几何信息进行深度对齐,使模型能够敏锐感知蛋白质局部环境的变化。2) 适配的三角乘法更新机制,进一步在特征空间内显式建模残基间的几何依赖关系,强化残基对表征的几何关系建模。3) 多尺度去噪网络:采用UNet架构作为骨干网络,将上述更新后的残基对表征整合进蛋白质几何表示中,通过多轮逆向过程逐步去除噪声,最终还原出蛋白质真实的结构表示。

图1 Mac-Diff模型架构。(a) 蛋白质的几何表示。(b) UNet去噪网络。(c) 局部感知的模态对齐注意力模块
为直观阐明LAMA-Attention的设计精髓,作者对比了其与经典的文生图模型的差异。传统的交叉注意力机制在像素和词语间建立全局密集的链接,缺乏明确的结构化对应。相比之下,Mac-Diff紧密围绕蛋白质特有的生物学属性,对蛋白质不同模态之间的信息交互机制进行了更加深度的适配,通过物理先验实现了注意力的“去冗存精”。模型通过将注意力场精准聚焦于残基的局部相互作用邻域,仅聚合生物学上存在交互的残基特征。这种位置感知的空间对齐策略,确保了序列信息向结构空间的高效注入,显著提升了模型对蛋白质局部动态的捕捉能力。
这项研究体现了人工智能与计算生物学的深度融合,展示了生成模型在加速分子模拟方面的巨大潜力,不仅有助于揭示蛋白质功能相关的复杂动态行为,也为靶向瞬时构象的药物设计提供了新的高效工具。
王保利、王成林、陈劲杨为本研究的共同第一作者。参与本研究工作的还有华东师范大学药学院/人工智能新药创智中心刘旦麟副研究员、孙长志博士等。该工作得到了中国国家自然科学基金 (82425104, 62276099) 和国家重点研发计划 (2022YFC3400501) 的资助。
https://www.nature.com/articles/s42256-026-01198-9

