基于多模态与多保真度学习的蛋白质pKa预测深度学习方法ME-pKa

发布时间:2026-01-20

文章来源自公众号:人工智能化学与材料


      蛋白质的可电离氨基酸(如天冬氨酸ASP、谷氨酸GLU、组氨酸HIS、赖氨酸LYS)的酸解离常数(pKa)决定了其在特定pH条件下的质子化状态,深刻影响着蛋白质的结构、稳定性、酶催化活性以及配体结合亲和力,在药物设计,尤其是基于结构的理性设计中具有至关重要的作用。然而,通过核磁共振等实验手段测定pKa值通常耗时耗力且成本高昂。尽管已有多种计算方法,如基于泊松-玻尔兹曼方程的理论计算、恒定pH分子动力学模拟、经验函数方法以及基于人工智能的预测模型,但它们普遍面临两大瓶颈:一是公开可用的高质量实验pKa数据极为有限,制约了数据驱动模型的性能;二是蛋白质局部微环境的极端复杂性,特别是对于埋藏在蛋白质内部的残基,其静电环境受到周围原子排布、氢键网络、去溶剂化效应等多重因素的精细调控,给准确预测带来了巨大困难。因此,开发一种能够有效利用有限数据、并精准刻画复杂结构-性质关系的高精度 预测工具,对于推动计算生物物理和计算机辅助药物设计的发展具有重要的学科价值与应用前景。华东理工/华东师范大学李洪林与李诗良团队针对这一需求,提出了ME-pKa模型。


      本研究针对蛋白质可电离氨基酸pKa值预测中数据稀缺与结构复杂性两大挑战,开发了一种名为ME-pKa(Multimodal ESM pKa)的新型深度学习模型。该模型创新性地融合了多保真度学习策略与多模态信息处理:利用大规模计算pKa数据进行预训练,再迁移至小规模高精度实验数据进行微调;同时整合了以目标残基为中心的三维局部环境网格特征与由ESM-2蛋白质语言模型提取的全局序列特征。在PE-pKa和Small Set两个独立测试集上的评估表明,ME-pKa在整体预测精度(如PE-pKa数据集上RMSE为0.845,R²为0.921)及对埋藏残基(RSA < 0.2)的预测准确性上均超越了现有主流方法,包括基于物理的CpHMD、经验方法PROPKA3以及当前最先进的AI模型KaML-CBTree。此外,该模型成功应用于解析PD-L1抗体JS003的pH依赖性结合机制,证实了组氨酸H69质子化状态的关键作用。本研究发表于《Journal of Chemical Theory and Computation》,DOI:  10.1021/acs.jctc.5c01747。


算法框架.png

图1. 展示了ME-pKa的多保真度学习策略与整体框架。图1a阐释了其核心学习范式:模型首先在大量低保真度计算pKa数据上进行预训练,学习从结构到pKa映射的普遍规律;随后在少量高保真度实验pKa数据上进行微调,实现知识向真实物理世界的校准与迁移。图1b则描绘了模型的多模态架构。对于每个目标残基,其局部三维环境被网格化并输入3D-ResNet提取特征;同时,整个蛋白质的FASTA序列经由ESM-2模型编码为全局特征。二者融合后共同用于预测最终pKa值。图中清晰区分了“模型pKa”(孤立氨基酸的理论值)、“目标pKa”(实验测量真值)和“预测pKa”(模型输出),明确了建模目标。(图片来源于J. Chem. Theory Comput)



      在特征工程与模型架构上,ME-pKa采用了多模态融合设计。对于结构模态,模型以每个可电离残基为中心,构建一个20Å边长的三维立方体网格,并定义了包括原子类型、杂化状态、键数、疏水性等在内的20种物理化学特征,将原子坐标与这些特征结合,形成描述残基局部微环境的3D张量。该张量随后输入一个9层3D残差卷积神经网络进行深度特征提取。对于序列模态,模型利用前沿的蛋白质语言模型ESM-2,直接从蛋白质的FASTA序列中提取蕴含进化与结构信息的全局特征表示。最终,局部结构特征与全局序列特征在拼接后,经由全连接层回归预测pKa值。这种“局部3D环境+全局序列上下文”的多模态融合,使模型能够同时捕捉决定pKa值的近距离静电相互作用与远距离序列进化约束,相较于仅依赖单一模态或简单特征的方法,其信息表征能力显著增强。


      在PE-pKa和Small Set两个独立测试集上的系统评估表明,ME-pKa在整体预测性能上达到了当前最优水平。在PE-pKa数据集上,ME-pKa的RMSE为0.845 ± 0.09,MAE为0.641 ± 0.07,决定系数R²高达0.921 ± 0.02,全面优于包括恒定pH分子动力学模拟、PROPKA3以及最新的AI模型KaML-CBTree在内的所有对比方法。在第三方基准数据集Small Set上,ME-pKa同样展现了卓越的稳健性,取得了最低的RMSE(0.836 ± 0.08)和最高的R²(0.914 ± 0.02)。


      尤为重要的是,ME-pKa在对不同溶剂可及性残基的预测上表现出均衡且强大的能力。如图5所示,尽管所有方法对埋藏残基的预测误差均有所上升,但ME-pKa在最具挑战性的埋藏残基类别上取得了最低的MAE值(在PE-pKa和Small Set上分别为0.921和0.911),显著优于其他方法。这证明其多模态架构能够更有效地捕获埋藏残基所处的复杂静电微环境。此外,模型在四种主要残基类型上均保持了稳定的高精度,没有出现针对某类残基的明显性能短板,体现了其良好的泛化能力。通过消融实验进一步证实了多保真度学习与ESM-2序列特征各自的关键贡献。移除两者后,模型性能显著下降;单独引入多保真度学习可使MAE相对提升13.67%,而同时引入两者则可带来21.06%的性能增益,且该提升具有统计显著性。


      最后,研究将ME-pKa应用于PD-L1抗体JS003的pH依赖性结合案例中,模型预测PD-L1的His69 pKa值为7.13,表明其在生理pH下处于去质子化状态,而在酸性肿瘤微环境(pH 5.5-6.0)下则发生质子化。质子化的His69无法与抗体JS003的Tyr77形成关键氢键,从而导致结合亲和力下降、解离速率加快。这一预测结果与已有的实验观测完全一致,不仅验证了ME-pKa的实用可靠性,也凸显了准确预测pKa在理解生物分子相互作用机制和指导抗体药物设计中的核心价值。


参考文献

Shi S, Miao R, Liu D, et al. ME-pKa: A Deep Learning A Deep Learning Method with Multimodal Learning for Protein pKa Prediction. Journal of Chemical Theory and Computation. 2026. https://doi.org/10.1021/acs.jctc.5c01747.