欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 能源 > AIDD-人工智能药物设计-利用生成式 AI 进行先导化合物结构优化

AIDD-人工智能药物设计-利用生成式 AI 进行先导化合物结构优化

2025/2/26 3:01:06 来源:https://blog.csdn.net/itwangyang520/article/details/145190160  浏览:    关键词:AIDD-人工智能药物设计-利用生成式 AI 进行先导化合物结构优化

JACS|利用生成式 AI 进行先导化合物结构优化

Image


导读

药物研发成本高、周期长,深度学习驱动的计算机辅助药物设计 (CADD) 可显著加速这一过程。在早期药物发现阶段,CADD 能够有效识别具有高活性和良好类药性质的苗头化合物和先导化合物。其中,先导化合物优化旨在改进现有化合物的结构以增强其药效、选择性、药代动力学和安全性,最终使其成为候选药物。

先导化合物优化方法分为目标导向和结构导向两种。目标导向方法通常使用强化学习或潜空间导航技术来进化分子,而结构导向方法则采用条件深度生成模型来生成具有特定结构的分子。如图 1 所示,结构导向方法更侧重于特定位置的结构修改。

Image

图 1. 深度先导化合物优化在 AIDD 流程中的作用,以及目标导向和结构导向先导化合物优化方法的图示。

下图所示,目标导向方法类似于从一张扭曲的蒙娜丽莎画像重新创作,而结构导向方法则是在保留关键特征的基础上进行局部修改,更贴近药物研发的实际需求。

Image

图 3. 从头生成与先导化合物优化的比喻(左侧扭曲的蒙娜丽莎图像是由 AI 模型 Midjourney 创建的)。

结构导向的先导化合物优化包含骨架跃迁连接子设计片段替换侧链修饰四种具体任务,如图 2 所示。研究者针对每项任务讨论了训练数据的构建、基本原理、经典 CADD 方法以及当前基于生成式 AI 的方法。

Image

图 2. 先导化合物优化四个子任务的图示。第一列代表原始化合物,第二列代表受约束的子结构,第三至第五列代表生成的示例。

最后,本文从优化算法的分类角度对目标导向和结构导向方法进行了独特的分类,并提出了一个参考方案,以帮助化学家将生成式 AI 方法融入结构修改任务,从而使实验人员能够快速适应最新的技术。同时,作者也讨论了当前方法中存在的挑战,例如有限的化学空间和多参数优化等问题,并提出了有效结合目标导向和结构导向方法的策略。

目标导向式先导化合物优化

目标导向的先导化合物优化方法旨在最大化目标函数 ,其中 代表分子结构。研究者利用强化学习或元启发式算法等方法,自动生成并优化分子结构。

例如,REINVENT 使用策略梯度方法调整生成模型参数,MolDQN 运用深度 Q 学习指导结构修改,而 DeepFMPO 则结合了策略梯度和 Q 学习。

此外,GB-GA 使用遗传算法迭代分子结构,MOMO 和 Chem MORT 则在分子生成模型的潜在空间中应用遗传算法或粒子群优化算法。然而,这些方法通常侧重于目标函数的优化,而可能忽略对分子结构的控制,例如保留输入先导化合物中的苯环等关键子结构。

尽管一些方法,如 DeepFMPO,已将与原始化合物的相似性纳入目标函数,但这仍无法完全保证子结构约束。目标导向方法的有效性不仅取决于优化算法,还受到目标函数质量的影响。

相比之下,结构导向的先导化合物优化方法致力于解决 ,即基于给定的部分分子结构 填充剩余部分 。

例如,DeLinker 将连接子生成任务转化为条件图生成问题,使用变分自编码器 (VAE) 生成连接子 。ScaffoldGVAE 将骨架跃迁任务转化为条件语句生成问题,其中骨架 被建模为一系列 SMILES 字符。结构导向方法的核心思想是在优化过程中保留具有良好成药性或易于合成的结构片段

这种方法不仅适用于先导化合物优化,也天然契合“me-too”和“me-better”药物设计策略。与大多数目标导向方法相比,结构导向方法提供了对分子结构更精细的控制,更贴近药物化学家的实际工作习惯。

结构导向的先导化合物优化

研究者在开发从头设计模型 (ResGen, SurfGen, FragGen) 和结构导向的先导化合物优化模型 (Delete, FFLOM) 的过程中观察到,后者生成的分子结构更符合药物化学家的直觉判断。

除了结构导向的先导化合物优化更贴近药物化学家的实际需求之外,作者提出了一个基于化学空间理解的解释,并用绘画的比喻来阐明这一观点。

从数学角度来看,从头设计模型或潜在空间导航模型试图学习 ,即分子图 在化学空间 上的分布;而结构导向的先导化合物优化模型旨在模拟条件分布 ,即在给定部分结构 的情况下,学习剩余结构 在化学空间上的分布。

结构导向的先导化合物优化的一个关键优势在于,估计条件分布 通常比计算边缘分布 更容易,因为部分结构 限制了 在化学空间中围绕 的可能分布。

这个概念类似于从零开始绘制肖像和在草图上补充细节之间的区别。例如,一个新手艺术家试图从头开始画蒙娜丽莎,可能会画出一个卡通化的形象;而在现有的草图上添加细节则要容易得多。

Image

图 3. 从头生成与先导化合物优化的比喻(左侧扭曲的蒙娜丽莎图像是由 AI 模型 Midjourney 创建的)。

这个比喻很好的解释了为什么结构导向的先导化合物优化模型生成的分子往往比从头设计生成的分子更合理,以及为什么许多药物化学家更喜欢基于先导化合物来设计分子。

分子分解与先导化合物优化

构建用于训练深度学习模型的先导化合物优化数据集需要大量的分子对数据,而从文献中提取优化前后的先导化合物结构费时费力。因此,利用计算方法获取“廉价”数据至关重要。每个数据条目应包含一对分子,分别代表优化前后的分子。研究者主要关注骨架、侧链、片段和连接基的分解策略。

分子通常由环状结构、连接基和侧链基团/原子组成。环状结构在药物分子中非常普遍,一项 PJB pharmaprojects 的研究34表明,96% 的化学实体包含环状结构,占分子量的 56%。环状结构也被认为是有机化学中的主要合成单元,在决定化合物的形状、电子分布和生物活性方面起着重要作用35。因此,环状结构被视为分子骨架的基本单元。

分子的骨架有多种定义方式,最常用的定义是由 Bemis 和 Murcko (BM) 提出的36。BM 骨架是指去除所有末端无环侧链后剩余的结构,如图 4A 所示。通过忽略原子和键的类型,可以获得更抽象的环状骨架 (CSK)。BM 和 CSK 骨架在分析化合物库的多样性时非常有用。最初的 BM 骨架研究36发现,当时大约一半的药物可以用仅仅 32 个骨架来表示,这进一步证明了骨架足以概括复杂的化学空间。

虽然 BM 骨架在药物化学中是一个重要的选择,但其将核心结构包含所有环而侧链缺乏环状结构的划分方式有时被认为过于粗糙。为了克服这个问题,研究者开发了更精细的分解方法,例如 HierS37、SCONP38、Scaffold Tree39、CSE40、Scaffold Network41和 Scaffold Hunter42 (截至 2023 年 4 月仍可在线获取)。这些方法产生略有不同的分子骨架,如图 4B-D 所示,提供了更细致的分解实践,有利于在不同层次上对分子的内在属性进行聚类、分析和理解。

所有这些扩展的骨架分解方法都有一个共同的核心思想,即进一步分解基本 BM 骨架中的环状结构。假设 BM 骨架包含五环结构(图 4A),进一步的骨架提取会破坏连接到环的单键,将其拆分为四环结构(图 4B)和双环结构(图 4D)。在这种情况下,BM 骨架被称为超骨架,最小环结构的骨架被称为基架,介于超骨架和基架之间的骨架被称为中间骨架。

一般来说,超骨架的粒度太大,而基架的粒度太小,不足以充分表征类药分子的化学空间。因此,它们在化学空间探索和化合物聚类分析中并不常用37。

Image

图 4. 用于先导化合物优化训练对的分子分解方法。(A) 指 B-M 骨架,(B-D) 指更复杂的骨架分解,(E-F) 指连接基分解的两种可能性,(G-I) 指片段分解的三种可能性。

尽管骨架分解方法众多,但目前的 AI 方法采用的是经典的 BM 骨架定义。在实践中,基于 AI 的骨架跃迁模型将骨架跃迁对定义为具有相似 3D 构象但 2D BM 骨架不同的分子;而基于 AI 的侧链修饰模型将侧链修饰数据对定义为在相同 BM 骨架上添加分子部分。

在组合化学43,44、逆合成路线规划45,46和基于片段的药物设计47,48领域,分子通常被分解成称为片段的基本构建块,片段是指由多个原子组成的子结构,代表分子的关键部分。这些片段比单个原子更能反映分子的物理化学或功能特性。

两种具有代表性的化学分解分子的策略是 RECAP49和 BRICS50。

RECAP 定义了 11 种与化学反应相关的可断裂键,可用于将复杂分子分解成其基本组成部分。BRICS 在此基础上进一步扩展,根据更精细的规则(例如,考虑断键附近的子结构),将 11 个可断裂键扩展到 16 个。

另一种片段化方法 eMolFrag51对分裂结构之间的片段和连接基进行了标准化,并在腺苷受体上进行了验证,证明其切割单元可以组装成活性分子。

除了以化学合成方式进行分子片段化外,深度先导化合物优化数据准备的另一种选择是使用匹配分子对 (MMP) 方法52来导出片段和连接基。MMP 最初的提出是为了通过关注分子对之间的差异来评估取代基对生物活性的影响。在先导化合物优化中,MMP 的概念被应用于系统地断键,从而生成片段和连接基。为了实现这一点,MMP 通过将预切割分子中的一组非环单键定义为 ,并随机选择一个来将分子分成两个片段,从而获得分子片段。断裂分子中的两个键会形成三个片段,断裂三个键会产生四个片段,依此类推。

在结构导向的先导化合物优化实践中18,53,54,片段替换任务由单键切割的结果定义,而连接基设计任务涉及双键切割产生的中心片段。图 4 G-I 展示了图 4 所示原始分子的潜在片段替换任务,而图 4 E-F 展示了同一分子的潜在连接基设计任务

深度学习引导先导化合物优化分类

连接子设计旨在连接具有弱结合亲和力的片段以形成具有增强活性的更大配体。早期方法包括库搜索和片段分子轨道计算。深度学习模型如 DeLinker 利用 VAE 架构,而 SyntaLinker 则采用 Transformer 模型生成 SMILES 字符串。其他模型如 3DLinker 则考虑了连接子几何结构,使用等变神经网络来优化三维构象。部分模型如 DRLinker 和 Link-INVENT 结合了强化学习策略,可以控制连接子长度和理化性质。DiffLinker 结合了扩散模型和等变图神经网络,共同生成连接子的化学式和构象。ShapeLinker 引入了双阶段设计方案,考虑了蛋白质结构信息。LinkerNet 则引入牛顿 - 欧拉启发的模块来修改初始片段坐标,增加了连接子设计的灵活性。

骨架跃迁旨在优化先导骨架并产生具有更好类药性质的新化合物。传统方法包括相似性搜索、药效团匹配和片段替换。Graph-GMVAE 采用 MGVAE 架构,并定义了隐藏空间中骨架簇之间的相似性,实现了不同尺度的骨架跃迁。DeepHop 将骨架跃迁转化为语言翻译任务,生成具有相似三维结构但不同二维结构的先导分子。DiffHopp 则利用类似于 DiffLinker 的架构,实现了对详细相互作用的感知。

侧链修饰保留具有生物活性的优势骨架,同时修改侧链以增强药效。GraphScaffold 利用图神经网络依次添加原子和键。DeepScaffold 扩展了骨架类型并包含更广泛的指标。MoLeR 在给定基序上严格约束生成过程,将原子或预定义基序添加到完整骨架上。3D-Scaffold 及其强化学习版本 3D-Scaffold-RL 考虑了三维坐标和蛋白质结构信息。DiffDec 则基于 DiffLinker 的思想,使修饰过程以骨架构象和蛋白质结构为条件。一些基于语言模型的方法,如 SAMOA 和 Scaffold Decorator,设计了特定的采样方案或标记策略以确保骨架约束。MolGPT 则直接生成最终分子的 SMILES 字符串。

片段替换用于完成先导片段以填充口袋的未占用部分,从而增强先导分子的结合强度。DeepFrag 构建了一个片段库并查询模型以确定哪个片段应该连接到种子分子。DEVELOP 利用 VAE 结构并结合药效团信息来指导分子片段的替换。STRIFE 使用与口袋相关的描述符 FHMs 作为条件,以扩大药效团依赖性的多样性。D3FG 则预测片段并对几何变量应用扩散模型。

通用模型旨在单一框架内处理所有四个先导化合物优化子任务。REINVENT4 结合了先前针对每个任务的扩展。SAFE 引入了一种新的表示方法,将 SMILES 字符串重新定义为互连片段块的无序序列。DrugEXv3 引入了联合图表示,分为骨架、生长和连接三个部分。Delete 是第一个基于结构的三维通用模型,它采用统一的掩蔽策略来整合所有任务,并在蛋白质 - 配体图神经网络中嵌入了物理等变性。

Image

图 5. 两种具有代表性的连接子设计方法。(A) DeLinker 示意图和 (B) SyntaLinker 示意图。

Image

图 6. 两种具有代表性的骨架跃迁方法。(A) GraphGMVAE 示意图,不同颜色代表不同程度的跃迁,和 (B) DeepHop 需要满足三个标准。

Image

图 7. 两种具有代表性的侧链修饰方法。(A) DeepScaffold 示意图和 (B) MolGPT 示意图。

Image

图 8. 两种具有代表性的片段增长方法。(A) DeepFrag 示意图和 (B) Develop 示意图。

深度先导化合物优化策略

目标导向的先导化合物优化策略预先定义目标函数,然后利用优化算法寻找最佳解。这种“先验”策略依赖于目标函数的准确性,若目标函数不精确,则可能导致生成不稳定甚至无法合成的分子。而结构导向策略则属于“后验”策略,模型先生成一系列化合物,再利用目标函数进行筛选。这种方法避免了目标函数误差对优化过程的影响,尤其适用于机制复杂、难以获得精确函数的药物设计场景。然而,随着目标函数数量的增加,“后验”策略生成理想分子的概率呈指数级下降,效率显著降低。

因此,研究者提出了一种结合两种策略优势的“交互式”策略。该策略在模型的决策过程中,不仅嵌入先验模型的预期指导,还整合专家知识进行修正。

例如,模型可以先利用强化学习推导出目标导向策略,然后在每次迭代中,化学家与模型交互,选择最佳候选动作,逐步将难以数学表达的先验知识注入先导化合物优化过程。

Image

图 9. 利用基于生成式 AI 的先导化合物优化工具的流程。

尽管基于结构的药物设计已被证明有效,但许多现有的基于生成式 AI 的优化模型仅限于基于配体的范式,仅优化具有与训练集相似属性的二维分子结构。此外,当前基于结构的模型受限于训练数据集,限制了其对化学空间的探索。未来研究可以探索利用预训练策略或在模型设计中加入更多物理约束来增强化学空间的探索。

评估 AIDD 模型的黄金标准是化合物合成和后续的生物测定,但使用计算指标进行评估可以显著加快模型开发速度。虽然常用的统计指标(如独特性、有效性和新颖性)通常不能充分反映生成化合物的质量,但化学指标(如 QED 和 SA)以及对接分数仍可提供有价值的参考。此外,案例研究可以评估模型在有限的优化步骤内复制历史药物发现成果的能力。

药物设计是一个多参数优化问题,需要考虑功效、药代动力学和可合成性等因素。在目标导向的方法中,将所有目标聚合成单一标量函数的常用做法可能会忽略其他重要目标。另一种方法是将帕累托排序嵌入优化过程,但其计算成本较高。对于结构导向方法,作者建议直接使用帕累托排序对生成的分子进行筛选,选择帕累托前沿分子供化学家进一步选择。

基于自身开发和应用结构导向先导化合物优化模型 Delete 的经验,作者提出了一个在实际药物研发中有效利用基于生成式 AI 的先导化合物优化模型的实用方案(图 9),包括获取初始蛋白 - 配体结构、选择目标指标、利用模型集合进行分子设计以及分子过滤和选择等步骤。该方案旨在结合不同方法的优势,例如目标导向方法提供广泛的探索能力,而基于配体的方法可以探索更广阔的化学空间。

总结

深度学习分子生成模型的整合为加速药物发现进程带来了巨大潜力,其中先导化合物优化是将现有分子改进为可行候选药物的关键阶段。由于深度学习先导化合物优化方法不断涌现,对其进行清晰分类至关重要。作者将这些方法分为目标导向型和结构导向型两大类。本文重点关注结构导向型优化,尽管其与实际应用高度相关,但与目标导向型方法相比,研究相对较少。

通过系统回顾传统的计算方法,作者确定了结构导向型优化的四个具体任务:片段替换、连接子设计、骨架跃迁和侧链修饰。对于每个任务,作者都讨论了其动机、训练数据构建和当前发展状况。

此外,作者使用经典优化分类法对目标导向型和结构导向型方法进行了分类,突出了它们的挑战和未来发展前景。

为了弥合方法学进步与实际应用之间的差距,作者提出了一个参考方案,以指导实验化学家有效地利用生成式 AI(GenAI)工具进行结构修饰任务。该方案旨在帮助实验化学家更好地理解和应用深度学习模型,从而加速药物发现进程。s


参考资料:

  • 标题:{Deep Lead Optimization: Leveraging Generative AI for Structural Modification}

  • 作者:Zhang, Odin; Lin, Haitao; Zhang, Hui; Zhao, Huifeng; Huang, Yufei; Hsieh, Chang-Yu; Pan, Peichen; Hou, Tingjun

  • 期刊:J. Am. Chem. Soc.

  • DOI: 10.1021/jacs.4c11686

  • 发表年份:2024

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词