Nat. Comput. Sci. | 利用机器学习引导的对接筛选,实现快速遍历广阔化学空间
按需合成的化学库迅速增长,为虚拟筛选在药物发现中提供了前所未有的机会。然而,即便是最快的基于结构的对接方法,也难以筛选规模达数十亿的化学库。本研究提出了一种结合机器学习和分子对接的策略,实现对超大规模数据库的快速虚拟筛选。研究人员首先对100万种化合物进行分子对接,并训练分类算法识别高评分化合物。随后,利用保序预测框架从数十亿化合物库中筛选出候选化合物,减少需要对接评分的数量。实验表明,CatBoost 分类器在速度和准确性之间取得最佳平衡,并用于优化超大规模筛选流程。对35亿种化合物的应用显示,该方法可将计算成本降低超过1000倍。实验验证表明,该方法成功发现了G蛋白偶联受体的配体,并筛选出具有多靶点活性的化合物,为精准治疗提供了新思路。
可成药分子的潜在数量超过10⁶⁰,远远超出早期药物发现阶段评估的化学库规模。事实上,目前化学供应商库存仅约1300万种化合物,显示出化学空间覆盖范围的极限。合成有机化学的进步使研究人员能够获取更大规模的化合物库,当前按需合成库已包含超过700亿种可用分子。这些化学库中的多样骨架为药物发现提供了重要机遇,但在如此庞大的化学空间中筛选出针对特定靶点的相关化合物仍是重大挑战。
近年来,对超大规模化学库的基于结构的虚拟筛选成功鉴定出多个治疗靶点的配体,表明扩展化学空间覆盖范围可加速早期药物发现。目前最新的对接筛选已达到数十亿级化合物,但由于计算资源需求巨大,筛选这些海量化学库仍极具挑战。随着按需合成数据库的持续扩展,其规模或将很快达到万亿级,甚至最快的基于结构的对接算法也难以应对。因此,迫切需要更高效的虚拟筛选方法,以有效评估这些庞大的化学库。
人工智能的突破性进展推动了定量构效关系(QSAR)模型在药物发现中的应用。QSAR广泛用于预测化合物的靶点活性、理化性质及药代动力学特征。通过分子描述符,机器学习方法可快速评估大规模化合物数据库。传统QSAR模型通常基于实验数据训练,但目前越来越多的研究致力于预测按需合成化学库中的化合物在计算资源密集型虚拟筛选方法中的得分。结合机器学习与分子对接筛选有望在较低计算成本下实现对数十亿级化合物库的高效虚拟筛选。
本研究开发了一种基于保序预测(CP)的超快筛选流程,以高效筛选庞大的化学库。CP框架可适用于任何机器学习分类器,并允许用户控制预测误差率。其中,Mondrian保序预测器提供类别特定的置信水平,确保多数类和少数类预测的可靠性,非常适用于虚拟筛选等高度不平衡的数据集。该框架已用于QSAR模型,预测药代动力学特性和生物活性。虽然已有研究尝试利用CP框架提升虚拟筛选效率,但仍未达到处理数十亿级化合物库所需的计算效率。近期,梯度提升、深度神经网络和Transformer等技术已成功应用于早期药物发现。本研究结合CP框架与多种先进分类算法,开发了一种加速基于结构的虚拟筛选流程。最终优化的方案可在超大规模化学库中识别高评分化合物,将需显式对接的分子数量减少三个数量级。研究结果表明,利用机器学习引导对接筛选,可高效发现针对G蛋白偶联受体(GPCRs)的配体,这类受体是最重要的药物靶点之一。此外,该流程可用于针对多个靶点的筛选,以发现同一疾病相关的多靶点活性配体。
结果
研究人员开发的CP与分子对接结合流程用于高效筛选超大规模化学库。首先,研究人员针对8个蛋白靶点进行基准对接筛选,并利用所得数据集筛选合适的算法和分子描述符。随后,方法进一步优化,以支持对数十亿级化学库的虚拟筛选,并用于预测A₂A腺苷受体(A₂AR)和D₂多巴胺受体(D₂R)的配体。
保序预测器的基准测试
研究人员针对八种治疗相关蛋白进行了分子对接筛选,以评估CP流程的性能。蛋白靶点的详细信息及分子对接计算的准备过程见补充材料。研究人员从Enamine REAL数据库中随机抽取1100万种符合Ro4规则(分子量<400 Da,cLogP<4)的化合物,进行分子对接,并筛选每个靶点的潜在配体。共预测了超过493万亿个蛋白-配体复合物,最终获得8800万个独特复合物及其对接评分。对于每个靶点,化合物的化学结构及对应的对接评分用于创建训练集(100万化合物)和测试集(1000万化合物),以评估CP框架的性能。活性(少数类)阈值基于每次筛选得分最高的前1%确定。
研究人员评估了三种不同的机器学习算法:CatBoost、深度神经网络(DNN)和RoBERTa。为探索不同的小分子表示方式,训练数据采用了三类特征:(1) Morgan2指纹,即RDKit实现的基于子结构的ECFP4描述符,该描述符在此前的虚拟筛选中表现出色;(2) CDDD(连续数据驱动描述符),可提供分子的密集潜在表示;(3) RoBERTa编码器提取的Transformer描述符,用于微调RoBERTa模型。每种分类器的超参数设置详见补充材料。
五个独立分类器分别在100万标注特征数据上训练,其中80%用于训练,20%用于校准。测试集(1000万化合物)的特征通过每个分类模型及其对应的校准集计算出10个归一化P值(5个P1和5个P0)。最终,通过取P1和P0值的中位数进行聚合,得到最终的P1和P0值。根据这些P值及选定的显著性水平(ε),Mondrian CP框架将化合物划分为虚拟活性、虚拟非活性、两者兼有(可能活性或非活性)及无分类四类(图2a)。基准测试的性能评估基于最大化有效(单标签)预测数的最优显著性水平εopt(图2b)。评估指标(灵敏度、精确度、效率和预测误差率)详见“机器学习分类器的训练与评估”部分。CP框架的训练集与测试集具有可交换性,因此预测误差率与选定的显著性水平高度一致(图2c)。
为在减少显式对接分子数量的同时提升预测能力,研究人员探索了最佳训练集规模(2.5万至100万化合物)。随着训练集规模增加,所有靶点的灵敏度、精确度及显著性水平均有所提升(图2d-f)。
超大规模化学库的优化筛选流程
研究人员对ZINC15数据库中2.35亿个化合物的对接数据进行分析,优化针对超大规模数据库的筛选流程,并聚焦于A₂A腺苷受体(A₂AR)和D₂多巴胺受体(D₂R)两种靶点。针对每个靶点,研究人员使用五个独立的CatBoost分类器(基于Morgan2指纹)对100万化合物进行训练,并预测整个化学库的活性分子。由于所有化合物均具备对接评分,因此可高效识别高评分分子。
在CP框架下,显著性水平决定了预测的虚拟活性分子集大小,即需进行对接的化合物集合。通过优化,研究人员将A₂AR和D₂R的活性分子库分别从2.34亿减少至2500万和1900万,且保持高灵敏度(0.87和0.88)。这表明,仅需对接约10%的化学库,即可识别近90%的虚拟活性分子,同时保证误分类率不超过12%和8%。然而,在数十亿级数据库中,即使对接少量化合物,计算资源需求仍然巨大。因此,进一步降低显著性水平可缩小筛选范围,并增强高置信度预测。
降低显著性水平后,虚拟活性分子集的规模显著减少,并富集高评分化合物。例如,当显著性水平降至0.01时,A₂AR和D₂R的数据库分别缩减至300万和260万分子,同时对接评分分布明显向更优能量偏移。在该水平下,A₂AR和D₂R最高评分的1万种化合物仍可分别识别80%和64%。这表明,通过调整显著性水平,可有效减少数据库规模,同时保留最优候选分子。
另一种优化策略是基于P1-P0差值(信息质量)对化合物排序,以优先选择预测置信度最高的子集。这一方法显著提升了高评分分子的富集率,仅筛选3%(A₂AR)和5%(D₂R)的化合物,即可识别超过90%的最高评分分子。此外,UMAP降维分析表明,优先筛选出的化合物在结构上与训练集中活性化合物相似,Tanimoto相似性分析进一步验证了这一结果。
为评估CP对筛选化合物结构多样性的影响,研究人员比较了D₂R筛选流程与大规模对接筛选的前1%高评分分子。虽然CP筛选的前1%化合物的骨架多样性略低(13% vs. 23%),但经过修饰的化学骨架在结构上与对接筛选所得化合物并无显著差异。进一步分析ChEMBL数据库中的A₂AR和D₂R已知配体,研究人员发现,仅基于对接数据训练的模型即可正确分类92%和86%的已知活性配体。这一结果验证了CP方法的有效性,并强调在实际筛选前对已知活性分子进行基准测试的重要性。
超大规模化学库的前瞻性虚拟筛选
研究人员的目标是利用机器学习将数十亿级化学库缩减至数百万个潜在候选分子,并对A₂AR和D₂R进行评估。针对单一靶点,训练集的对接、保序预测器训练以及35亿化合物的预测可在约2500核心小时内完成。显著性水平设定为0.005,筛选出2500万(A₂AR)和2400万(D₂R)个虚拟活性化合物,其中,每个靶点优先选择500万种化合物进行对接计算(基于信息质量排序),实现700倍数据库压缩,计算成本约为10,344核心小时/靶点。与直接对接35亿化合物相比,该流程的计算成本降低了568倍。
对于两个靶点,优先筛选的500万化合物的对接评分显著向更优能量偏移。例如,D₂R训练集中评分最密集的区间为−25.1 kcal/mol,而筛选出的虚拟活性分子中,该值提高至−51.6 kcal/mol。其中,49%的化合物对接评分优于训练集用于标注活性化合物的能量阈值(−49.7 kcal/mol),相当于49倍的活性富集。此外,即使仅选择100万种虚拟活性化合物进行对接,依然能获得类似的能量分布,表明研究人员可根据需求控制数据库缩减程度,最大可实现3500倍的化学库压缩。
为验证该流程能否发现真实配体,研究人员从D₂R的35亿化合物筛选中选取31种最高评分的分子,并在放射性配体结合实验中以10 μM浓度测试其活性。其中,两种化合物(1和2)表现出显著的放射性配体置换效应,并测得D₂R的结合亲和力(Ki值分别为3.0 μM和3.8 μM)。进一步的功能实验表明,这两种化合物均为D₂R的完全激动剂,分别具有10 μM和14 μM的效能(EC₅₀),最大效应(Eₘₐₓ)分别为99%和100%(相对于多巴胺的最大效应)。
这些结果表明,该流程可通过筛选超大规模化学库中的小部分化合物,成功识别药物发现的起始分子。
机器学习引导的多靶点药物设计
筛选超大规模化学库有助于发现具备复杂性质的配体,特别是可同时作用于多个疾病相关靶点的化合物,例如帕金森病的治疗需同时激动D₂R并拮抗A₂AR。然而,由于A₂AR和D₂R结合位点相似性较低,识别双靶点配体极具挑战。
研究人员优化了A₂AR和D₂R的对接模型,并从30亿级化合物库中随机筛选100万种先导化合物进行对接。结果表明,在小规模化学库中找到同时作用于两个靶点的化合物极为困难。随后,利用保序预测器筛选整个数据库,并优先选择500万种化合物进行对接计算。筛选出的化合物对A₂AR和D₂R的结合能力分别提升17倍和34倍,显著富集了双靶点活性分子,其中3.8%的化合物同时满足两个靶点的高评分标准,相较于随机筛选提高了191倍。
研究人员最终筛选出45种化合物进行合成,并在4–5周内成功获得。实验测试显示,4–6号化合物对A₂AR具有显著结合能力(Ki 1.3–20 μM),其中化合物5同时结合D₂R(Ki 14 μM)。结构分析表明,该化合物可与A₂AR和D₂R的关键残基形成氢键,具有良好的双靶点活性。
这些结果表明,该虚拟筛选流程可有效识别多靶点候选分子,为复杂疾病的精准治疗提供新思路。
讨论
商用化学库的快速扩展推动了多种基于结构的虚拟筛选方法的发展,以降低探索化学空间的计算成本。其中,一些方法结合了机器学习,实现了对数百万至数十亿级化合物的高效评估。相比现有方法,研究人员提出的流程基于保序预测(CP),这一稳健框架可控制预测误差率。通过类别特定的置信水平,研究人员将CP扩展至多十亿级化学库,实现了与其他方法相当或更优的召回率和数据库缩减效果,同时避免了资源密集型主动学习的需求。对比传统基于子结构的指纹与新型数据驱动描述符的实验表明,经典指纹在此类应用中仍然足够有效。这些优化使得该流程能够高效遍历庞大化学库,同时保持较低计算成本。
目前,部分基于分子对接的大规模化学库筛选方法采用分层策略,例如V-SYNTHES方法基于片段化配体发现的原理,先对一小部分片段级分子(synthons)进行对接,再扩展至更大化合物进行筛选。这类方法无需机器学习,因为synthons及其扩展化合物的数量较小,可直接进行对接。然而,synthons库与完整化学库并不对等,因此基于synthons对接训练的保序预测器难以准确预测高评分化合物。随着数据库规模增长,机器学习与分层筛选方法的结合可能进一步提升筛选效率。
本研究的一大特点是结合机器学习筛选与实验验证,以评估方法的潜力与局限性。D₂R的初步筛选表明,该流程可识别神经精神疾病和神经退行性疾病的潜在激动剂,且命中率与小规模筛选相当。尽管大规模筛选可发现高效化合物,但分子对接的准确性可能成为瓶颈,尤其是评分函数的局限性可能导致假阳性富集。研究人员的方法减少了需显式对接的化合物数量,使计算资源得以重新分配至高评分化合物的更精确重新评分。尽管存在挑战,A₂AR与D₂R的双靶点筛选成功发现了双靶点配体,为帕金森病药物开发提供了良好起点。这表明,扩大化学空间的覆盖范围有助于发现更具复杂性质的配体,而这在小规模库中难以实现。
未来,该筛选流程可进一步扩展至多目标优化,结合多个保序预测器,以同时优化选择性、理化和药代动力学特性。整体而言,研究结果表明,结合保序预测器的对接筛选可加速小分子药物的开发。
Luttens, A., Cabeza de Vaca, I., Sparring, L. et al. Rapid traversal of vast chemical space using machine learning-guided docking screens. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00777-x