《1、 引言》

1、 引言

在过去几十年中,制药行业受制于药学科学前沿研究的程度,因为新药的开发是一个长期而复杂的过程,伴随着高风险和高成本[12]。换句话说,当前的药物研发领域需要显著提高生产力,以缩短药物开发的周期和成本[3]。网络药理学、RNA测序(RNA-seq)、高通量筛选(HTS)或虚拟筛选等技术在一定程度上加速了新靶点和新药物的发现[49]。然而,这些技术在当前新药发现过程中往往未起到决定性作用。因此,迫切需要新技术推动新药的开发。

随着算力的大幅增长,由于AI学习、处理和预测大量信息的能力,其已被广泛应用于许多实际案例,如图像分类和语音识别[1012]。目前,在长期的数据积累过程中,结合高通量RNA-seq技术的发展,已经产生了大量的生物医学数据[1318]。而生物医学数据具有高度异质性和复杂性,来源多样,包括来自不同平台的组学数据、生物或化学实验室的实验数据、制药公司产生的数据、公开披露的文本信息以及从公开可用数据库手动整理的数据[1922]。人工智能(AI)可以用于学习这些海量生物医学数据中的潜在模式,从而为药学和产业带来新的机遇和挑战。

AlphaFold2在Critical Assessment of Protein Structure Prediction (CASP14)竞赛中利用AI方法在准确预测蛋白质的三维结构方面表现出色[23]。同样,在Open-Graph Benchmark Large-Scale Challenge (OGB-LSC)竞赛中,将图神经网络与Transformer模型相结合,在预测通过密度泛函理论(DFT)计算的分子性质方面取得了最好成绩,与之相比,传统方法表现不佳且耗时较长[24]。这些竞赛展示了AI在分析生物或化学数据方面的强大能力。由于其可以利用相关的生物医学数据来理解复杂的生物系统和化学反应空间的强大能力[2526],AI对药物研发的各个阶段都产生了革命性的影响,不仅包括蛋白质和小分子的研究,还包括临床试验的辅助设计和上市后监测[27]。此外,在制药公司中,许多最先进的AI模型已被应用于不同的流程中,以缩短研发周期和降低成本[2830]。

在这一背景下,AI技术主要涉及机器学习(machine learning, ML)和深度学习(deep learning, DL)。在靶点的发现和验证[31]、药物的发现和设计[32]以及临床前药物研究[33]等方面,ML以及DL均被应用于分析不同格式的各种数据特征。当一个药物候选进入临床试验阶段[34]后,DL在临床试验设计、监督和分析临床四期数据方面发挥了至关重要的作用[33]。已获批的药物对企业[35]和市场经济有着重要影响,DL也在这些领域发挥了作用。因此,在本文中,我们全面介绍了AI在制药科学中的大部分应用领域。重点关注AI如何促进靶点发现和药物发现(图1),并思考如何进一步加速该领域的发展。

《图1》

图1 AI在制药科学中的应用概述。ADMET:吸收、分布、代谢、排泄和毒性。

《2、 AI的基本概念及其应用范围》

2、 AI的基本概念及其应用范围

AI最早于1956年在达特茅斯会议上提出,并被定义为一种使机器具备推理和执行功能的算法[36]。从感知机到支持向量机(SVM)和人工神经网络(ANNs),AI的发展经历了几次起伏,并得益于现有的硬件支持,目前正在蓬勃发展。机器学习(ML)和深度学习(DL)都属于AI的范畴;严格来说,DL可以归类为ML。然而,在本文中,我们对ML的讨论仅集中在传统的机器学习方法,如随机森林(RF)和支持向量机(SVM)等。

《2.1 大数据时代》

2.1 大数据时代

在当前的大数据时代,庞大的生物和临床数据为AI在医药研究领域的应用奠定了基础。尽管AI已经在药物研发过程的多个方面取得了成功和有效的应用,但医学数据的数量和质量已成为制约AI在药学中发展的主要阻碍之一。迄今为止,由全球的药物研究人员构建的包含详细和结构化大数据的药物数据库在促进AI在医药研究中的应用方面起着关键作用。

例如,治疗靶点数据库(TTD)包含有关已知和探索的治疗蛋白质和核酸靶点、靶向疾病、通路信息以及针对每个靶点的相应药物的最全面信息。它提供了有关靶点功能的详细知识,以及它们的序列、三维结构、配体结合性质、相关酶和相应药物信息[37]。PubChem [17]提供了与生物测定相关的化学分子及其活性的集合信息,包括分子结构、标识符、物理化学性质、专利信息和分子毒性。一些旨在解决各种药物问题的常用数据库已被提出并被经常使用,它们在推动AI在医药研究中的应用方面发挥着重要作用[3842]。通过总结各种常用的药物数据库,表1 [1718,37,4362]提供了有关常用药物数据库的简要信息,按照蛋白质相关、基因相关、药物相关和疾病相关的数据库进行了分类。

《表1》

表1 以蛋白质、基因、药物/药物靶点和疾病为重点的医药数据库

《2.2 机器学习与深度学习》

2.2 机器学习与深度学习

与传统的计算机编程计算不同,ML和DL可以从输入数据中学习潜在的模式,而无需显式编程。它们不受输入数据格式的限制,可以包括文本、图像、声音等各种类型的数据(所有可以进行编码的数据类型)[63]。类似于人类学习模式,ML和DL可以逐渐识别数据的不同特征,推断其中的模式,并通过不断迭代更新模型参数,直到形成有效的模型。

根据应用场景,模型可以分为回归模型和分类模型。分类和回归任务的区别主要在于输出变量的类型是连续还是离散。Cheng等[64]应用机器学习方法预测全氟烷基物质(PFAS)的生物活性,输出为连续值,这是一种典型的回归任务。Hong等[65]构建了一个深度学习模型,用于预测细菌中的蛋白质是否属于T4SE类型,输出为离散值(如0/1),这是一种典型的分类任务。

根据解决问题所需的学习算法类型,模型可以概念化为三类:监督学习、无监督学习和强化学习。监督学习是一个基于标记数据的过程,通过训练模型来学习输入与预先确定的输出之间的关系,以预测未来输入的类别或连续变量。相比之下,无监督方法用于识别无标签数据集中的模式,并探索数据集的潜在结构,以便对数据进行进一步的聚类分析等。此外,半监督学习介于监督学习和无监督学习之间;它仅接受部分标记数据来开发训练模型,并可用作缺乏高质量数据的问题的潜在解决方案[66]。强化学习通过持续的交互式学习进行模型构建,依赖失败的惩罚或成功的奖励来指导模型的构建。

《2.3 对ML/DL算法的基础介绍》

2.3 对ML/DL算法的基础介绍

ML和DL方法已成功应用于解决相关的生物医学问题,采用的建模方法因不同问题甚至相同问题而异。例如,过去常常对小分子进行特征工程,将其表征直接送入不同的ML模型中以预测性质;然而,最近,图神经网络(GNNs)也可以用于描述小分子以预测性质[67]。对蛋白质进行功能注释对于发现作为潜在靶点的可药靶蛋白质至关重要。Maxat等[68]使用卷积神经网络(CNN)对蛋白质的基因本体论(GOA)进行注释。Nadav等[69]构建了一个循环神经网络(RNN)用于蛋白质功能注释,Xia等[70]结合了CNN和RNN来预测蛋白质的基因本体(GO)标签。

ML构建了一种非特定的算法,它关注数据的特征并将其转化为机器可以读取的知识,以提供给人类新的见解。研究人员可以选择多种常见的算法。朴素贝叶斯(NB)算法是基于贝叶斯定理和特征之间独立假设的概率分类器,它是一种简单直观的算法[71]。随机森林(RF)算法构建了一组无关的决策树,形成一个完整的层次结构;在模型构建过程中,每棵决策树分别负责相应的问题[72]。基于决策树的大多数投票产生最终决策。通过这种方法进行决策的模型通常被称为集成模型。极限梯度提升(XGBOOST)是一种基于梯度提升的可扩展机器学习算法,也是一种集成模型[73]。多层感知器(MLP)可以被视为由多个节点层组成的有向图,每个节点层与下一层完全连接,以将一组输入向量映射到一组输出向量。支持向量机(SVM)是应用最广泛的机器学习算法之一。它使用最优超平面对样本进行分类,这些样本通过在特定维度空间中最大化不同类之间的间隔来获得,维度由特征数量确定[74]。k最近邻(KNN)被认为是一种“惰性学习”,在区分类别时仅根据少数相邻样本对样本进行分类[75]。除上述方法外,还有其他一些机器学习方法,如主成分分析(PCA)、偏最小二乘(PLS)、线性判别分析(LDA)和逻辑回归(LR),在生物医学数据处理中得到应用[7677]。

DL由于其强大的泛化和特征提取能力而受到欢迎;其学习和预测过程是端到端的。与传统的机器学习过程(通常由多个独立模块组成)不同,深度学习在模型训练过程中直接从输入数据(输入端)获得输出数据(输出端),并根据输出与真实值之间的误差不断调整和优化模型,直到达到预期的结果。深度神经网络(DNN)是一种前馈神经网络,由密集连接的输入层、隐藏层和输出层组成。它通过模拟神经元之间的非线性变换来实现对输入数据的特征学习,而每一层都由多个神经元组成[78]。卷积神经网络(CNN)是一种前馈神经网络,由卷积层(特征提取)和池化层(降维)组成。卷积和池化层有助于在不消耗太多时间和计算资源的情况下提取数据集中的所有信息[79]。循环神经网络(RNN)是一类人工神经网络,其中链接的节点沿着时间序列形成有向或无向图。RNN包括一个反馈组件,允许信号从一层反馈到前一层。它是唯一具有内部记忆的神经网络,有助于解决学习和存储长期信息的难题[80]。图神经网络(GNN)是一种连接模型,通过节点之间的信息传递推导出图中的依赖关系[8182]。GNN根据节点的邻居更新节点的状态,该状态能够表示节点的信息。上述四种网络的神经网络结构如图2所示。

《图2》

图2 DNN、GNN、CNN和RNN的网络架构示意图。ReLU:线性整流函数。

自动编码器(AE)由编码器和解码器组成,用于学习输入数据的有效编码。通过将输入数据输入到编码器生成的编码,可以通过解码器重新生成输入。AE通过对数据集的表征(即编码)进行数据压缩和降维[83]。生成对抗网络(GAN)由两个基础神经网络组成:生成器神经网络和判别器神经网络。前者用于生成内容,而后者用于区分生成的内容[84]。模型也可以组合使用以解决更广泛的问题。例如,图卷积网络(GCN)将传统数据(如图像)的卷积操作扩展到图数据[85]。

当模型无法有效学习数据特征中的潜在模式,并且失去了对新数据的泛化能力时,这种问题通常被称为模型欠拟合(underfitting)[86]。相反,过拟合(overfitting)发生在模型训练时,数据中的噪声被拟合为代表性特征,导致对新数据的预测效果不佳[87]。与欠拟合相比,模型过拟合更难处理。通常由于过于复杂或数据的不充分表征而导致模型过拟合。用于模型的数据集通常被划分为训练集、验证集和测试集。这些集合分别用于模型的训练、调整和评估。简单来说,既在训练集上表现不佳又在测试集上表现不佳的模型是欠拟合模型,而在训练集上表现良好但在测试集上表现不佳的模型是过拟合模型。抑制过拟合的典型方法包括正则化、数据增强[88]、dropout [89]、提前停止和集成学习等方法。

在预测COVID-19大流行的长期趋势时,研究人员遇到了模型欠拟合和过拟合的问题,当时他们只使用了传统流行病模型或机器学习模型中的一个模型。为了解决这些问题,Sun等[90]提出了一个称为动态易感-潜伏-感染-隔离(D-SEIQ)的新模型。D-SEIQ模型通过适当修改易感-潜伏-感染-康复(SEIR)模型,并在合理的流行病学约束条件下整合基于机器学习的参数优化,可以准确预测COVID-19暴发的长期趋势。

不同的模型有不同的评估标准。在回归模型中,常用的评估标准包括均方误差(MSE)、均方根误差(RMSE)和R²。在分类模型中,常用标准是召回率(Recall)、精确率(Precision)和F1分数(F1 Score)。同时,接收者操作特征(ROC)曲线和精确率-召回率曲线(PRC)是分类模型中最常用的评估标准,ROC曲线考虑了正负样本来评估模型的整体性能,而PRC更关注正样本情况[91]。

《2.4 简述作为模型输入的分子表征方法》

2.4 简述作为模型输入的分子表征方法

随着时间的推移,关于小分子和蛋白质的数据积累已经形成了一个极其庞大的数据资源。不同组织机构已经收集和整理了分子序列、结构、物理化学性质等数据库,其中包含大量的知识和信息。然而,数据的不同来源和格式使得从多个异构源整合相关数据变得困难。采用适当的方法以表征分子,并通过AI挖掘分子数据中的关键信息尤为重要[92]。当前的AI算法高度依赖数据的质量,因此,在进行模型构建时,有必要统一分子的输入格式,例如,将小分子和蛋白质表示为模型可读的向量或矩阵。

目前,小分子的表征通常采用以下四种主要方法之一。第一种方法是基于知识的表示。基于人类先验知识的分子描述符和分子指纹广泛应用于各种ML或DL算法[93]。第二种方法是基于图像的直接表示。CNN现在已经用于从二维数字图像中学习规则。分子的二维化学数字网格可以直接用作输入,使得CNN模型能够学习分子的特性[94]。第三种方法是基于字符串的表示。例如,典型的简化分子输入行表示系统(SMILES)将小分子表示为字符串形式。因此,CNN和RNN可以进一步从化学结构的字符串表示中学习分子嵌入[9597]。第四种方法涉及基于图的特征表示。基于图卷积或图注意力的表示方法广泛用于探索小分子的特征表示。在这些方法中,原子和键分别被视为节点和边,在单个节点上的信息持续更新过程中以获得新的分子表征。基于图的表征在各种学习任务中取得了出色的性能[9899]。

蛋白质的表征方法基本上也可以分为四类:基于序列内在性质的表示、基于物理化学性质的表示、基于蛋白质结构的表示和基于图的表示。基于序列的蛋白质表示方法包括氨基酸组成(AAC)、二肽组成、自相关描述符、位置特异性评分矩阵(PSSMs)和独热编码(one-hot)[100107];这些方法反映了氨基酸的不同组成、二肽的组成以及氨基酸在序列上的分布。基于物理化学性质的蛋白质表征方法包括组成、转换和分布(CTD),伪氨基酸组成(PAAC)和疏水性伪氨基酸组成(APAAC)[108110],这些方法反映了每个氨基酸的性质以及这些性质在序列上的分布。上述两种特征表示方法被广泛应用于各种模型,因为它们可以仅通过序列信息获取蛋白质特征。众所周知,蛋白质的高级结构决定了其功能,因此有时会直接表征蛋白质的结构。基于结构性质的蛋白质表征方法包括拓扑分子结构、蛋白质二级结构和溶剂可及性(PSSSA)[111113],这些方法反映了蛋白质中每个氨基酸的结构性质和蛋白质的结构类型。PSSSA也是基于图的蛋白质表示方法。在最简单的图中,每个节点对应一个氨基酸残基,而边连接在一定距离内的残基对[114]。基于结构和图的蛋白质表征方法能够有效地表示蛋白质的结构以及结构中氨基酸残基之间的关系,并可应用于各种新颖的模型架构,如图神经网络(GNNs)、Transformer模型和生成对抗网络(GANs)[114117]。

近年来,出现了一些新颖的分子表征方法,如基于知识图谱和大规模预训练的表征方法[118119];这些方法在适当的下游任务中也表现出色。总体而言,使用捕捉分子关键特征的向量或矩阵来表示分子的原始数据对于后续的数据探索和分析至关重要。

《2.5 药物与疾病研究的AI算法》

2.5 药物与疾病研究的AI算法

在研究不同类型的药物并进行疾病研究时,选择合适的模型可以最大限度地利用数据中的潜在信息。对于小型数据集的分类或回归问题,ML通常可以在短时间内达到令人满意的性能。例如,基于定量构效关系(QSAR)模型的药物-蛋白质亲和性预测研究可以选择使用支持向量机(SVM)或随机森林(RF)模型(详见第5节)[120121]。当数据量逐渐增多时,DL算法通常更为适用。例如,在蛋白质折叠问题的预测中,CNN模型可以更好地预测残基[122]。在药物从头设计领域,生成模型和变分自动编码器(VAE)可以帮助设计与愿景相吻合的分子[123124](详见第4节)。研究往往不是从任务的角度选择模型,而是通过数据的表征形式来选择适当的算法。因此,研究人员可以从可用于相同任务的不同AI算法中进行选择。在预测分子的吸收、分布、代谢、排泄和毒性(ADMET)性质时,CNN、RNN和多任务学习可以取得出色的结果[125](详见第5节)。基于图的AI算法通过从数据之间的关系入手,允许对非结构化数据进行建模。在药学中,复杂的生物网络关系至关重要。因此,通过加入药物-药物相互作用、药物-蛋白质相互作用、蛋白质-蛋白质相互作用等,可以增强模型的学习能力[126](详见第3节)。当与这些生物实体本身的表征相结合时,可以在更深层次上学习到有关实体的关键信息,以助于进行预测,并构建更具解释性的模型。

因此,在将这些方法应用于实际的药物和疾病问题研究时,不同算法之间的边界变得越来越模糊。根据可用数据的类型,并考虑生物学上的意义,可以为模型选择和构建提供见解。

《3、 靶点发现与验证》

3、 靶点发现与验证

从传统的角度来看,新药发现(first-in-clas)有两种范式[127]:表型药物发现(PDD)和靶向药物发现(TDD)。早期的生物研究技术依赖于显微镜、成像和细胞技术,观察活体系统中的表型变化。PDD通过构建与疾病高度相关的动物模型或实验,对化合物或抗体库进行筛选。接下来,观察细胞或实验动物对这些化合物的反应,以便确定具有一定疗效水平的分子,进行进一步的结构修饰和优化[128]。随着分子生物学和各种测序技术的发展,对生物大分子的研究达到了新的高度。药物发现研究进入了TDD时代[129],并逐渐取代PDD成为主流的药物发现范例。TDD以“一个基因、一种药物、一种疾病”的概念为中心[4]。该方法依赖于与疾病高度相关的靶点,可以是酶、蛋白质或其他基因产物,以及针对该靶点的精心设计的小分子,用于调节靶点以作为治疗该疾病的药物。尽管PDD的药物发现范例近年来重新兴起[128],但筛选出的药物通常需要进一步的靶点验证和机制研究。因此,靶点发现往往是药物开发阶段的首要关键步骤[129]。靶点发现过程涉及多方面的研究,包括研究与疾病相关的基因、信号通路、蛋白质相互作用和小分子-蛋白质相互作用。尤其值得注意的是,受限于通量、准确性和成本方面的限制,基于实验手段的靶点发现很难快速广泛地进行,而基于AI的发现可以高效地识别具有可药靶性的生物分子。

《3.1 基于组学的药物靶点发现》

3.1 基于组学的药物靶点发现

随着高通量测序技术的进步,大量的组学数据不断生成。对这种大规模组学数据(如基因组学、转录组学、蛋白质组学、代谢组学等)进行处理和分析[130138]对于生物学、医学和药学具有革命性意义,特别是在帮助研究人员理解复杂的生物系统和过程方面。基于组学数据已经确定了许多可能与特定疾病相关的生物过程中扮演重要角色的基因或蛋白质[135,139141],从而促进了药物靶点发现的研究。例如,利用组学数据已经揭示了诸如SETD2和VGLL4等新的候选疾病靶点。然而,处理和分析这些复杂且高维组学数据极具挑战性;因此,ML和DL方法可用于从大规模组学数据集中学习潜在知识,有助于发现对生物过程至关重要的基因或通路[142]。表2 [18,44,4850,53,143151]提供了药物、蛋白质和疾病分析的组学项目的示例。

《表2》

表2 用于分析药物、蛋白质和疾病的组学项目

潜在靶点是与特定疾病相关且与其他疾病关联度最小的分子。复杂疾病如肿瘤学、心血管病和免疫性疾病常常由多个关键基因、分子或信号通路调控,因此有必要揭示多个分子与疾病之间的联系。组学数据对于发现和评估潜在靶点的生物效应或毒性至关重要。例如,癌症干细胞(CSCs)会对肺腺癌(LUAD)的治疗产生很大的阻力。研究LUAD中干细胞相关基因的表达可以为LUAD的治疗提供新的见解。Zhang等[152]应用一种无监督的机器学习算法,称为单类逻辑回归(OCLR),对正常干细胞及其后代的分子数据集进行分析,得到基于mRNA表达的干细胞指数(mRNAsi)、基于DNA甲基化的干细胞指数(mDNAsi)和基于表观遗传调控的指数(EREG-mRNAsi),以分析癌症基因组图谱(TCGA)中的LUAD案例数据,计算样本干细胞指数的得分。在这个过程中,使用加权基因共表达网络分析(WGCNA)来寻找与LUAD相关的关键基因。最终,鉴定出了13个之前被忽视的与LUAD整体相关的关键基因,这些基因可以通过抑制干细胞特征,作为治疗LUAD的潜在靶点。

Connectivity Map(cMap)和基于集成网络的细胞特征文库(LINCS-L1000)自发布以来,已被广泛用于研究小分子化合物的作用机制和靶点,目的是发现用于疾病的潜在药物或药物的潜在靶点[153155]。网络服务PharmMapper [156158]从TargetBank、DrugBank、BindingDB和潜在药物靶点数据库(PDTD)收集了52 431个药效团模型,并利用快速药效团映射方法,通过这些模型识别所给定的探针小分子的潜在靶点候选物。ChemMapper [159]是另一个网络服务,旨在基于三维相似性计算预测小分子的多重药理效应、潜在蛋白质靶点和作用模式,其数据库包含4 350 000个具有生物活性和相关靶点注释的化学结构。iDrug [160]平台提供了一个多功能、用户友好且高效的在线计算机辅助药物设计工具,基于药效图和三维分子相似性搜索,通过无缝接口以交互方式进行结合位点检测、虚拟筛选和药物靶点预测。Noh等[161]基于普通微分方程(ODE)模型设计了DeltaNet,用于分析基因转录过程并预测化合物的潜在靶点。DeltaNet有两个版本,分别是DeltaNet-LAR和DeltaNet-LASSO,它们分别使用最后角回归(LAR)及最小绝对收缩和选择算子(LASSO)正则化来解决线性回归问题。DeltaNet输出预测目标基因的排名,进行进一步的富集分析以找到其他关键的分子靶点。Zhu等[162]构建了一个基于深度学习的药效预测系统(DLEPS),用于识别新的药物候选物和发现靶点。DLEPS通过转录谱数据进行训练,其主要来自L1000项目,利用疾病状态下基因表达谱的变化作为输入。除了发现三个新的候选药物外,DLEPS还证明了MEK-ERK是非酒精性脂肪性肝炎的关键信号通路,这一知识可以用于开发特定的靶点。通过ML和DL对这种转录组的数据挖掘分析不仅有助于发现药物靶点,还可以阐明药物的作用方式和疾病机制[163]。

分析组学数据已帮助研究人员发现许多被忽视的疾病候选靶点[164]。随着测序技术的进步和更深入的研究,只对单一组学数据进行更深层挖掘的局限性变得越来越明显,因为这种挖掘既不能反映生物过程的相关性和可变性(例如,简单的基因表达水平不能反映真实的蛋白质表达水平),也不能揭示复杂的生物系统和疾病机制(例如,糖酵解过程与基因组学、蛋白质组学和代谢组学相关)。特别地,疾病的发生往往涉及多个途径,需要整合多模态数据。例如,已发现增加DNA拷贝数的基因参与重要的癌症途径,而体细胞突变频率和表达水平也是癌症驱动因子的重要因素[143,165166]。通过在多个组学层面上集成信息,并通过AI方法挖掘线性或非线性关联,可以在更深层次上识别候选关键因子,这对于发现疾病的候选靶点至关重要。

心血管疾病、精神分裂症、癌症和阿尔茨海默病等复杂疾病具有许多治疗靶点,并且可以通过个体患者的多组学特征发现多个潜在的致病基因。Jeon等[31]使用具有径向基函数(RBF)核的SVM算法构建了三个模型,分别用于预测乳腺癌(BrCa)、胰腺癌(PaCa)和卵巢癌(Ovca)特异的潜在靶点。基因的基本性质、基因表达、DNA拷贝数变异、体细胞突变和蛋白质相互作用(PPI)网络拓扑结构是主要的输入特征,SVM能够深入探索这些特征之间的关联和差异,以区分潜在的药物靶蛋白和非靶蛋白。该模型经过10折交叉验证,具有较高的受试者工作特征曲线下面积(AUROC)值和较低的假阳性率。通过使用训练好的模型预测15 663个人类蛋白质并评分预测结果,总共鉴定出122个全癌症靶点(其中,69个与已经严格验证的116个已知靶点相对应)。此外,还发现了大量特异于BrCa、PaCa和OvCa的潜在靶点。当然,确定的靶点仅供参考,不是真正的药物靶点。

此外,一个团队利用多组学数据和蛋白质相互作用网络开发了一种基于网络的贝叶斯算法框架[167],推断阿尔茨海默病全基因组关联研究(AD GWAS)的基因座,揭示了103个AD风险基因(ARGs)。该研究包括来自单细胞转录组学的基因表达数据、微阵列的基因表达数据和蛋白质组学数据,充分展示了AI方法整合多源和多模态数据发现潜在治疗靶点的能力。

机器学习在推动多组学数据的学习过程中起到了关键作用,但在处理更大规模的多组学数据和更复杂的问题时可能会不堪重负。然而,深度学习可以处理更大量的多组学数据,并挖掘更深层次的关联。在药物靶点抑制和靶基因敲除应导致类似的生物过程发生,从而导致相似的mRNA表达谱的假设下,Pabon等[168]在CMap中探索了化合物诱导特征与基因敲除之间的直接特征相关性和间接特征相关性,并将这些特征与其他特征(如蛋白质相互作用)结合作为输入,用于随机森林模型预测药物靶点。为了更好地挖掘化学干扰(CP)特征与基因敲除(KD)遗传干扰特征之间的关联,Zhong等[169]提出了一种名为SSGCN的图卷积网络模型,用于挖掘转录组数据以预测化合物-蛋白质相互作用(CPI)。SSGCN构建了两个并行的GCN模型,分别用于提取CP特征和KD特征的特征表示,其中CP特征和KD特征与PPI网络整合(网络节点的属性值为基因差异表达值,如果两个节点之间存在相互作用,则它们通过边连接)。在特征提取后,得到两组图嵌入向量,通过简单的线性回归层获得CP特征与KD特征之间的相关程度。相关程度以Pearson系数R2表示,并与细胞系、CP时间、剂量和KD时间一起作为特征输入给分类器,用于区分化合物与相应蛋白质的相互作用。随后,该模型经过外部验证,证明在识别潜在药物靶点和促进药物再定位研究方面具有有效性。

大多数靶标发现模型使用端到端模型直接发现可药靶的蛋白质。深度学习还可以在靶标发现过程中的多个特定步骤中发挥关键作用,例如,使用SpliceAI [170]从前mRNA转录序列预测剪接、使用scVI从转录组数据中预测和分析单个细胞中的基因表达概率[171],以及使用PLEDA预测增强子[172]。一些研究对COVID-19进行了全基因组关联分析(GWAS),结果表明COVID-19易感性可能与染色体的3p21.21区域相关。在这些研究的基础上,Damien等[173]利用多种深度学习方法结合多组学数据发现,功能增强风险A等位基因的单核苷酸多态性(SNP)rs17713054G>A可能是一种导致疾病的变异体。进一步分析揭示,由rs17713054调控的类亮氨酸拉链转录因子1(LZTFL1)是上皮间质转化(EMT)发展的关键基因。EMT是与肺炎炎症相关的发育途径,经常由SARS-CoV-2病毒在肺癌细胞系和呼吸道中诱导。作为这一系列生物过程中的关键基因,LZTFL1可以作为潜在的治疗靶点。

使用AI方法可以有效预测癌细胞对药物的反应,推动精准医学的发展[174176]。一组研究使用弹性网络回归和随机森林(RF)来确定多组学数据如何影响药物反应预测[177]。在这项研究中,对990个癌细胞系中的265种药物进行筛选,构建了药物基因组学数据集。为了全面研究不同分子数据组合的影响,建立了线性和非线性机器学习模型。在全基因组的基因表达、DNA甲基化、基因拷贝数和体细胞突变数据中,基因表达数据在泛癌症分析中是最具预测力的数据类型,而基因组数据(如驱动突变、拷贝数变异或DNA甲基化数据)在特定癌症分析中是最具预测力的数据类型。

多组学数据在药物反应预测中的重要性也得到了证明。然而,大多数方法没有考虑药物/细胞系的特异性、药物/细胞系或药物-蛋白质的关联。为了解决这个问题,Peng等[178]结合了多组学数据和图卷积网络构建了一个名为MOFGCN的端到端模型。药物/细胞系关联用于构建初始异构网络,其中,节点是药物或细胞系。通过计算分子指纹的相似性获取药物的属性,通过融合多组学数据(如基因表达、拷贝数变异和体细胞突变数据)并计算它们的相似性获取细胞系的属性。完整构建的异构网络作为图卷积的输入,通过在节点之间传递信息来进一步学习药物和细胞系的潜在关联。为了预测药物敏感性,还需要基于从更新后的药物和细胞系特征计算得到的线性相关矩阵进一步重构癌细胞系-药物相关矩阵。预测药物敏感性的深度学习框架DeepDRK [179]将突变、拷贝数变异、DNA甲基化、基因表达和药物筛选作为细胞系特征,并提取分子-蛋白质信息作为药物特征。然后,将这两个特征拼接作为癌细胞系(CCL)-药物对的特征,并输入深度神经网络进行药物敏感性预测。

组学数据与AI方法的结合可以帮助研究人员在分子尺度上快速获得所需信息,因为各种级别的组学数据反映了生命活动的各个过程。整合和分析这些信息可以帮助理解复杂的生物系统,从而有助于发现新的药物靶点。

《3.2 基于化学基因组学的药物-靶点相互作用研究》

3.2 基于化学基因组学的药物-靶点相互作用研究

药物靶标相互作用(DTIs)的验证对药物发现研究十分重要。新发现的DTIs可用于寻找与现有药物相互作用的新靶点,或者发现与疾病相关的靶点相互作用的新化合物。因此,关于DTIs的研究结果广泛应用于先导化合物的发现、新靶点的发现、药物再定位和药物副作用预测领域[3,180181]等。尽管高通量筛选(HTS)已经发展出能够同时检测数千种化合物活性的方法,但无论是成本消耗还是测量的化合物数量,它们都无法与AI方法相媲美。一般来说,预测DTIs的方法可以分为三种主要方法:基于配体的方法、基于结构的方法和化学基因组学方法。这三种方法各有优缺点,其中化学基因组学方法是最广泛适用和流行的方法。因此,本节重点回顾化学基因组学方法,而另外两种方法将在第4节中介绍。

化学基因组学方法不仅使用与药物和靶点相关的信息,还将这些信息与多个生物医学信息源相连接,以更好地预测DTIs。公开可访问的数据库资源包含大量结构化和非结构化的生物医学数据,以支持信息的获取。ML和DL可以从这一大量异构数据中提取相关的功能信息,并减少噪声,从而精确高效地发现新的蛋白质靶点。表3 [37,5455,5758,182191]列出了一些目前高质量的公共数据库。

《表3》

表3 药物与目标相互作用研究数据库

DTIs预测通常被视为二元分类问题。使用ML方法预测DTI非常方便,通常只需获取小分子的SMILES和目标蛋白质的序列。这些序列通过不同的规则转换成特征向量,然后作为模型的输入来预测它们的最终分类。这些分子和蛋白质的表征方式多种多样,通常包含有关分子和蛋白质的理化性质及其结构的信息。表4列出了一些用于分子和蛋白质表征的工具包和库[192215]。例如,用MACCS指纹表征的小分子与用组成、转变和分布(CTD)描述符表征的蛋白质向量拼接,并作为SVM的输入来预测DTI [216]。DTI的出现受多种因素的影响,并与代表分子和蛋白质结构与特性的多维特征相对应。研究人员希望该模型能从这些特征中发现更多有关DTI机制的信息,然后根据相关信息做出分类判断。这类问题也可以被当作回归问题来处理。DeepDTA是一个CNN模型,它利用小分子与蛋白质序列的SMILES来预测小分子与蛋白质的亲和力[217]。仅使用单一特征表示法并不能完全表征小分子或蛋白质,因此一些研究使用多种描述符来表征小分子和蛋白质,并将这些特征整合为输入向量来预测DTI。这在一定程度上提高了模型的分类性能[218]。为了让研究人员更方便地使用DL对DTI进行预测,Huang等[219]提出了DeepPurpose,它实现了50多个DL模型(包括CNN、MLP、RNN等)。DeepPurpose可以用7种不同的方式对蛋白质进行编码。对于化合物,有8种编码方法。这些编码方法仅使用SMILES和氨基酸序列作为输入。这样,研究人员就可以在不同的模型上使用不同的编码方法方便地预测DTIs。

《表4》

表4 用于分析小分子和蛋白质的工具和库

上述研究仅利用SMILES序列和蛋白质氨基酸序列就能取得良好的性能。同时,整合各种数据源来预测DTI非常重要,如药物-药物相互作用、蛋白质-蛋白质相互作用和药物-疾病关联。Bleakley和Yamanishi [220]在后续工作中构建了一个关于DTI [221222]的二分图,并应用SVM模型进行DTI预测。该工作构建的四个数据集后来成为后续DTI预测模型的黄金标准数据集。受到这项工作的启发,出现了大量基于网络的方法来预测DTI。其中DTINet整合了多个异构数据源来构建DTI网络[223]。在这项研究中,基于①药物-药物相互作用网络、②药物-疾病关联信息、③药物副作用关联信息和④化学结构信息,构建了四个药物相似性网络。类似地,基于①蛋白质-蛋白质相互作用、②蛋白质-疾病关联和③基因组序列,构建了三个蛋白质相似性网络。利用这些相似性网络,首先在各个网络上分别应用了一种网络扩散算法——随机游走重启(RWR),并优化了特征向量。在学习过程中获得的低维向量表征包含了来自各种异构数据源的信息,并能更好地表示药物/蛋白质的特定属性。然后,根据药物和蛋白质之间的空间对应关系,利用这些获得的向量来发现新的DTI。

使用深度学习模型可以整合来自多个来源的异构数据,同时提供对药物或生物分子的全面描述。Zeng等[224]提出了一个名为deepDTnet的框架,用于整合异构数据源进行DTI预测。在这项研究中,整合了15个网络,包括基因组学、GOA、蛋白质相关相似性和药物相关相似性等,构建了一个连接药物靶点和疾病信息的异构网络。开发了一种称为图表示的深度神经网络(DNGR)算法,基于构建的网络获取了药物和靶点的信息向量。然而,公共数据库中缺乏负样本导致模型训练过程中存在困难,因此采用了一种PU矩阵补全算法来推断两种药物是否共享一个靶点。结果显示,将异构数据结合起来重新表示药物和靶点,而无需描述符或指纹,可以获得出色的性能。

正如前面提到的,组学数据、系统生物学、化学、药理学等大规模知识的出现为DTI预测提供了新的视角。然而,从多个来源整合异构数据无疑引入了大量噪声,并且不能很好地解决“冷启动”问题。在这里,知识图谱(KG)以其强大的整合异构信息能力脱颖而出。通过利用表型、药物、靶点和基因之间的相互作用,知识图谱可以帮助进一步理解疾病的分子机制并探索潜在的药物靶点。最近的研究整合了来自多个数据库(如Drugbank、TTD、ChEMBL、BindingDB、SIDER、Gene Ontology等)的资源,构建了BioKG、PharmKG、Hetionet和DRKG等知识图谱[30,225]。知识图谱通常将知识表示为三元组,由头实体、关系和尾实体组成。在DTI识别领域,通常使用知识图谱嵌入模型来通过低秩向量表示实体和关系,这也被称为知识图谱的表示学习。通过知识图谱获得的表示向量可以进一步用于链接预测,以发现药物-靶点关系[30]。知识图谱通常整合了大量的数据和几十甚至上百种关系。通过知识图谱获得的向量通常包含了生物网络中该实体的某种准确定位和关系,但不包括其自身的结构或物理化学性质。蛋白质也是如此。为了解决这个问题,Ye等[118]开发了一个名为KGE_NFM的框架,结合了知识图谱嵌入(KGE)技术和推荐系统技术进行DTI预测。在这个过程中,首先从异构网络中学到的潜在信息通过KGE获得准确的实体向量。然后,从分子指纹和蛋白质描述符中获取药物和靶点的结构信息。最后,使用神经因子分解机(NFM)提取多模态信息,并使用深度学习方法预测DTI。该方法在药物或蛋白质的“冷启动”场景中进行了测试,并取得了卓越的性能,尤其是对于蛋白质的“冷启动”场景。

除了上述用于预测DTI的方法之外,还可以使用基于相似性的方法[226]和基于矩阵分解的方法[227]等,这些方法过去对DTI预测做出了重要贡献。随着深度学习、基于网络的方法、基于特征的方法等的发展,现在常常将它们结合使用,发挥各种方法的优势,以更好地预测DTI并发现新的靶点[228229]。根据该领域的最新研究,DTI研究方法大致可以分为6类;表5 [217,221,223,226227,230247]简要总结了相关策略。

《表5》

表5 DTI发现的常用方法和算法

未来的研究应将组学数据与生物医学数据网络更紧密地结合起来,以更准确地描述药物或蛋白质的特征。此外,相似性方法对DTI预测有至关重要的影响,结合多种相似性结果可提高模型性能。模型训练中的一个常见问题是无法获得准确的负数据集。公开数据源中准确的药物-靶标相互作用数据都经过严格的实验验证,每一个数据的实验验证过程都是详尽无遗的;然而,大多数失败的实验都不会被报道。此外,人工验证数据非常耗时,而且大量数据尚未经过精确的相互作用验证。因此,DTI使用的数据集应始终使用最新、最全面的药物靶标数据库,如TTD和DrugBank,并应开源更多的阴性实验数据,以完善当前的DTI数据体系。

《4、 AI在药物设计中的最新应用》

4、 AI在药物设计中的最新应用

药物发现是一个长期而费力的过程。在过去几十年中,高通量筛选(HTS)和组合化学等技术以及其他技术在先导化合物的发现中发挥了重要作用。随后,对获得的先导化合物进行进一步的结构修饰,以减少毒性并提高疗效。然而,随着这些技术逐渐成为主流,它们的各种缺点也逐渐显露出来。类似地,在20世纪80年代,计算机辅助药物设计(CADD)与今天的AI一样受到热捧。例如,定量构效关系(QSAR)一经提出就被广泛使用。然而,在那个时代,基于QSAR的模型受限于可用的计算能力、数据集大小和其他问题,它们的预测性能无法令人满意[248250]。

近年来,算力的进步推动了AI的快速发展,同时极大地促进了计算化学和药理学的发展。例如,ML和DL方法在各种Kaggle竞赛中被用于提高QSAR方法的预测性能,所有这些方法都取得了很高的表现[78]。如上所述,深度学习允许识别新的分子表示方法,而不仅仅依赖现成的和由专家提取的化学标识。依赖丰富的生物医学数据的AI算法在生物活性预测、药物虚拟筛选和新药设计等领域显示出有希望的前景。

在进一步讨论之前,有必要简要介绍构效关系(SARs)和定量构效关系(QSARs)的概念。这两个概念经常在通过机器学习和深度学习方法进行药物设计时被使用,并且是药物设计、优化和开发的有力辅助工具。构效关系基于假设:具有相似结构的分子具有相似的活性。在药物发现中,定量构效关系基于各种分子表征方法(如分子描述符和分子指纹)和数学模型,描述分子结构与其特定生物活性之间的数学关系。QSAR模型假设化合物的结构决定其物理化学性质和生物活性。因此,可以建立化合物的结构与其物理化学性质、生物活性、毒理效应等之间的定量关系。QSAR分析过程通常包括准备初步数据集、计算和选择分子描述符、建立相关模型以及评估和验证模型结果[248,251]。

《4.1 前沿AI技术促进了虚拟筛选的发展》

4.1 前沿AI技术促进了虚拟筛选的发展

虚拟筛选(virtual screening, VS)已经持续发展了几十年。为了减少实际需要测量的化合物数量并提高先导化合物发现的效率,采用了基于计算模拟的方法来模拟靶点与小分子之间的相互作用,并在进行生物活性测试之前预测二者之间的亲和力[252]。VS方法通常被分为基于结构的虚拟筛选(structure-based virtual screening, SBVS)和基于配体的虚拟筛选(ligand-based virtual screening, LBVS)[253255]。AI与VS的结合为该领域带来了新的活力。多种分子表征方法结合各种新颖的模型架构为新化合物的发现提供了新的见解[9]。

SBVS基于蛋白质的三维构象选择潜在配体,并根据输入的生物物理方法的知识评分配体与蛋白质的结合能力,从而对药物候选物进行排名。以前,使用各种对接软件进行模拟的方法占主导地位,并产生了许多算法,如Monte Carlo (MC)算法[256]和分子动力学(MD)算法[252,257258]。模拟结果的一个主要限制是得分函数的构建,它必须考虑许多因素以及这些因素作为参数的合理性。AI将这些许多因素视为数据的特征,隐含地学习特征与实验结果之间的关系,从中提取有用的非线性映射关系,并给出最终得分。一种名为ID-Score的VS方法[120]选择了九类属性描述符(如范德华相互作用、氢键相互作用、静电相互作用、π-体系相互作用、金属-配体结合相互作用、脱溶效应、熵损失效应、形状匹配和表面性质匹配)作为特征,使用2278个化合物作为训练集,并使用支持向量回归(SVR)算法拟合小分子与蛋白质的结合亲和力。结果显示,ID-Score能够正确区分结构相似的配体,证明其作为评估基于结构的药物-蛋白质亲和性的强大工具。

在另一项研究中,使用了CNN对蛋白质配体进行评分。与传统方法不同,CNN具有足够强大的能力,可以接受蛋白质-配体相互作用的三维表示作为输入。在模型的训练过程中,CNN从三维表示中学习影响结合的关键特征,用于确定正确或错误的结合姿态以及已知的结合物和非结合物。Xie等[259]采用了不同的视角,通过将SVM分类模型与基于对接的VS方法相结合,以提高首选化合物发现的效率。更具体地说,他们开发了一个SVM模型来区分靶点的抑制剂和非抑制剂,并在此基础上进行了VS。这种组合极大地提高了VS的命中率和富集因子。与Xie等[259]的工作相反,Pereira等[260]开发了DeepVS,它采用DL方法来优化基于对接的VS。在这项研究中,使用了DUD [261]作为基准数据集来评估该方法。Dock [262]和Autodock Vina1.1.2 [263]被用作对接程序来生成蛋白质-化合物复合物。然后,对蛋白质-化合物复合物进行必要的处理,并将结果作为输入提供给CNN模型。CNN模型从这个关键数据中提取出关键特征,用于评估配体的得分。结果显示,DeepVS取得了先进的性能。

与基于结构的虚拟筛选(SBVS)方法相比,基于配体的虚拟筛选(LBVS)可以充分利用已知配体的生物活性数据,并筛选大量化合物数据库以发现潜在的先导化合物。因此,基于AI的虚拟筛选更倾向于LBVS。LBVS的起点是结构相似的化合物具有相似的生物活性的假设。所以,在这个领域中使用的AI方法既包括活性预测的回归模型,也包括基于化合物相似性的分类模型。

由于定量构效关系(quantitative structure-activity relationship, QSAR)使用数学模型将分子结构与定量生物活性相关联,它在LBVS中得到广泛应用。NB、RF和SVM是LBVS中非常流行的算法。AbdulHameed等[264]使用基于QSAR的NB算法和分子的物理化学性质作为特征,对一个近2000个化合物的数据库进行了筛选。最终发现,孕烷X受体(PXR)的激动剂往往是亲水性的,而其体外和体内的活性通常是一致的。Profile-QSAR 2.0提出了预测化合物活性的方法[265]。与较早的pQSAR 1.0方法相比,Profile-QSAR 2.0方法使用了化合物的历史活性值作为变量。优化后的pQSAR使用RF模型预测IC50值,达到了较高的准确性。Chen和Visco [266]创建了一个将QSAR与SVM模型集成在一起的流程,以识别Cathepsin L的抑制剂。他们使用了基于片段的描述符作为模型的输入。在优化模型之后,12个经筛选化合物中有9个得到了实验证实。人工神经网络(ANN)是QSAR研究中常用的工具之一。Myint等[267]报道了一种基于ANN的QSAR方法,称为FANN-QSAR,它使用了三种不同的分子指纹:ECFP6、FP2和MACCS。经过训练的模型用于预测大麻配体的亲和力,并找到了具有良好CB2亲和力的化合物。在另一项研究中,利用拓扑描述符的ANN确定了喹诺酮类化合物的最小抑菌浓度(MIC)[268]。随着越来越多的DL方法逐渐被用于与QSAR相关的研究中,研究人员发现DL在单任务和多任务学习中的性能往往优于机器学习(ML)[269271]。

QSAR方法不是LBVS中唯一使用的工具[272274]。Li等[275]使用多种机器学习方法构建分类模型,以选择肝X受体(LXR)激动剂。在这个过程中,优化的属性描述符和拓扑指纹被用来表征数据库中的小分子,并用四种算法(NB、SVM、KNN和RP)构成了共计324个模型。选择表现较好的前15个模型进行评估,发现其中10个模型的准确性超过90%。在另一项研究中,使用带有NB的SVM来识别丁酰胆碱酯酶(BuChE)抑制剂[276]。最初选择了1870个描述符,经分析后选择与活性相关的描述符以减少噪声,最终取得了更好的性能。在LBVS中,还有许多使用自组织映射(self-organizing mapping, SOM)的例子[277]。例如,Hristozov等[278]使用SOM作为模型,识别并排除不太可能具有特定生物活性的化合物。SOM的强大功能使其在其他软件中也被广泛应用[279]。

近年来,已知化合物数量的快速增加使得DL架构被发现更适合处理大规模的化合物数据集。其中一组研究者使用现有高通量筛选(HTS)数据训练了一个神经网络,并将分子图作为输入来学习分子表示[280]。具有相似表征的化合物在邻近的高维特征空间中被分配。在学习特征之后,使用余弦相似度来衡量与大型化合物库中药物分子的相似性,并对库中的小分子进行排名和筛选,以获得先导化合物。与使用图模型生成小分子特征不同的是,Kadurin等[281]使用对抗自编码器(AAE)构建了一个小分子特征生成器。基于获得的特征,对PubChem中的7200万个化合物进行筛选,以发现潜在的抗癌药物分子。CNN在图像识别中得到广泛应用,因此,在药物研究中使用CNN模型时,分子或蛋白质通常以矩阵的形式进行表征。Xu等[282]直接将分子图像作为CNN模型的输入,筛选CDK4的抑制剂效果优于竞争模型。近年来,越来越多的研究开始探索将DL应用于基于配体的虚拟筛选(LBVS),RNN [283]和RL [284]等算法已用于药物发现,为LBVS提供了更多机遇。

总体而言,通过虚拟筛选实现高效的先导化合物发现仍然是一个巨大的挑战,因为尚无令人满意的方法来解决活性悬崖等问题。AI算法是强大的工具,不仅可用于基于结构的虚拟筛选(SBVS),还可用于LBVS,以帮助突破相关挑战并辅助新药设计。随着算法复杂性的提高和未来高质量数据的可用性,现有技术中的瓶颈将不断被突破,以促进新药的发现。

《4.2 新药设计的最新进展》

4.2 新药设计的最新进展

药物设计的目标是设计具有特定性质的药物,满足特定的标准,包括疗效、安全性、合理的化学和生物性质以及结构的新颖性。近年来,借助深度生成模型和强化学习算法进行的全新药物设计被认为是一种有效的药物发现手段。这种方法可以绕过传统经验主导的药物设计范式的缺点,使计算机能够自主学习药物靶点和分子特征,以更快、更低成本的方式生成符合特定要求的化合物[285287]。

根据蛋白质结构进行的全新药物设计曾经是主要的方法。在这种方法中,无论是直接从蛋白质结构设计新分子,还是根据已知配体的性质进行合理推断,都会根据目标蛋白质结合口袋的空间和电位约束设计相应的配体,以发现具有特定性质的分子。这些早期方法的一个巨大限制是所得到的新分子在化学上是无法合成的,即它们的结构实际上是不可能合成或极难合成的,或者这些分子的可药性较差。此外,许多全新药物设计方法利用具有已知性质的分子片段进行分子组装,并使用大型分子片段库生成和设计具有新颖结构的分子,同时确保这些分子可以合成。然而,这种方法依赖于化学知识来替换或添加分子片段,这将限制搜索空间并忽略某些潜在的分子结构。利用深度生成模型生成新分子,并利用强化学习算法对模型进行有针对性的优化,可以更令人满意地解决上述传统方法的问题[288290]。

深度生成模型在全新药物设计领域具有很大优势,因为它们在分子生成过程中不需要明确输入化学知识。这些模型可以在更广阔的未知化学空间中搜索,自动生成超越现有分子骨架限制的新颖分子骨架。在全新药物设计中广泛使用的深度生成模型包括基于循环神经网络的生成模型、变分自编码器、对抗自编码器和生成对抗网络。利用生成模型进行分子设计的过程具有高度的随机性,生成的分子在结构上具有很高的变异性和质量不均匀性。强化学习可以通过微调模型参数使生成模型进行有针对性的优化,使生成的分子具有特定的药物分子性质。

基于循环神经网络(RNN)的生成模型可以生成具有与样本化合物相似的生物化学性质,但具有全新的骨架结构。训练过程首先使用大型化学数据库对RNN模型进行训练,以使模型能够学习生成正确的化学结构。然后使用强化学习算法对RNN参数进行微调,以便模型能够将生成的化学结构映射到指定的化学空间。强化学习使得基于RNN的生成模型能够生成具有有希望药理特性的新分子,同时确保所生成分子的结构多样性。单一的强化学习奖励机制通常会导致生成的分子结构相对简单,因此需要选择适当的多角度奖励函数来指导分子的生成。Olivecrona等[123]提出了一种称为REINVENT的基于序列的全新药物设计方法。首先,研究人员从ChEMBL数据库中收集了150万个满足特定要求的分子,并使用这些分子的SMILES表示方法来训练RNN模型,学习活性分子的特征并生成新的分子。然后使用强化学习算法对生成的分子进行评分,微调RNN参数,以便生成对特定靶点具有活性的新化合物。该方法在研究中应用于多个不同的分子生成任务,包括生成无硫分子、从单个分子进行骨架扩展以生成类似Celecoxib的结构,以及生成用于2型多巴胺受体的新抑制剂分子。

基于RNN的生成模型应用于药物设计的另一个领域是优化先导化合物的问题[291]。一种称为支架约束分子生成(SAMOA)的新分子生成算法被提出,用于解决先导化合物优化问题中的骨架约束问题。该研究使用RNN生成模型生成新分子的SMILES序列,然后使用精细的采样过程实现骨架约束并生成分子。还应用了基于策略的强化学习算法来探索相关的化学空间,并生成符合预期的新分子。Stahl等[292]提出的DeepFMPO框架从一组初始的先导化合物开始,通过替换其中的一些片段来修改这些先导分子的结构。该研究确认了基于RNN的生成模型在分子生成领域的广泛应用。

作为深度生成模型,变分自编码器(VAE)经常用于各种生成任务,包括全新小分子的设计和肽序列的生成。一组研究人员构建了基于条件VAE的分子生成模型,使用三层RNN作为编码器和解码器。结果表明,该模型可以设计具有五个目标属性的类药物分子,并且还可以调整单个分子属性而不影响其他属性[124]。

2019年,Insilico Medicine发表了一项使用VAE进行快速全新设计具有强效DDR1激酶抑制剂的研究[28]。他们在仅21天内确定了多个具有抑制DDR1激酶活性的新化合物,并进行了化学合成和实验证实。该研究展示了该方法在进行快速高效的分子设计方面的潜力。GENTRL模型由两个主要组件组成:VAE和策略梯度强化学习算法。VAE用于生成新的分子,而强化学习则微调模型参数,使VAE生成的新分子更符合预期的性质。VAE的编码器用于将已知分子编码为隐藏向量。解码器基于隐藏向量空间对隐藏向量进行采样和解码,生成新的分子。在训练过程中,使用强化学习算法来引导VAE定向优化。Insilico Medicine使用GENTRL生成了四个新的活性化合物,并在细胞实验中验证了其中两个。此外,其中一种先导化合物在小鼠实验中表现出良好的药代动力学特性。这项研究提供了有力的证据,表明强化学习与深度生成模型相结合可以加速全新药物设计的过程,并提供新的见解。

生成对抗网络(GANs)能够生成与真实数据具有类似分布的新样本,在图像识别和自然语言处理(NLP)领域具有优势。在制药领域,GANs经常与特征学习和强化学习等技术结合使用,并在蛋白质功能预测、小分子生成等方面发挥重要作用。基于GANs构建了各种分子生成模型,如Mol-CycleGAN [293]、ORGANIC [294]和RANC [295]。ORGANIC是一个著名的分子生成模型,已成为其他模型的比较基准模型。它的GAN模型和强化学习算法的结合可以生成新颖有效的分子。RANC模型在许多方面的分子生成性能都超过了ORGANIC,包括生成新的分子结构和分子的类药物性质,可以设计出针对不同生物靶点的活性新分子,并覆盖广泛的化学空间。

此外,Harel和Radinsky [296]提出了一种分子模板驱动神经网络,结合了VAE、CNN和RNN,可以生成具有与模板分子相似性质但结构多样的化学结构。研究人员通过调整VAE的采样过程,显著提高了生成分子中有效分子的比例。

计算机设计的分子不仅必须具有良好的物理化学性质,还必须对研究靶点具有高活性和选择性。因此,在强化学习中如何建立有效的奖励函数是一个重要挑战。深度生成模型与强化学习算法的结合推动了药物设计领域的发展,并将在未来的全新小分子和肽药物设计中具有重要的应用。

《4.3 在抗体设计中应用的先进技术》

4.3 在抗体设计中应用的先进技术

由于ML和DL在化学、生物学和医学中的广泛应用,以及它们在各个领域的基础研究中的应用,研究人员对生物分子和系统生物学有了深入的理解。未来,药物研发的方向将偏向于小分子的研究,此外,生物创新药物将获得更多的发展机会。同样,现在和不久的将来,会有许多DL方法用于研究生物大分子药物,如寡核苷酸、单克隆抗体或具有特定药理特性的肽等。在这里,我们将详细介绍抗体的设计。

由于抗体本质上是生物大分子,因此对抗体的表征类似于蛋白质和RNA的编码。有六种常见的抗体编码策略[297]。AI在抗体中的应用与其在普通生物分子中的应用不同,因为抗体是可用于疾病治疗的生物药物。因此,抗体的设计更多地与药物的设计有共同之处,因为必须考虑药物的安全性和有效性。目前,基于AI的方法通常用于抗体结构预测、抗原-抗体结合预测、抗体生成/设计、去免疫化研究和基于抗体序列的研究[297]。

AlphaFold2深度学习系统已能够解决大多数蛋白质结构预测问题;然而,对于抗体结构预测来说,作为蛋白质结构预测的一个特殊子领域,需要极高精度地捕捉结构中的微小差异。已经开发了许多方法来解决这个问题,如DeepAb [298]和DeepH3 [299]。为了对抗体与靶抗原的结合进行虚拟筛选,提出了一种基于结构的框架,称为抗体深度学习(DLAB),用于改进抗体-抗原的对接[300]。由于DLAB是一种基于结构的方法,它可以优化抗体对接实验的位姿排序,并选择生成准确位姿且排序合适的抗体-抗原对。这种方法还表明,基于结构的抗体虚拟筛选可以有效地补充传统的实验筛选方法。

在抗体发现中,寻找新的抗体序列是一个重要的研究热点。早期的计算方法尝试使用枚举方法来发现新的序列并进行后续的预测工作。尽管这些方法反映了设计抗体的多样性,但它们在生物意义上没有解释这些发现,并且缺乏说服力。最近,使用生成对抗网络(GANs)或变分自编码器(VAEs)学习了抗体的潜在特征,包括氨基酸位置的频率和抗体的物理化学性质[301]。这些方法为抗体的生成和设计提供了一种新的思路和方法,未来可以依靠它们来通过深度学习设计治疗性抗体。

上述讨论的抗体药物发展方向源于与小分子药物设计类似的出发点。由于抗体具有较大的分子量和生物分子功能等属性,因此其设计可以与传统药物不同。在设计抗体药物时,需要考虑药物进入体内时引起的免疫反应。因此,利用机器学习算法分析下一代测序(NGS)数据进行抗体去免疫化研究是至关重要的[302]。此外,必须设计与人类抗体相似且在人源化过程中不丧失活性的抗体[303]。Sapiens和OASis是两种基于数据的方法来解决这些问题的算法。Sapiens使用遮蔽语言建模(MLM)模型来学习抗体的人源化方法,而OASis用于评估抗体序列的人源化程度。BioPhi成功地将这两个算法结合起来,捕捉了抗体复合物的内在特征,并提供了与实验中用于人源化突变相似的突变选择。这一成果表明,DL在抗体去免疫化研究中将成为不可或缺的工具。DL在抗体研究中的另一个重要特点是其利用自然语言处理(NLP)来学习和编码抗体空间,以揭示抗体的生物功能方面的新见解。例如,AntiBERTa [304]和AbLang [305]可以理解抗体序列之间的相互关联,并基于此理解推断特定的遮蔽区域。

在进行抗体药物研究时,DL可以将分子的微观特性与实验的宏观结果相连接,并为与免疫球蛋白相关的生物学提供额外的洞察。因此,越来越多地DL方法将被应用于治疗性抗体的研究和设计,以实现新抗体的高效开发,并为未来的抗体设计提供新策略。总的来说,AI在药物靶标识别和新药发现方面展现出了强大的潜力。图3展示了使用AI进行靶标和药物识别的一般工作流程。

《图3》

图3 基于AI的新靶点和药物发现工作流程简介。首先,收集并初步处理建模和评估模型所需的有用数据,然后将其分为训练集、验证集和测试集。然后,将不同格式的数据编码成向量或矩阵,输入模型。准备好的数据可以用多种方式表示,例如,小分子可以用分子描述符、分子指纹和基于图的表示方法表示,而蛋白质可以用序列相关特征(PSSM、AAC、CTD等)、AE、预训练蛋白质语言模型等表示。根据要研究的问题,必须选择合适的算法来执行预测任务。采用评估指标来评估所提出模型的性能;根据这些指标,有必要不断调整模型的参数,以提高模型的性能。最后,需要对预测结果进行合理的讨论和分析。

《5、 AI在药物临床前研究中的应用》

5、 AI在药物临床前研究中的应用

临床前研究主要关注非临床药理学、药代动力学和毒理学研究。药物的理化特性和ADMET特性对于药代动力学和毒理学研究至关重要[33,306]。候选药物的不适宜特性将导致药物研发失败[307]。通过对候选药物的相关特性进行早期评估,可以降低临床研究的失败率和各项损失。

《5.1 预测理化性质》

5.1 预测理化性质

药物候选物的ADMET特性可以直接受其理化特性的影响,并且对药物能否成功进入市场具有重要影响[308309]。例如,离子化常数(pKa)是影响诸如lgD和溶解度等特性的基本参数,它影响分子的溶解度,从而进一步影响药物制剂方法。此外,化合物在不同pH条件下的ADMET受化合物的电荷状态影响[310]。虽然具有特殊理化性质的先导化合物并不总是能够成功上市,但这些有前途的特性仍然可以为药物设计提供帮助。然而,理化特性不易直接测量,准确预测小分子药物候选物的特性有助于进一步进行结构优化,以使其设计符合所需的特性。

一些预测分子理化特性的方法侧重于预测某一特定的理化特性,如亲脂性[311]或溶解度[312],而其他方法可以同时预测几个理化特性[99]。虽然分子可以以多种方式表示,但预测单一特性仍会使用特定的特征,如氢键数量[313]和与溶解度相关的各种分子的连接性指数[314]。迄今为止,准确预测小分子的溶解度仍然是一个挑战[315],但与以前的机器学习方法相比,深度学习方法在这方面表现更佳[316]。在第二次预测溶解度挑战中,其中一个模型[317]结合了一种基于小分子SMILES的NLP方法,以获得嵌入向量,然后将这些向量输入到Transformer模型中来预测分子的溶解度。Francoeur和Koes [317]发现,在这个任务中,过于复杂的模型并没有像参数较小的模型那样表现出色,这可能是由于复杂模型和数据量较少导致模型过拟合。

为了解决同时预测小分子多个理化特性的问题,研究人员专注于分子特征学习和表征,例如,基于GNN架构的分子特征学习和表示[98],将传统的分子表示方法与通过消息传递神经网络(MPNN)学习的特征相结合[99],以及基于扩展连接循环指纹(ECFP)的分子设计的图形表示形式[318]。Shen等[319]提出了一种新型的分子表示形式,首先分别计算分子指纹的距离矩阵和800万个分子的分子描述符的距离矩阵,然后通过UMAP将距离矩阵降维为二维散点图。然后,使用J-V算法将降维散点图分配到二维网格图中。最后,根据不同的分子指纹或描述符将数据划分为不同的通道。这些分子表示形式被输入一个用于预测分子特性的CNN,在多个数据集上实现了SOTA性能。

《5.2 预测ADMET相关的性质》

5.2 预测ADMET相关的性质

大多数临床试验的失败常常归咎于药物的不充分的ADMET研究,而不是缺乏特定的功效。ADMET中的“ADME”部分通常决定药物分子是否能在体内到达目标蛋白质,哪种蛋白质将运输或代谢该药物[47,320],它在血液中停留的时间以及何时被失活,而“T”部分(即毒性评估)是I期临床试验的一个重要关注点。如果通过初步ADMET研究可以减少临床试验失败的风险,将避免大量的金钱和时间成本[321322]。在早期药物发现阶段,有数百种化合物等待评估其ADMET特性,通过广泛的动物研究验证每种化合物将是耗时且昂贵的。因此,广泛采用使用AI快速准确预测药物的ADMET特性[323]。

QSAR和结构-性质关系(QSPR)模型在小分子的ADMET预测中起着关键作用。许多机器学习方法与QSAR或QSPR模型相结合在ADMET预测中表现良好[324]。这些机器学习方法中的大多数都关注几个ADMET特性[325],如hERG介导的心脏毒性[326]、血脑屏障穿透[327]、渗透性糖蛋白(P-gp)[328]、细胞色素P450酶家族[329]、急性口服毒性[330]、致癌性[331]、致突变性[332]、呼吸毒性[333]或刺激/腐蚀性[333]。Zhu等[334]使用QSPR模型预测血脑分配系数(logBB)。研究人员使用了四种机器学习方法,即SVM、多元线性回归、多元自适应回归样条和RF,预测了287种化合物的该特性,并发现极性表面积和辛醇-水分配系数与血脑分配相关性很强。基于C5.0算法(决策树模型算法)构建了一个基于CYP酶抑制的预测模型,该模型使用几种分子指纹或分子描述符作为输入来预测与药物氧化或水解相关的五种CYP酶[335]。

大多数ADMET数据集存在不平衡和高维度问题,集成学习已被应用于处理这两种类型的问题。不平衡数据的处理、多模型的组合和优化步骤已被整合成自适应集成分类框架(AECF)[336]。Yang等[336]使用AECF利用多种机器学习方法预测各种ADME(吸收、分布、代谢、排泄)特性;其结果的AUROC值都在0.78~0.91之间。通过与DrugBank数据库的验证,这种集成方法被证明是一个非常有用的多分类系统。

深度学习方法也被广泛应用于ADMET特性的预测。例如,经典的前馈反向传播神经网络(BPNN)架构和重复双重交叉验证(rdCV)方法被结合起来估算血脑屏障穿透[337]。深度学习使模型能够使用更大、更具代表性的数据集进行训练,确保涵盖比机器学习更多种类的化合物。通过外部数据集的验证,这种方法预测的值与许多实验推导的logBB值吻合良好。在另一项工作中,它同样证明了神经网络在ADMET特性预测方面通常优于机器学习方法。Montanari等[121]预测了与七个不同的ADMET特性相对应的以下终点:lgD、溶解度、熔点、膜亲和性和人血清白蛋白结合。此外,Wang等[338]开发了一个深度学习模型,用于预测药物代谢物,其准确性优于常用的基于规则的方法SyGMa。通过对多任务图卷积模型、全连接神经网络和RF模型的比较,结果显示多任务图卷积模型表现最佳。然而,对于更复杂的任务,如Caco2渗透性或体外代谢稳定性的预测,多任务图卷积网络无法取得良好的结果,可能是由于本研究中构建的模型较为简单,阻碍了模型对更深层次特征的学习。此外,本研究中的多任务模型被认为是一个试错的过程,没有关于哪些任务应该组合在一起的具体经验和规则。

其他最近的研究同样证明了多任务模型在ADMET特性预测中的潜力。已经开发了各种用户友好的ADMET软件和Web服务器来预测分子的ADMET特性[125,339342];其中,ADMETlab 2.0 [125]得到了广泛的赞誉。ADMETlab 2.0基于多任务图注意(MGA)框架,可以预测药物的多个ADMET特性(共包含88个相关参数,包括23个ADME特性、27个毒性终点和8个毒性药效团规则)。训练所使用的大部分数据来自开放获取数据库的生物活性数据、相关文献和毒性预测软件(toxicity estimation software tools, TEST)。基于这些训练集和新颖的模型架构,ADMETlab 2.0预测的一些特性与类似工具的结果相比具有独特性。它是非专家用户的便捷工具,同时能够为药物化学家提供目标分子的全面准确的ADMET特性。

《6、 AI在辅助临床试验设计、上市后监管和预后预测中的应用》

6、 AI在辅助临床试验设计、上市后监管和预后预测中的应用

药物候选化合物只有在经历了从靶点验证到药物设计、合成和优化,然后进行与ADMET相关性质的临床前研究,并初步确认该化合物的安全性和有效性后,才能进入临床研究。临床试验阶段占据了药物研发过程中的大部分时间和资金投入。虽然AI无法直接预测临床试验的结果,但可以辅助进行临床试验设计,增强试验方案的合理性和安全性,并最终提供对药物临床试验结果的更真实的反应。在III期临床试验之后,药物还需要进行长期的监管工作,以进一步确认之前研究中未记录的毒性效应,防止恶性事件的发生。

《6.1 AI辅助临床试验设计》

6.1 AI辅助临床试验设计

临床试验的高失败率使其成为新药研发流程中最困难的一步,约有90%的候选药物在临床试验中被淘汰[343],每个失败的临床试验的成本约为8亿~14亿美元。为了克服这些缺点,现在有许多基于AI的方法可用于辅助临床试验设计的关键步骤,例如,帮助改善患者招募和增强患者监测[344]。为了解决患者选择问题,可以利用AI探索患者生物标志物与外部指标的关联,以预测患者可能的治疗反应,这有助于筛选出具有较高临床成功率的患者[345]。此外,可以使用电子表型学(e-phenotyping)来减少患者群体的异质性[346],通过预后或预测性富集来辅助患者选择[347348]。

临床试验中的患者监测也是一个关键过程。通过结合可穿戴技术,AI可以用于帮助自动化和个性化实时患者监测,从而减轻患者工作负担,并改善用药依从性问题。准确的用药依从性数据可以更好地反映临床试验的结果。AiCure [349]是一种新的用于测量用药依从性的AI平台,在一项用于精神分裂症的II期试验中,与传统疗法相比,用药依从性提高了25%。此外,AI已被用于优化剂量以减少不良反应,改进试验方案的安全性,并减少由于安全问题而导致的患者退出的问题[350]。

《6.2 AI辅助的上市后监管及预后预测》

6.2 AI辅助的上市后监管及预后预测

药物在临床阶段获得批准并成功进入市场后,需要进行长期的调查以进一步监测和评估药物的安全性。电子健康记录(EHR)挖掘是AI在市场后监测中的重要数据来源,其中使用结构化数据可以简化数据预处理的过程。在EHR中使用的现有方法包括自控病例系列模型(SCCS)[351]、队列研究和病例对照方法[352]以及时间模式发现算法[353]。

ConvSCCS是一种可扩展的模型,用于使用SCCS预测纵向特征。Morel等[354]使用阶跃函数来避免传统SCCS模型需要精确定义风险窗口的问题。结果表明,该方法在计算速度和准确性方面有显著改进,并使其能够应用于糖尿病患者队列中的不良药物反应(ADR)检测。除了使用结构化数据外,来自生物医学和临床文献的非结构化数据可以用于自然语言处理(NLP)方法进行药物相互作用(DDI)检测和分类[355]以及药物ADR的预测[356]。基于系统生物学的系统药理学研究药物对整个系统的影响,它是不良药物反应挖掘中AI的常用方法。Lorberbaum等[357]提出了一种基于网络的算法,涉及药物安全子网络(MADSS)的模块化组装。他们将系统药理学模型与PV统计学相结合来验证算法,结果显示该算法在四种药物的不良效应预测方面有显著改进。

疾病预后是对疾病未来发展过程和结果的预测。过去,临床医生通常依靠专业经验和传统统计分析进行临床预后预测,很难提供准确的结果。现在,通过引入AI技术,可以分析多患者和多因素的数据,提高预测结果的准确性。在癌症预后中,通常会预测患者的生存和疾病复发情况。Enshaei等[358]使用人工神经网络(ANN)与传统统计方法(如LR)比较预测卵巢癌患者预后的准确性,结果显示AI在预测卵巢癌患者预后方面具有更高的准确性。如今,有许多ML和DL方法用于各种癌症的预后,如乳腺癌[359363]、肺癌[364365]、胃癌[366368]、膀胱癌[369370]和前列腺癌[371372],展示了AI技术在癌症预后中的潜力。

《7、 药物智能制造》

7、 药物智能制造

新药的开发通常包括设计、制造、测试和分析(DMTA)四个阶段。在药物合成阶段,AI的应用尤为重要,因为它可以通过加快发现目标分子的新合成途径并减少已知目标分子结构下的合成失败率,有效缩短新药研发周期。

《7.1 基于AI的反应空间自动探索》

7.1 基于AI的反应空间自动探索

在20世纪60年代,Corey和Wipke [373]提出了计算机辅助合成设计(CASP)作为最早的AI药物合成设计方法。然而,由于当时计算能力的不足,该概念无法进一步发展。近年来,随着机器学习方法的发展,CASP重新回到了人们的视线中。CASP主要包括三个方面:逆合成规划、反应条件推荐和正向反应预测[374]。逆合成规划涉及将目标分子逐步分解为市售化学材料,是药物合成反应设计中的重要方法。MCTS是一种用于大规模分支因子的顺序决策搜索技术。Segler等[375]将三个不同的神经网络与MCTS结合,利用所有已发表的反应进行训练,以预测最佳的逆合成路径。与传统算法相比,该模型速度提高了30倍,并且解决的分子数量翻倍。

在设计合成路线之后,还必须考虑合成过程中每个步骤的合理性。研究人员还使用AI来预测反应条件,以减少筛选反应条件所需的时间。Gao等[376]提出了一个神经网络模型,用于预测适当的反应条件和反应温度。他们使用来自Reaxys的1000万个例子对模型进行了训练,并在训练集之外的100万个反应上进行了测试。结果显示,该模型在69.6%的情况下能够预测与记录中的反应条件相匹配的结果。计算框架DeepReac+ [377]还采用主动学习策略,以更高效地探索反应空间,以减少模型学习和预测的时间。

正向反应预测通过预测产物来验证设计路线的可行性。逆合成规划预测的起始物可以被许多其他化合物替代,正向反应预测可以用于对这些化合物进行排名,以选择最佳解决方案。例如,Coley等[378]提出了一个用于预测反应结果的神经网络模型。他们使用来自USPTO文献的1.5万个反应示例对模型进行了训练,并对所有生成的候选化合物进行了排名,以选择与记录相匹配的产物。该模型使用基于编辑的候选反应表示法,达到了71.8%的准确率。

除了基于目标分子设计新的反应途径外,基于AI的合成机器人还可以探索未知的化学空间。最近,Granda等[26]提出的合成机器人不仅能够比人工分析更快地分析化学反应,还能够独立预测各种反应组合的反应性并探索未知的反应空间。机器人模型通过核磁共振和红外光谱对样品进行分析,并结合机器学习进行决策,实现对反应的实时评估。结果显示,该模型可以以超过80%的准确率预测约1000种反应组合的反应性。化学家们利用该机器人的实时预测数据,发现了四种全新的反应。此外,Caramelli等[379]提出了一种廉价的合成机器人,除了能够自主进行化学反应外,还能够网络和协调多个反应。该机器人还可以探索新的化学空间,寻找新的反应结果,并评估反应的可重复性。总之,智能合成机器人的发明是迈向基于AI的自动化合成方法的重要一步。

《7.2 AI在自动药物合成中的应用》

7.2 AI在自动药物合成中的应用

基于AI的自动化化学合成技术通过自动化实验过程,使研究人员摆脱了大量的手工工作。许多反应已经可以在自动合成系统上进行,如肽的合成[380]、寡核苷酸的合成[381]、天然产物的合成[382]和各种药物分子的合成[383],这些都是早期报道的。为了建立自动化化学合成的共同标准,Steiner等[35]提出了Chemputer系统,并用它来合成三种药物化合物——盐酸苯海拉明、氟芬胺和西地那非,其收率与手工合成相当。他们开发的名为Chempiler的程序可以将低级指令编译,以通过模块化机器人平台合成化合物。此外,合成过程被记录下来生成数字代码,这些代码在平台之间共享,从而推动了实验室中自动化化学合成的推广。

与增加反应自动化相并行的是提高反应通量,高通量实验(HTE)近年来受到广泛关注。具有24孔或96孔反应器的HTE能够在一次实验中完成数十个反应[384385]。相比之下,纳米尺度上的超高通量反应甚至能够同时进行数千个反应[386387]。目前高通量反应可以实现的类型有限,加热反应在低挥发性溶剂中的均相反应相对容易实现[388]。此外,在HTE中常用的反应中,金属催化的交叉偶联反应是一个热门研究课题,该反应在开发过程中观察到许多反应变量。Ahneman等[389]提出了一个由高通量数据集训练的RF算法,用于预测钯催化剂在C‒N键形成过程中对异唑的耐受性。与传统的线性回归分析相比,该算法的性能显著提高,该模型还有助于分析金属催化剂的抑制机制。

随着越来越多与反应预测相关的算法的开发,科学家们可以更快、更准确地确定最佳反应条件,获得最佳反应途径,并进一步探索反应空间。这些新颖有效的算法的整合可以促进自动化化学合成平台的发展,使研究人员摆脱重复性任务[377]。

《8、 AI在与药物发现相关的其他领域中的应用》

8、 AI在与药物发现相关的其他领域中的应用

AI技术在药物研发的整个过程中得到了广泛应用,包括靶标识别、药物设计、合成和性能评估等方面。与传统的实验过程相比,它无疑缩短了药物研发周期并节省了大量的实验成本。科学家们正在继续探索AI技术的应用,试图将AI应用于更多领域,推动药学的发展。

《8.1 通过文献挖掘促进知识发现》

8.1 通过文献挖掘促进知识发现

每年在医学、药学、生物学、化学、材料等领域都会发表大量的论文。这些论文中包含了大量相关的专业知识。快速而有目的地挖掘文献并将信息与相关知识联系起来非常重要。自然语言处理(NLP)算法可以从大量论文、专利和发表文件的非结构化信息中提取所需的知识。进一步分析提取的知识可以揭示许多文档中隐藏的知识关联,并减轻研究人员逐个分析文档的工作量[390]。在这个领域中,长短期记忆(LSTM)、门控循环单元(GRUs)、来自变压器的双向编码器表示(BERT)和变压器等在NLP研究中常用的模型已经取得了显著的成果[391392]。

MEDLINE是生物医学领域常用的语料库,也是PubMed的重要组成部分。几十年来,人们一直致力于对该语料库进行文本挖掘,以筛选关键基因、靶点和药物,并进行药物副作用发现、药物再定位等研究。研究人员将生物医学领域的文本挖掘主要集中在五个主要领域,即生物医学命名实体识别(NER)和规范化、生物医学文本分类、关系提取、通路提取及假设生成[393],这导致了许多新的发现。例如,对生物医学的假设生成研究推动了药物再定位[394395]、药物开发[396397]和药物监测[398399]的研究。

每天都有数百篇关于COVID-19研究的论文发表,文本挖掘可以帮助从大量的文献中找到有用的知识。COVID-19开放研究数据集(CORD-19,https://www.semanticscholar.org/cord19)是一个包含大量与COVID-19相关信息的语料库,大多数文本挖掘模型都是基于这个语料库进行信息提取的。COVID-19文本挖掘模型使用NLP相关模型来挖掘构建的语料库,实现以下应用:问答系统(回答用户提出的问题,模型系统从语料库中提取相关答案)、摘要系统(对长文本进行自动推断,提供给用户快速概览)、可视化(将文本中的信息可视化,使用户更容易理解)等[400]。这些发现极大地帮助研究人员应对信息过载的挑战,以在短时间内获取有价值的信息。

除了上述示例之外,由深度学习驱动的文本挖掘模型还将在许多其他场景中应用。随着时间的推移,自然语言处理技术的进步将使模型更容易理解人类语言。然后,模型将能够依靠上下文关联从这些非结构化信息中提取知识。通过这种方式,成千上万个相关文档将被处理成一个知识网络,为药物开发提供丰富的知识库。例如,基于自然语言处理的文本挖掘方法,构建了一个以药物靶点和疾病为基础的全球最大关系图谱,名为e-TSN(Explorer for Target Significance and Novelty)[401]。该服务旨在可视化靶点-疾病知识图谱,并提供已批准的药物和相关的生物活性信息,以帮助优先考虑候选的与疾病相关的蛋白质。此外,Wang等[402]开发了一个多模态化学信息重建系统(CIRS),可以自动处理、提取和对齐化学文档的文本描述和结构图像中的异构结构信息。CIRS是一个强大的工具,用于基于化学专利构建结构化分子数据库,以丰富近药空间的内容。

《8.2 AI在精准医学中的应用》

8.2 AI在精准医学中的应用

精准医学通常涉及针对不同人群的疾病或症状采用不同的治疗方案。这种方法与简化(或过于简化)疾病分类方法相反,即所有具有特定症状的个体使用相同的治疗方案[403]。如今,患者患病的原因受到比以往更多的因素的影响,因此需要为每个患者提供更准确的诊断和治疗方案。精准医学的具体概念已被定义为一个过程[404]。首先,需要获取患者在不同层次上的信息,如患者的病史、生活方式、体格检查结果、基础实验室结果、影像学、功能诊断、免疫学和组学。然后对这些数据进行预处理,建立反映患者情况的相关模型。在收集的数据中,组学数据被认为是最大且最复杂的数据[404],已广泛用于生物标志物的发现、疾病亚组的识别和预后预测[405408]。在大数据时代,AI迅速推动了基于组学的精准医学的发展。

第二代测序技术的广泛应用使得复杂疾病在分子水平上得以精细化表征,尤其是在肿瘤研究领域。以TCGA项目为代表的全球肿瘤基因组测序计划为肿瘤的分子分型和精准治疗奠定了重要基础。Zhao等[409]通过分析差异表达基因,选取TCGA数据集的mRNA表达数据中每种类型肿瘤的前40个差异表达基因,将它们合并形成包含791个不同基因的特征子集,并建立了一个名为CUP-AI-Dx的深度学习模型,用于预测肿瘤样本的组织起源和肿瘤亚型。Yeh等[410]使用患者外周血单个核细胞(PBMCs)的高变异表达基因谱研究了严重哮喘患者的转录组;他们对2048个基因进行的k-means聚类分析揭示了哮喘患者转录组簇的遗传特征决定了特定的哮喘亚型。与转录组学相比,蛋白质组学的深入研究可以帮助揭示不同疾病的生物标志物和药物靶点。Rolland等[411]采用分层聚类方法分析淋巴瘤患者的蛋白质组学数据,揭示了不同淋巴瘤亚型中特定的N-糖基蛋白生物标志物,为淋巴瘤精准医学提供了潜在的治疗靶点。Niu等[412]利用基于质谱的蛋白质组学分析和机器学习模型,确定了一组预测肝纤维化、肝炎和脂肪肝的蛋白质生物标志物组合,并取得了令人满意的性能。

当然,正如第3节中提到的,与单一组学相比,多组学技术更具应用前景。许多已发表的研究通过多组学技术探索疾病的分子机制并发现可靠的生物标志物,以用于疾病的诊断和治疗。组学数据的规模不断增长和AI技术的不断发展将极大推动精准医学的发展。

《8.3 AI在药物制剂和释放中的应用》

8.3 AI在药物制剂和释放中的应用

随着新药物发现方法的进步,先进的药物递送系统迅速发展,促进了临床转化,并与安全性、效率和患者依从性相关[413414]。药物传递系统可以被视为一个将“货物”(即治疗药物)运送到适当目的地的“推车”(即载体)。随着材料、工程和生物学技术的进步,“载体”一词已经扩展到纳米载体、细胞、释放装置和微纳机器人[415416]。与传统的药物载体相比,纳米载体可以改善药物的溶解度,并减轻传统溶解剂的不良影响。除了保护药物免受恶化,纳米载体还可以赋予药物靶向功能[417]。

然而,制备一个合适的纳米载体非常复杂,因为它取决于药物、辅料和反应条件(包括温度、时间和搅拌速度)。单靠实验无法筛选所有这些参数。除了确定药物的分子靶点和生物活性[418419],AI可以准确预测其最佳纳米成型条件(图4)[420422]。

《图4》

图4 将数据整理和 ML结合使用,促进纳米药物的开发。

Shamay等[422]通过计算方法预测颗粒自组装。他们使用定量结构-纳米颗粒组装预测(QSNAP)计算,发现了两个分子描述符,用于预测哪些药物将与吲哚菁形成纳米颗粒。该方法还揭示了允许自组装和纳米颗粒形成的关键分子结构特征。在吲哚菁硫酸盐的辅助下,这些药物被组装成具有90%药物装载效率的纳米颗粒。研究人员还评估了在表达CAV1的人结肠和原代肝癌模型中纳米颗粒的靶向传递特性。含索拉非尼和曲美替尼的纳米颗粒能够有选择性地靶向肿瘤而不损害健康组织。

此外,Traverso等[421]利用分子动力学模拟、机器学习和高通量实验共聚平台,确定了哪些药物-辅料组合能够自组装成稳定的固体药物纳米颗粒而无需额外稳定处理。研究人员从210万个药物候选配对中筛选出100种自组装药物纳米颗粒,每种配对包含788个药物候选物和2686个已批准的辅料之一。索拉非尼-甘草苷和特比萘芬-牛磺胆酸的纳米颗粒在体外和体内进行了概念验证研究。这两个验证结果表明,该平台可以产生药物装载量高且生物利用度增强的纳米颗粒,这是个性化药物传递的重要进展。

药物的释放模式对于疾病治疗也至关重要。开发能够根据各种器官、组织和细胞器的生理信号差异而释放的药物,对于提高药物的疗效、预防由非特异性非靶标引起的毒性和副作用,并实现安全和精确的治疗至关重要。多种内源性信号,包括pH值、活性氧化还原物种、酶、葡萄糖、各种离子、ATP和氧气,已被纳入响应性药物纳米载体的设计中(图5)[423]。除了材料的性质外,目标组织环境也影响药物的释放。AI可以促进药物释放模式的评估,并通过机器学习为药物载体的制定提供反馈[424427]。

《图5》

图5 生理信号触发药物制剂的生物反应设计。

《8.4 推动药物市场经济发展》

8.4 推动药物市场经济发展

AI已经在制药行业展现出强大和有前景的潜力,引起了科学界和工业界对基于AI的药物开发的浓厚兴趣。在过去的五年中,已经建立了许多基于AI的制药公司,并与许多大型制药公司签订了合作协议[428]。这些转变推动了药物市场的大规模融资,为制药经济注入了新的动力。

其中一些基于AI的制药公司专注于药物发现流程的特定阶段,如靶点发现和化合物筛选。一些公司参与流程的多个阶段,而其他公司则建立了端到端的新药发现平台[428]。

BenevolentAI是一家领先的基于AI的制药公司,专注于药物靶点发现。该公司成立于2013年,近年来实现了快速增长,并成为基于AI的药物发现领域的领导者,吸引了重要的投资者关注。该公司于2021年12月6日在阿姆斯特丹上市,前投资估值为11亿欧元,后投资估值高达15亿欧元。BenevolentAI通过其领先的知识图谱(KG)技术,将大量公开可用的生物制药数据与内部公司数据相结合,为复杂疾病确定药物靶点。例如,KG确定了吡咯替尼作为COVID-19的可能治疗方法[429]。通过这项技术,BenevolentAI与阿斯利康达成了长期合作,共同在慢性肾脏疾病、特发性肺纤维化、心力衰竭和系统性红斑狼疮的靶点识别方面展开合作。2022年5月17日,阿斯利康向BenevolentAI支付了一笔里程碑式的款项,用于特发性肺纤维化的新靶点发现,这是通过BenevolentAI的研发平台确定的第三个新靶点。此外,BenevolentAI还与强生公司展开了新药物发现的合作。判断增强认知系统(JACS)是其核心技术,通过其自然语言处理(NLP)功能,能够集中处理大量非结构化数据。目前,围绕基于AI的药物发现能力的市场机会超过300亿美元[430]。

2019年,Insilico Medicine利用GENTRLAI系统,在21天内完成了设计DDR1新型小分子抑制剂的挑战[28]。这个挑战当时引起了很大的轰动,因为使用AI方法在如此短的时间内发现这么多新的抑制剂是不可想象的。与传统流程相比,总耗时减少了1~2年。Insilico Medicine的优异表现使其受到投资者的追捧。2021年6月,Insilico Medicine在C轮融资中筹集了2.25亿美元,并于2022年2月宣布启动了一项针对特发性肺纤维化治疗的小分子抑制剂的I期临床试验[430]。

Exscientia公司在使用AI发现小分子,并将其用于临床试验阶段的领域中处于领先地位。在基于AI的制药公司相互竞争的时刻,Exscientia成为第一家将经由AI发现的药物候选物DSP-1181送入临床阶段的公司。相比该步骤的历史平均时间约为4.5年,这个过程将只需不到12个月的时间。2021年,Exscientia通过C轮和D轮融资以及首次公开募股共筹集了大约8亿美元。该公司还通过交易伙伴关系筹集了大量资金,与百时美施贵宝和赛诺菲分别签订了总额达12亿美元和52亿美元的潜在交易。这两项交易都专注于肿瘤学和免疫学领域的药物发现。Exscientia经过十年的发展,逐步建立了一个完整的端到端AI药物开发流程,从靶点选择到分子筛选和生成。正是这个完整的流程不断推动着Exscientia的增长。迄今为止,Exscientia已有三种药物处于临床阶段,其市值在上市后备受期待[430]。

到目前为止,以AI为核心技术的制药公司的发展正处于历史的转折点,这类公司的平均融资额不断上升。表6提供了一些基于AI的制药公司核心技术的信息。投资者现在认识到,基于AI技术的药物研发正在成为加速生物制药创新的强大工具。该技术可以通过分析每天积累和生成的生物制药数据,提供新的洞察力来加速药物发现。因此,这个领域已经成为制药公司战略关注的重点领域,并持续吸引资本市场的关注。

《表6》

表6 基于AI的制药公司及其技术平台

《9、 挑战》

9、 挑战

本文详细阐述了AI在整个药物研发过程中的大部分应用。然而,在目前阶段,AI并没有真正打破传统的制药系统,许多研究过程仍在等待AI的“优化”。在制药制剂领域,利用AI进行更深入的研究仍在逐步探索中。例如,一些学者已经利用AI技术辅助研究药物辅料与生物分子的相互作用[431]。除了药物开发阶段对AI应用领域的扩展需求之外,AI在药物发现方面也存在一些限制。

《9.1 数据限制》

9.1 数据限制

AI算法的发展与数据的驱动密不可分。高质量和准确的数据有时可以使简单模型胜过复杂模型。有许多优秀的公开可访问数据库可供数据研究使用,包括TTD、CHemBL、Drugbank、CMAP和PRIDE,但这些数据量不足以支持更复杂的研究。AI算法的构建在很大程度上依赖于高质量和充足的数据。由于当前技术的限制,获取高质量数据对于复杂生物系统来说是一个非常重要的问题,而将这些数据处理成具有高置信度的标准数据也是一项昂贵的工作。每批数据采集的方法、时间和地点各不相同,这使得将所获得的数据处理成统一和有效的数据变得更加困难[432]。例如,目前的单细胞RNA测序结果会因测序平台的不同而有所差异,并且往往会产生双重结果。一些数据是通过体外实验获得的,然而由于对生物体内反应的缺乏深入了解,体外数据往往与实际体内数据存在显著差异。因此,使用从体外实验获得的数据训练的模型的预测结果往往不够令人信服。

这些限制反映出当前使用的数据质量不平衡。数据不平衡也是模型训练中的一个重要困难。如前所述,在制药领域,正样本数据易于获取,但由于失败的数据通常不公开,负样本数据往往无法准确识别。除了数据质量和平衡的问题,某些类型的数据通常对研究人员不可用。新药研发的关键核心数据通常来自制药公司,这部分数据通常不是开源的,因为药物是商品。同样,临床数据涉及患者隐私,通常不是开源的。数据质量和平衡的问题需要在实验技术上取得进展,以获取比当前数据更准确的生物医学数据,从而突破数据瓶颈。分布式训练等算法的发展可以在一定程度上解决隐私数据问题。我们还呼吁各大机构和公司在不损害自身利益的前提下尽可能公开更多高质量的数据。

《9.2 可解释性上的限制》

9.2 可解释性上的限制

除了数据的限制外,DL方法缺乏解释能力。与常常通过严格的数学推理验证分析的传统ML方法相比,DL方法被认为是一个黑盒子。尽管DL在大多任务上表现优于ML,但研究人员往往无法理解DL结果如此出色的原因。当DL模型产生与先前研究相矛盾的新结果时,缺乏解释能力使结果难以被接受。特别是与其他领域相比,药物发现领域拥有完整的知识逻辑,如分子的作用机制、分子的代谢机制和生物途径的调控机制。为了确保药物的安全性和疗效,必须对相关生物过程进行彻底研究,从药物的物理化学特性到它在体内结合的蛋白质、结合方式、触发的生物反应以及代谢方式。DL只能接受输入并给出预测输出;它无法为如何推导出该输出提供足够的解释。例如,在蛋白质功能注释方面,虽然DL方法可以预测特定蛋白质的GOA [70],但计算过程不可知,并且当准确性不可靠时,大多数预测是不被接受的。即使在数据表征方法上,也没有建立统一的标准,以确定哪种表示方法更适合哪种研究,并且哪种表示方法会导致信息丢失。

将来,药学科学和工业中DL的发展应该注重在不损害准确性的前提下提高解释能力,并设计建立一套成熟的研究方法,将白盒模型与黑盒模型结合起来。

《10、 结论》

10、 结论

总之,AI在新药研发的各个方面都具有优势。它可用于药物靶点的发现、新药的设计和开发、临床前研究、临床试验设计和上市后监管,以协助设计安全有效的药物,同时大大缩短药物研发的周期和成本。基于AI的药物研发过程仍存在一些局限性。但我们相信,AI的出现正在逐步帮助我们揭开大型复杂生物系统的神秘面纱,AI已经成为药物研发过程中不可或缺的技术。此外,AI技术将在未来改变医药科学的研发范式,帮助我们更好地攻克复杂疾病,同时为患者提供个性化医疗服务。在这一过程中,需要进一步开展研究,为这一领域注入新的活力。