您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2022
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

基于网络的机器学习方法预测癌症患者的免疫治疗反应

 二维码
发表时间:2022-07-01 10:29作者:武汉新启迪Xinqidibio

摘要

在过去的几年中,免疫检查点抑制剂(ICIs)大大提高了癌症患者的存活率。然而,只有少数患者对ICI治疗有反应(约30%的实体瘤患者),并且目前ICI反应相关的生物标志物通常不能预测ICI治疗反应。在这里,我们提出了一个机器学习(ML)框架,该框架利用基于网络的分析来识别ICI治疗生物标志物(NetBio),这些生物标志物可以做出稳健的预测。我们收集了700多例ICI治疗的患者样本的临床结果和转录组数据,并观察到基于网络生物的预测准确预测了三种不同癌症类型——黑色素瘤、胃癌和膀胱癌——的ICI治疗反应。此外,基于NetBio的预测优于基于其他常规ICI治疗生物标志物的预测,例如ICI靶标或肿瘤微环境相关标志物。这项工作提出了一种基于网络的方法来有效地选择免疫治疗反应相关的生物标志物,这些生物标志物可以为精确肿瘤学做出稳健的基于ML的预测。

介绍

在过去的几年里,免疫检查点抑制剂(ICIs)极大地改善了癌症患者的临床治疗1。在临床试验中,使用ICIs通常比化疗引起的副作用更少,治疗效果更持久。因此,ICIs的使用已经扩展到不断增长的癌症类型列表,包括黑色素瘤、膀胱癌和胃食管癌1。然而,尽管从ICI治疗中获得了临床益处,一个主要的限制是只有少数患者对免疫疗法有反应(在实体瘤中约30%),并且毒性可能在ICI治疗后发生2。因此,需要一种方法来鉴定可以在给药前检测免疫治疗应答者的生物标志物,提供关于ICIs临床应用的信息并提高癌症患者的存活率2,3.

使用免疫疗法的精准医疗的一个主要挑战是从接受免疫疗法治疗的患者中识别标记物,这些标记物可以稳健地预测多个癌症患者队列的药物反应。例如,通过免疫组织化学的程序性细胞死亡1(PD1)/程序性细胞死亡配体1 (PD-L1)表达是美国食品药品监督管理局(FDA)批准的用于各种癌症类型的伴随诊断试验4。因此,许多研究报道了在非小细胞肺癌中PD-L1表达和ICI反应之间的正相关5,6,7。然而,引人注目的是,其他研究报道PD-L1表达和ICI治疗反应之间没有显著相关性3,8,9,10一些研究甚至揭示了ICI应答者表现出低PD-L1表达水平3,11。先前鉴定的生物标记的这些不一致的预测使得鉴定新的生物标记成为必要,所述新的生物标记强烈地预测免疫治疗反应。Litchfield等人最近发现,传统的生物标志物只能解释约60%的ICI反应,这表明新的因素尚未被发现12。由于从接受免疫疗法治疗的患者中鉴定强有力的生物标志物存在挑战,许多最近的研究集中于从未接受ICIs治疗的癌症患者中鉴定生物标志物,这种策略受益于许多样本的可用性13,14,15,16,17。尽管这种方法取得了成功,但这些无监督学习方法的一个主要限制是,免疫疗法治疗的特异性标记可能无法从非免疫疗法治疗的患者中识别出来,从而限制了基于ICI的个性化药物的潜在改进。因此,必须开发成功的方法来从ICI治疗的患者中识别生物标志物3(例如监督学习方法)并最终最大化ICI治疗的益处。

网络生物学提供了一个强有力的手段来识别强大的生物标记。基于网络的方法利用了具有相似表型作用的基因倾向于共同定位在蛋白质-蛋白质相互作用(PPI)网络的特定区域的观察结果18,19。这种趋势已被用来识别基因模块,这些模块在预测表型结果方面比使用基于单个基因的方法更加稳健20。例如,Hofree等人表明,在相似网络区域发生体细胞突变的患者表现出相似的临床结果,尽管许多临床上相同的患者只有一个突变21。此外,Guney等人证明了药物的疗效可以从药物靶标和疾病基因之间的接近程度来推断22。此外,我们以前报道过,预测癌症患者总生存期的药物反应生物标志物可以通过使用患者衍生的类器官模型的药物基因组学数据的网络邻近性来识别23。总之,证据表明基于网络的方法提供了预测性的和较少噪音的生物标志物,但是该方法的有效性尚未被验证以预测大样本癌症患者对ICI治疗的反应。

在这里,我们报告了一个基于网络的机器学习框架,它可以(I)跨ICI数据集进行稳健的预测,以及(ii)识别潜在的生物标志物。具体而言,我们可以使用700多例患者样本中基于网络的生物标志物的表达水平,强有力地预测有应答者和无应答者,包括接受靶向PD1/PD-L1轴的ICIs治疗的黑色素瘤、转移性胃癌和膀胱癌患者。为了鉴定强有力的药物反应生物标志物,我们实施了一种基于网络的方法,其中我们鉴定了位于PPI网络中免疫治疗靶点附近的生物通路。为了测量我们的生物标志物的可推广性,我们广泛测试了研究内交叉验证,以及跨研究预测。我们发现基于NetBio的预测比基于ICI靶(包括PD1、PD-L1或细胞毒性T淋巴细胞抗原4 (CTLA4))和肿瘤微环境相关标记(包括CD8 T细胞、T细胞衰竭、癌症相关成纤维细胞(CAF)和肿瘤相关巨噬细胞(TAM)标记)的表达水平的预测更准确。此外,与基于TMB的预测相比,使用我们基于网络的转录组生物标志物和肿瘤突变负荷(the ICI反应的一个公认标志)改善了对ICI治疗的膀胱癌患者总生存期的预测。这些发现表明,网络引导的转录生物标志物可以帮助改善基于基因组的ICI反应预测。总之,我们的方法提供了一种揭示ICI治疗患者生物标志物的方法,帮助以前识别的生物标志物改善ICI反应的预测。

结果

基于网络的免疫治疗反应预测概述

我们以前的工作支持与抗癌药物反应相关的生物标记位于PPI网络中药物靶点的附近23。简而言之,我们发现与治疗效果相关的生物标志物可以从患者来源的类器官模型中鉴定出来,这些模型可以预测5-氟尿嘧啶治疗的结直肠癌和顺铂治疗的膀胱癌患者的药物反应。在我们之前工作的基础上,我们旨在通过选择与ICI靶点最接近的通路来识别与ICI反应相关的生物通路(图。1a、b;方法)。我们使用了字符串PPI网络(字符串得分> 700)24,包括16,957个节点和420,381条边。首先,我们应用网络传播,使用ICI靶标(如nivolumab的PD1或atezolizumab的PD-L1)作为种子基因,在网络上传播ICI靶标的影响(图。1a和补充数据S13).网络传播的一个特征是,越靠近ICI目标的节点,影响分数越高25。接下来,我们选择具有高影响分数的基因(前200个基因),并鉴定生物途径(反应组途径26)富含基因(图。1b和补充数据第四心音).然后,我们使用选择的生物途径来预测免疫治疗反应,并将这些途径视为基于网络的生物标志物(NetBio)。

图1:识别免疫治疗相关生物标志物的基于网络的机器学习(ML)方法。
figure 1

a在蛋白质-蛋白质相互作用(PPI)网络中识别接近免疫治疗靶的基因的网络可视化。免疫治疗靶标(例如nivolumab的PD-1)以蓝色显示,并投影到PPI网络上,随后使用药物靶标作为种子基因进行网络传播。网络传播用蓝色箭头表示。繁殖后,通过选择具有高繁殖分数(高影响分数)的节点来选择药物靶标邻近基因。b识别基于网络的生物标记(NetBio)。通过超几何检验选择富含高影响分数基因的生物途径(反应组)。c用于机器学习的输入特征,以预测免疫治疗应答者和非应答者。d测量预测性能的概述。对于预测目标,我们进行了药物反应和总生存率的预测。对于训练和测试数据集,我们进行了研究内预测和研究间预测。

为了进行基于ML的免疫治疗反应预测,我们使用NetBio作为输入特征;作为阴性对照,我们使用基于基因的生物标志物(即免疫治疗靶基因)、基于肿瘤微环境的生物标志物或选自数据驱动的ML方法的途径(图。1c和补充数据表面抗原-5, 6).使用输入特征的表达水平,我们应用逻辑回归来训练ML模型。为了测试输入特征的预测性能,我们测量了在预测(I)药物反应(通过免疫治疗后肿瘤大小的减小来测量)或(ii)患者存活率方面的性能。为了使用监督学习来训练ML模型,我们使用训练和测试数据集的不同组合来广泛地测量预测性能的一致性。具体来说,我们进行了(I)研究内预测,其中训练和测试数据集来自单个队列,或(ii)跨研究预测,其中两个独立的数据集被用作训练和测试数据集(图。1d).此外,我们交替使用大量或少量的训练样本来测量各种训练条件下预测性能的一致性。

研究内交叉验证显示,基于NetBio的ML可以对ICI治疗反应和总生存率做出一致的预测

我们的NetBio的转录组可以做出一致的预测性能来预测ICI反应(图。2).相比之下,当使用药物靶点的表达时,我们观察到较弱的预测性能(即,PD-1用于nivolumab和pembrolizumab,PD-L1用于atezolizumab,CTLA4用于ipilimumab治疗的患者)。我们首先进行了留一法交叉验证(LOOCV ),以使用NetBio或其他已知的免疫治疗相关生物标志物(包括药物靶点)来测量性能。为此,我们使用了四个免疫疗法队列——两个黑色素瘤队列(Gide等人。27、刘等。28),一个转移性胃癌队列(Kim等。29)和一个膀胱癌队列(IMvigor21030).使用我们的NetBio训练的ML模型在所有四个数据集中一致地做出准确预测(图。2a–d;费希尔精确试验,P < 0.05 was considered significant). By contrast, predictions made using the expression levels of drug targets were less consistent, where drug targets were accurately predictive only in a melanoma cohort (Gide et al.; Fig. 2a)但在其他三个癌症群组中没有(图。2b–d).值得注意的是,使用药物靶标表达水平的预测在Liu数据集中是反向预测的(图。2b).此外,在三个具有总生存期数据的数据集中,使用我们基于NetBio的ML,对于预测为ICI应答者的患者,始终观察到延长的总生存期(Gide等人;金等人;IMvigor210时序测试P < 0.05 was considered significant); using drug target expression predicted the overall survival in only one dataset (Fig. 2e–g).同样,我们发现基于NetBio的能够准确预测Gide和Liu数据集中的无进展生存期(PFS )(补充图。1a、b;对数秩检验,P < 0.05 considered significant). By comparison, drug target-based predictions were less consistent in predicting PFS (Supplementary Fig. 1a、b).特别是,基于Liu数据集中PD1表达的预测与PFS呈负相关(补充图。1b).我们还基于PD1和CTLA4的组合表达谱计算了Liu数据集中的药物反应、总生存期和PFS的预测(补充图。2).结果显示,PD1和CTLA4的联合表达水平不能预测免疫治疗反应、总生存期或PFS(补充图。2).总之,我们的数据表明,基于网络的方法,将生物标志物扩展到药物靶标的网络邻居,改善了基于药物靶标表达水平的预测。

图2:对接受免疫疗法治疗的患者的药物反应和总存活率的预测。
figure 2

ad免疫治疗-使用药物靶标(PD-1、PD-L1或CTLA4)或基于网络的生物标志物(NetBio)的表达水平进行反应预测。的留一交叉验证(LOOCV)预测(a)纪德,(b)刘(c)金,还有(d)绘制IMvigor210数据集。预测反应者(Pred R)和无反应者(Pred NR)相对于观察反应者(蓝绿色)和无反应者(橙色)绘制。双侧Fisher精确检验用于计算统计显著性。eg基于LOOCV的预测有反应者和无反应者的总生存率。预测的响应者和无响应者分别用红色和蓝色表示。对数秩检验用于测量统计显著性。浅色区域表示每个百分比存活率的95%置信区间。ho基于NetBio标记的LOOCV性能:基于基因的标记,包括PD-1、PD-L1和CTLA4以及基于肿瘤微环境(TME)的标记,包括CD8 T细胞、T细胞衰竭、癌症相关成纤维细胞(caf)和肿瘤相关巨噬细胞(tam)。基因生物和TME生物包括每一类的所有目标基因。为了量化性能,我们使用(hk)准确性和(lo)F1成绩。源数据以源数据文件.

接下来,我们将我们的NetBio的预测性能与其他先前确定的ICI相关生物标志物进行了比较,发现在大多数情况下,我们的方法在所有四个癌症数据集上都更好(图。2h–o).对于基于单个基因的标记物,我们考虑了免疫治疗靶标(PD-1、PD-L1或CTLA4)的表达水平。对于肿瘤微环境相关标记物,我们考虑了与CD8 T细胞比例、T细胞衰竭、CAFs和TAMs相关的基因组。我们还考虑使用所有基于单一基因的标记(GeneBio)或所有肿瘤微环境相关标记(TME生物)来进行预测。我们使用准确性和F1分数来衡量LOOCV的预测性能,并发现在72次比较中有71次(98.6%)基于NetBio的预测优于使用所有其他生物标志物的预测。

此外,当使用较少的训练数据集来训练ML模型时,NetBio的预测类似于或优于其他生物标志物。具体来说,我们进行了蒙特卡罗交叉验证。对于100次不同的迭代,随机选择80%的样本作为训练集,剩余的20%作为测试集(补充图。3a).在72项比较中的70项(97.2%)中,我们基于网络的方法与所有其他生物标志物相比表现明显更好或相当(补充图)。3b–j;双面学生t试验P < 0.05 was considered significant).

为了确定NetBio与临床使用的标记物(如基于免疫组织化学(IHC)的标记物)相比是否可以提高预测性能,我们比较了IMvigor210数据集的基于IHC的预测和基于NetBio的预测,imvigor 210数据集包含大量RNA测序数据和肿瘤比例评分(TPS)。与TPS相比,NetBio在三个不同的预测任务中表现更好,包括LOOCV、蒙特卡罗交叉验证(100次独立迭代的80%训练和20%测试)和总体生存预测(补充图。4).我们的结果提供了进一步的证据,即使用基于网络的方法来识别生物标志物可以对癌症患者的ICI反应进行稳健的预测。

使用基于NetBio的ML进行跨研究预测可以在额外的独立黑色素瘤数据集中做出一致的预测

准确的ML模型的关键方面包括以下内容:(I)它归纳到新数据集的能力,以及(ii)当很少训练样本可用时,它的一致性能。首先,我们观察到使用NetBio训练的ML模型在使用独立数据集时可以做出稳健的预测,而使用其他生物标志物时预测性能较差(图。3).为了测试我们的ML模型的可推广性,我们使用Gide等人的黑色素瘤数据集来训练ML模型,并在三个独立的黑色素瘤数据集(Auslander等人。13,Prat等人。31和Riaz等人。32;图。3a).为了计算我们模型的性能,我们使用了逻辑回归模型的预测概率。我们选择受试者工作特征曲线的曲线下面积(AUC)作为性能指标13,14,15,16。基于NetBio的ML在两个外部数据集中显示AUCs > 0.7(图。3b,c;澳大利亚人AUC = 0.79Prat AUC = 0.72),其余数据集中为0.69(图。三维(three dimension的缩写);Riaz)。与基于NetBio的ML相比,使用其他生物标志物的预测显示出高度不同的预测性能(图。3b–d).例如,PD-1表达显示出较少的最佳性能,最大AUC仅达到0.66(图。3b–d).此外,尽管在Auslander和Riaz数据集中使用T细胞衰竭标记的预测是高度准确的(图。3b,d;AUC > 0.7),预测性能略好于Prat数据集中的随机预期(图。3c;AUC = 0.58)。此外,当精确回忆曲线下面积(AUPRC)用作性能指标时,基于NetBio的预测优于基于药物靶点或肿瘤微环境标志物的预测(补充图。5).我们还观察到,当三个独立的训练数据集合并成一个数据集时,基于网络生物的预测比其他方法执行得更好(补充图。6),突出了我们基于网络的方法的稳健性。

图3:三个独立黑素瘤数据集的预测性能。
figure 3

a免疫疗法的总体方案——三个独立数据集的反应预测。显示了用于训练和测试机器学习模型的数据集和转录组特征以及每个数据集的样本数量。bd的受试者工作特征曲线(AUC)下的面积(b)澳洲人,(c)Prat,还有(d)Riaz数据集。随机预期相当于0.5的AUC,显示为虚线。Prat数据集中没有癌症相关成纤维细胞(CAF)标记基因的表达谱。未检测到。源数据以源数据文件.

此外,我们发现,当训练数据和测试数据来自不同的队列时,NetBio提高了预测性能。当我们使用刘的数据来训练机器学习模型,然后在三个不同的队列中测试预测性能时(补充图。7a),在88.5% (23/26)的比较中,基于网络生物的预测优于基于其他ICI相关生物标志物的预测(补充图)。7b–d).这些结果表明,无论用于训练机器学习模型的数据集如何,与基于药物靶点或基于肿瘤微环境的生物标志物相比,NetBio都可以提高预测性能。

接下来,我们在最近的一组黑色素瘤患者中使用抗PD-1治疗后癌症复发的数据来测试基于NetBio的预测的性能(Huang et al .33)(补充图。8a).我们发现,无论使用何种训练数据集(Gide或Liu),基于NetBio的标记物都能准确预测ICI治疗后的癌症复发(补充图。8b,c;纪德对黄AUC = 0.78,刘对黄AUC = 0.8)。这些结果表明,基于网络生物的机器学习可以成为预测新数据集中ICI响应的有用框架。

接下来,我们测试了ML模型是否可以在训练样本较少的情况下做出稳健的预测。同样,与基于基因生物或TME生物的ML模型相比,基于网络生物的ML模型以较小的样本量做出了一致的预测。为了测试这一点,在100次迭代中,我们从训练数据集(Gide数据集)中随机抽样80%的患者来训练ML模型,并在三个外部黑色素瘤数据集(补充图)中测试预测性能。9a).我们的生物标志物在54次比较中的49次显示出统计学上显著更好或相同的表现(补充图。9;90.7%).当使用AUC作为性能的衡量标准时,只有在Auslander数据集中的PD-L1表达,在Riaz数据集中的CTLA4和在Riaz数据集中的CD8 T细胞衰竭标记物显示出比基于NetBio的预测更好的预测性能,但是这些生物标记物(PD-L1,CTLA4和CD8 T细胞衰竭标记物)在其他黑素瘤数据集中的预测是不一致的(补充图。9d–I).

基于网络生物的预测优于其他药物反应预测的最新方法

接下来,我们将基于NetBio的预测与免疫治疗反应预测的其他最新方法进行了比较13,14,16,17以及基于深度神经网络(DNN)的方法34(参见方法)。我们首先测试了LOOCV的预测性能。我们发现,在34次比较中,有33次基于网络生物的预测优于其他方法(补充图。10;97.1%).就跨研究预测性能而言,基于网络生物的预测在18项比较中有17项优于其他方法(补充图。11;94.4%).这些结果表明,与其他生物标志物相比,NetBio可以改善对ICI治疗反应的预测。

基于网络生物的预测优于纯数据驱动的特征选择方法

将数据驱动的ML模型用于临床应用的一个主要限制是,尽管在训练数据集中表现良好,但它不能在新数据集中一致地表现。因此,我们测试了与纯数据驱动的特征选择方法相比,在本研究中代表PPI网络的先验生物学知识的添加是否可以改善特征选择。与纯数据驱动的ML预测相比,基于NetBio的ML模型能够持续提高预测性能(图。4).具体而言,对于数据驱动的ML模型,我们选择了K个特征(其中K等于NetBio的数量),这些特征能够最好地区分训练数据集中的应答者和非应答者,并使用所选择的特征来训练ML模型(图。4a;方法)。在11个不同的任务中,我们发现基于网络生物的预测比基于最大似然的特征选择表现出明显更好的性能(图。4b;双边配对学生t试验P= 3.3 × 10−3).此外,当跨黑素瘤队列预测时(跨研究预测;图。4c),表明网络引导选择有助于减少ML模型的过拟合。这一观察表明,与来自纯数据驱动的特征选择相比,网络引导的特征选择可以提供稳健的特征。总之,我们的结果表明,可以通过利用基于网络的生物标记选择来识别稳健的转录生物标记。

图4:使用基于机器学习的特征选择的预测性能的比较。
figure 4

a用于比较的总体方案。b使用基于NetBio或基于机器学习的特征选择进行11次独立测试的整体预测性能。使用双侧配对样本测量统计显著性t测试。箱线图显示了中值、四分位数范围(IQR)作为方框的界限,以及从方框延伸到上/下四分位数IQR × 1.5的晶须。c11个不同测试中预测性能的条形图,使用准确性、F1得分或AUC作为量化性能的指标。源数据以源数据文件.

基于网络生物的预测概括了癌症基因组图谱(TCGA)数据集外部的免疫微环境

由于NetBio在包含三种不同癌症类型的不同队列中表现最佳,我们研究了基于NetBio的预测是否可以概括与免疫治疗反应相关的免疫微环境。我们测试了基于网络生物的预测如何与TCGA数据集中的免疫环境相关联35(图。5a).具体来说,我们使用Gide或Liu数据集(黑色素瘤队列)来预测数据集(胃癌队列)中黑色素瘤患者的ICI反应,使用Kim数据集(胃癌队列)来预测胃癌(TCGA和IMvigor210数据集(膀胱癌队列)来预测膀胱癌(TCGA BLCA)患者,并将预测的药物反应与(I)肿瘤突变负荷(TMB)或(ii)TCGA患者的免疫环境相关联(图。5a).对于免疫环境,我们使用Thorsson等人计算的免疫原性评分。36。基于网络生物的预测相对于TMB或免疫环境的全部相关结果可在补充图中获得。12.

图5:基于网络生物的预测概括了免疫微环境。
figure 5

a计算TCGA数据集中基于网络生物的预测和免疫原性特征之间相关性的研究方案。bTCGA队列中使用NetBio预测的药物反应与免疫原性特征之间的相关性。相关性使用皮尔逊相关系数(PCC)进行测量。c, d从(b)纪德等人和(c)刘等人被示。散点图显示了途径表达和免疫原性特征之间的相关性。浅色区域表示线性回归线的95%置信区间。PCC和相关性P显示值。源数据以源数据文件.

基于网络生物的预测成功地再现了免疫微环境(图。5b).我们推测来自Gide和Liu队列的相关结果具有共同的特征,因为它们都涉及黑色素瘤患者。正如预期的那样,他们表现出相似的免疫微环境特征,包括与白细胞分数和CD8 T细胞比例高度正相关,与M2巨噬细胞比例高度负相关(图。5b).相比之下,当我们将三种TCGA癌症类型合并成一个队列进行分析时,我们观察到与免疫信号的相关性降低(补充图。13),提示考虑癌症类型特异性的重要性。此外,我们还发现,无论使用何种训练数据集(Gide或Liu),在数据集内具有“免疫”表型的患者37可能是基于NetBio标记预测的ICI响应者(补充图。14),表明预测的ICI应答者具有高的免疫浸润水平。有趣的是,基于两个不同训练集的预测之间的相关性很弱(补充图。15),表明(i) ICI应答者可能具有不同的免疫细胞浸润机制,以及(ii)黑色素瘤患者中可能存在多种分子亚型。

我们进一步研究了哪种NetBio途径与免疫细胞比例高度相关。使用Gide数据集(补充图)从ML训练中获得的最重要的途径特征(具有正系数的前10个最重要的特征)。16)揭示了“抗原呈递折叠装配和I类MHC的肽装载”显示出与CD8 T细胞比例的最高正相关(图。5c和补充图。16;PCC = 0.41)。这一发现是意料之中的,因为抗原呈递细胞或肿瘤细胞的抗原呈递诱导了CD8 T细胞的浸润。当使用Liu数据集时,在最重要的途径(负系数的前10个最重要的特征)中,“信号”显示出与CD8 T细胞比例的最高相关性(补充图。17),其中该途径的表达水平与细胞比例负相关(图。5d和补充图。17;PCC = 0.29)。此外,我们发现“FGFR信号”的表达水平在免疫亚型的SKCM TCGA患者中最低(补充图。18),表明FGFR信号的低表达与高免疫浸润相关。与我们的研究结果一致,最近的研究表明,成纤维细胞生长因子2的减少可以导致T细胞募集的增加,从而使肿瘤消退38。我们的结果提示如下:(1)黑色素瘤中可能存在不相同的CD8 T细胞募集机制,以及(2)NetBio可以在肿瘤样品中强有力地捕获CD8 T细胞募集,即使当不同的黑色素瘤癌症队列用于训练ML模型时。

还鉴定了与胃癌和膀胱癌中的免疫微环境一致的NetBio途径。在胃癌中,基于网络生物学的预测与滤泡辅助性T细胞比例高度相关(图。5b).在Kim队列中最重要的途径中,“有丝分裂G2-G2-M期”的高表达水平与高卵泡辅助性T细胞比例相关(补充图。16,   19).与我们的结果一致,先前的研究报道了辅助性T细胞的分化受细胞周期途径的调节39。在膀胱癌中,我们发现基于网络生物学的预测与白细胞分数正相关(图。5b).因此,NetBio途径表现出趋化性(即趋化因子受体结合趋化因子)和吞噬作用(即FcgR活化),这些功能与免疫浸润密切相关(补充图。16, S20).在TCGA膀胱癌患者中,这些途径显示出与白细胞组分的高度相关性(补充图。20a,b;PCC > 0.6)。我们的结果表明,胃癌和膀胱癌中的免疫微环境可以通过网络生物途径捕获。

NetBio通路的表达水平与膀胱癌患者的免疫细胞浸润相关

因为据报道免疫细胞的浸润与膀胱癌中的抗癌药物反应密切相关30,40,我们询问膀胱癌TCGA数据集中NetBio途径的表达水平(补充图。20)与免疫细胞浸润水平有关。在膀胱癌患者中,我们使用额外的基于IHC的结果,验证了趋化作用和吞噬作用途径(即趋化因子受体分别结合趋化因子和FcgR活化)与PD-L1治疗的膀胱癌队列中的免疫浸润相关(图。6).我们在IMvigor210数据集中使用了免疫表型30。具体来说,我们使用不同的免疫表型,包括(I)免疫荒漠(少于10个CD8 T细胞),(ii)排除(邻近肿瘤细胞的CD8 T细胞),和(iii)浸润(与肿瘤细胞接触的CD8 T细胞)表型30(图。6a)并将趋化和吞噬途径的表达水平与免疫表型进行比较(图。6b,c).与免疫荒漠或排除表型相比,免疫浸润表型显示了最高的途径表达水平(图。6b,c;曼恩-惠特尼U P < 0.05), suggesting that the NetBio pathways can capture leukocyte infiltration fractions in bladder cancer. Altogether, our results suggest that NetBio can consistently unveil pathways related to the immunotherapy response-associated immune microenvironment.

图NetBio途径的表达水平与膀胱癌中基于免疫组织化学的免疫表型一致。
figure 6

a利用免疫组织化学对免疫表型进行分类。b, c不同免疫表型中NetBio途径的表达水平。对于NetBio途径,趋化因子受体结合趋化因子(b)和FcgR激活(c)显示。双侧Mann–Whitney U检验用于计算不同免疫表型患者组间差异途径表达水平的统计学显著性。箱线图显示了中值、四分位数范围(IQR)作为方框的界限,以及从方框延伸到上/下四分位数IQR × 1.5的晶须。源数据以源数据文件.

在ML模型中将NetBio表达水平与肿瘤突变负荷(TMB)相结合可提高对PD-L1抑制剂治疗的膀胱癌患者的预测

尽管高TMB水平与ICI治疗获益增加相关,但ICI应答者和无应答者的TMB水平经常出现明显重叠,这表明TMB单独不足以预测ICI应答4,41,42。因此,我们测试了将我们的NetBio与基于TMB的预测器相结合是否会提高预测性能(图。7a).NetBio表达水平和TMB的结合改善了对接受PD-L1抑制剂atezolizumab治疗的膀胱癌患者总生存期的预测(图。7b,c和补充图。21).使用LOOCV来预测ICI治疗反应,仅用TMB来训练ML模型,预测的反应组和预测的无反应组之间的1年生存率差异为18%(图。7b;时序测试P= 2.0 × 10−3;预测缓解组和预测无缓解组的1年生存率百分比分别为60.8%和42.8%)。当同时使用TMB和NetBio时,1年存活率差异增加到22.3%(图。7c;预测有反应组和预测无反应组的1年生存率分别为64.4%和42.1%),以及对数秩检验统计的改善(P= 2.02 × 10−4).

图7:结合基于网络的转录组特征和肿瘤突变负荷(TMB)改善了对PD-L1抑制剂(阿替唑单抗)治疗的膀胱癌患者的总生存期的预测。
figure 7

a基于网络的转录组和TMB联合预测的总体方案。b, c使用(b)仅限TMB和(c)一个组合的ML模型。使用对数秩检验测量统计显著性。浅色区域表示每个百分比存活率的95%置信区间。dRaf激活途径在仅TMB预测的预测应答者和联合ML模型预测的重新分类亚组之间的差异表达。箱线图显示了中值、四分位数范围(IQR)作为方框的界限,以及从方框延伸到上/下四分位数IQR × 1.5的晶须。双面学生的t检验用于统计显著性。e阿替唑单抗靶点(PD-L1)和Raf激活途径的网络图。f膀胱癌患者PD-L1表达、TMB水平和Raf激活途径表达水平与总生存率之间的关系(TCGA BLCA数据集)。浅色区域表示每个百分比存活率的95%置信区间。源数据以源数据文件.

接下来,我们观察到联合预测因子正确地将无反应者从单独使用TMB的预测反应者中重新分类(R2NR补充图22)和正确地从来自TMB单独预测的预测无应答者中重新分类应答者(NR2R补充图22).当仅使用TMB时,R2NR患者的总体生存率低于预测的缓解组(补充图。22b);1年生存率下降到51.2%(对数秩检验P值= 0.07)。类似地,NR2R患者的1年存活率增加到57.1%,与基于TMB的预测预测的无应答者相比,总体存活率有统计学显著增加(补充图。22c;时序测试P= 1.94 × 10−2).总之,我们的结果表明,TMB结合NetBio转录组特征可以提高反应者和无反应者的正确分类。

观察到改进的预测性能后,我们试图确定导致预测性能改进的特征。我们首先观察到TMB水平在重新分类的亚组中保持相似(补充图。23),表明TMB水平不是改善总生存率预测的混杂因素。为了确定高TMB组中与免疫疗法抗性相关的转录组特征,我们研究了使用基于TMB的预测的预测应答者(即高TMB组)和R2NR组之间的差异表达途径。Raf激活途径在两个亚组之间有显著的差异表达(图。7d;双面学生的t试验P= 3.39 × 10−2).具体而言,从组合预测模型预测为无应答者的患者(即R2NR患者)表现出较高的Raf激活途径组分表达。从PPI网络来看,Raf激活途径的组成部分,包括HRAS、KRAS和JAK2,都是PD-L1的近邻(图。7e),表明该途径可能在药物治疗期间发挥机械作用。

为了进一步检验Raf激活途径作为ICI治疗生物标志物的潜在有效性,我们分析了PD-L1表达、TMB和Raf激活成分的表达水平与TCGA膀胱癌外部数据集总生存率之间的关系(n= 405).具体来说,我们测试了当(I)PD-L1表达低,模拟PD-L1抑制,和(ii)TMB水平高时,Raf激活是否影响总生存率。Raf激活途径对表现出低PD-L1表达和高TMB水平的膀胱癌患者的总生存期有统计学显著影响(图。7f; P= 0.025).重要的是,Raf激活途径的高表达与较差的总生存率相关,这一发现与接受PD-L1抑制剂治疗的患者表现出对治疗的耐药性一致(图。7d,f).总之,我们的结果表明:( 1)基于网络的转录组生物标志物有助于改善基于TMB的免疫治疗反应预测;( 2)ICI反应生物标志物可以使用基于网络的方法进行鉴定。

讨论

在这项研究中,我们测试了基于网络的生物标记物发现管道是否能够对免疫治疗做出稳健的预测。基于NetBio的ML表现出一致的预测性能,而基于GeneBio、TME生物的预测或从纯数据驱动方法中识别的特征表现出较差的性能(图。24).我们的工作得到了先前研究的进一步支持,这些研究利用PPI网络来(I)增加稳健生物标志物的检测和(ii)改善癌症患者临床结果的预测。例如,Leiserson等人使用网络模块来识别癌症类型特异性和泛癌驱动基因43。此外,Cheng等人最近报道,改变蛋白质-蛋白质相互作用的疾病相关种系突变与癌症患者的存活率和对抗癌症药物的反应高度相关44这一发现与我们之前的观察结果相似,即疾病相关变异体经常位于蛋白质相互作用界面45。此外,我们之前已经证明了PPI网络对于理解基因-表型关系的有效性46,47,48,49,50,51,52,53,包括口腔疾病的识别-46和线粒体疾病47,50-相关变体。综上所述,我们的发现提供了一个基于网络的ML模型,该模型可以有力地预测癌症患者的免疫治疗反应。

因为完整准确的生产者价格指数网络图对于基于网络的方法至关重要19中,我们询问了如果使用较小的网络(字符串得分> 900)来识别NetBio途径,预测性能会受到怎样的影响。我们比较了使用STRING > 900 (NetBio 900)发现的NetBio途径和使用STRING > 700 (NetBio 700)发现的NetBio途径,并观察到四个队列(Gide、Liu、Kim和IMvigor210)的高重叠系数得分(补充图。24).这些结果表明NetBio 900中的大多数途径都包含在NetBio 700中,表明这些途径是保守的。此外,我们发现,尽管与NetBio 700相比,NetBio 900的预测性能有所下降,但使用较小网络的基于网络的方法在预测ICI响应方面仍然有效(补充图。25, 26).在一项LOOCV研究任务中,在36项比较中的32项中,NetBio 900的预测性能等于或优于其他ICI生物标志物,如GeneBio和TME生物(补充图。25;88.9%).此外,在跨研究预测中,NetBio 900在54次比较中的40次(74.1%)比其他ICI生物标志物表现更好(补充图)。26).这些结果表明,尽管当使用更小的网络时,ICI反应预测的性能下降,但是基于网络的方法仍然比基于靶基因和基于肿瘤微环境的生物标志物表现更好。此外,由于使用不完整的网络而导致的预测性能的降低突出了网络覆盖对于识别药物反应生物标志物的重要性。此外,网络传播算法的不断发展将有助于改善精确医疗的任务,因为这些算法已经成功地应用于识别疾病基因和药物靶点54南在这项研究中,采用了带重启的随机行走。然而,最近提出了各种网络传播算法来解释蛋白质相互作用网络的程度偏差55,56。这些方法具有发现疾病模块的潜力,所述疾病模块具有识别疾病基因、候选药物靶标和用于药物反应的生物标志物的改进性能。

我们还发现,基于网络生物学的预测可以始终如一地再现与免疫治疗反应相关的免疫微环境。在三种不同的癌症类型(黑色素瘤、胃癌和膀胱癌)中,我们发现基于NetBio的预测与抗肿瘤白细胞的比例(如CD8 T细胞比例)始终呈正相关,而前肿瘤白细胞的比例(如M2巨噬细胞)与基于NetBio的预测始终呈负相关(图)。5b).我们的预测结果与先前的研究结果一致,因为(i) ICI治疗旨在重振CD8 T细胞,使得较高的CD8 T细胞比例导致ICI治疗功效增加30,57;(ii) M2巨噬细胞抑制CD8 T细胞,使得较高比例的M2巨噬细胞导致对ICI治疗的抗性58。此外,基于NetBio的预测一致地恢复了CD8T细胞比例,即使当不同的黑素瘤队列(Gide等人或Liu等人)用于训练ML模型时(图。5b).总之,我们的结果表明,作为ICI靶点的网络邻居,NetBio通路从转录组数据中稳健地捕获了患者的免疫组成。鉴于我们的结果的一致性,未来的研究机会将是应用基于网络的方法和更高分辨率的测序技术(如单细胞RNA测序),这些技术能够考虑免疫微环境的重要方面,包括免疫细胞比例或细胞状态59.

有人可能会问,在一个全面的数据集中结合多种癌症类型是否会提高基于网络生物的预测的性能。我们发现,将所有癌症类型组合成单一的综合数据集并没有改善ICI反应预测的性能,这表明了癌症类型特异性ICI反应机制的重要性。首先,我们测试了基于网络的ICI药物靶点结合配偶体的基因表达模式在不同癌症类型中是否相似(见方法)。我们发现,两个黑色素瘤队列之间的转录组相似性较高(ICI反应者和无反应者的转录组相似性中位数分别为0.39和0.41),而不同癌症类型的队列之间的相似性较低(补充图)。27).我们接下来使用了战斗60消除四个独立数据集(Gide、Liu、Kim、IMvigor210)之间的批效应,并合并数据集进行NetBio预测。我们发现,与基于每个单独数据集的NetBio标记相比,组合的NetBio标记的LOOCV性能下降(补充图。28).这些结果表明,基于表达的ICI治疗反应的生物标志物在不同的癌症类型中是不同的。

尽管药物反应生物标记的鉴定传统上集中在基因组标记上17,我们测试了基于NetBio的转录组特征,当与基因组特征结合时,是否可以改善免疫治疗反应的预测。具体来说,我们选择了基因组特征的TMB,因为较高的突变负荷可能会增加新抗原呈递,从而增加T细胞浸润和ICI治疗效果4。将TMB水平与基于NetBio的转录组特征相结合,提高了对PD-L1抑制剂治疗的膀胱癌患者总生存期的预测(图。7b,c;补充图22).与我们对膀胱癌的预测一致,我们观察到NetBio和TMB水平的结合提高了黑色素瘤队列中总生存率的预测(补充图。29).我们的结果表明,结合各种组学数据集可以改善癌症患者对ICI治疗反应的预测。此外,将TMB与NetBio结合提供了负责改善膀胱癌ICI反应预测的转录生物标志物。我们在IMvigor210队列中确定了“Raf激活”途径,这是上皮生长因子受体(EGFR)基因的下游途径,是一种转录组特征(图。7d–f).具体来说,该途径的上调与ICI治疗的不良反应相关(图。7d).与我们的发现相似,多项临床试验报道,携带活化EGFR突变的肺癌患者对PD-1和PD-L1抑制剂治疗表现出耐药性61。因为Raf信号通路是EGFR的直接下游通路,Raf通路的激活也可能是对ICI治疗反应差的原因。需要进一步研究Raf激活途径在膀胱癌免疫治疗反应中的作用,以证实这种可能性。

我们设想,我们在这里的工作为使用ICI治疗的精确医疗开辟了有趣的新研究机会。例如,我们已经开发了直接从ICI处理的样本训练的ML方法(即,监督学习),而大多数最新技术使用从非ICI处理的样本学习的ML模型来预测对ICI处理的响应(即,非监督学习)13,14,15,16,17。因为监督和非监督学习使用不同的癌症患者来训练ML模型,所以这两种学习方法可以互补,从而在一起使用时提高预测性能(例如,半监督方法)。作为概念的证明,将基于网络生物的预测与来自Lee等人的无监督学习方法的预测相结合。15使用基因-基因合成致死相互作用可以改善ICI反应的预测(补充图。30).具体来说,我们发现,当来自监督学习(NetBio)和非监督学习(Lee等人)的预测显示彼此相关性较低时,组合预测的性能在所有测试条件下都有所提高(补充图。30b),表明两种学习方法都可以学习不同的、但与ICI治疗相关的生物信号。由于免疫治疗的生物学结果非常复杂,依赖于单一组学特征的方法在预测患者对免疫治疗的反应方面具有局限性。将基于网络的机器学习模型与不同的组学层相结合将会产生更好的临床结果。随着更多的肿瘤样本测序数据可用于ICI治疗和非ICI治疗的癌症患者,我们希望我们在这里的工作,以及其他以前和未来的ML方法,可以促进精确肿瘤学的重大改进。


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297