您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2023
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

使用全基因组突变特征对未知初级诊断的癌症进行基于机器学习的组织起源分类

 二维码
发表时间:2022-07-18 10:39作者:武汉新启迪Xinqidibio

摘要

不明原发癌(CUP)占所有癌症诊断的3%,由此不能确定起源的肿瘤组织(TOO)。使用包含6756个全基因组测序的原发性和转移性肿瘤的统一处理数据集,我们开发了未知原发性位置的癌症解析器(CUPLR),这是一种随机森林分类器,采用了基于简单和复杂体细胞驱动和乘客突变的511个特征。CUPLR区分35种癌症(亚)类型90%的召回和基于交叉验证和测试集预测的90%精度。我们发现结构变体衍生的特征增加了对特定癌症类型进行分类的性能和效用。使用CUPLR,我们可以确定82/141 (58%)的CUP患者的TOO。虽然CUPLR是基于机器学习的,但它提供了一个人类可解释的图形报告,其中有详细的功能解释。CUPLR的全面输出补充了现有的组织病理学程序,并能够改善对CUP患者的诊断。

介绍

未知原发性癌症(CUPs)是晚期转移性肿瘤的总称,其起源的肿瘤组织(TOO)不能基于常规诊断(通常通过组织病理学)最终确定1),并且也有相当一部分患者具有不确定或鉴别诊断,尤其是具有低分化肿瘤的患者2。由于原发性癌症类型分类是指导治疗决策的主导因素,因此诊断不确定的患者缺乏治疗选择3.

迄今为止,TOO分类器已经基于来自广泛的分子方法的数据被开发,包括DNA测序(靶向4,全外显子组5和全基因组6,7)、RNA图谱(来自编码RNA8,微小RNA9,10,11,以及全转录组分析12,13),以及甲基化谱分析14。凭借其全面捕捉可操作生物标志物的能力,实现精准医疗15,全基因组测序(WGS)作为一种诊断工具正在迅速成熟16并且在各个国家的临床系统中越来越多地被采用17,18,19,因此可能是诊断性TOO分类器的有趣基础。最近开发的基于WGS的分类器6,7显示出优于靶向或基于全外显子组测序的方法4,5因为能够利用所有基因组区域的突变。这些分类器采用的主要特征包括突变特征,即外源性或内源性突变过程导致的体细胞突变模式(例如,黑色素瘤中紫外线照射导致的C > T突变)20以及区域突变密度(RMD ),其代表与组织类型特异性染色质状态相关的体细胞突变的基因组分布,其中晚期复制的闭合染色质区域显示突变率增加21.然而,并不是所有的基于WGS的特征都被充分研究用于分类,包括复杂的诱变特征,例如病毒DNA整合、驱动基因融合和其他复杂的结构事件(例如色丝菌属),以及非诱变特征,例如性别,所有这些特征都被证明与特定的肿瘤类型相关。事实上,人乳头瘤病毒(人乳头瘤病毒)序列插入在宫颈癌和头颈癌中被特异性和频繁地发现14, 基亚1549-BRAF毛细胞星形细胞瘤中的融合13脂肪肉瘤经常隐藏着FUS-DDIT3融合15以及色丝菌事件22.

这里我们描述一下CUPLR的发展(C的祖先U未知P里马里L位置Resolver),一个TOO分类器,它集成了当前最先进的基于WGS的突变特征,包括复杂结构变体(SV)特征。CUPLR包括二元随机森林分类器的集成,每个分类器以90%的总召回率区分35种癌症类型中的一种。我们发现尽管RMD和突变特征高度预测癌症类型(与现有分类器一致6,7),SV特征的结合提高了目前缺乏高度信息特征的癌症类型的预测性能。此外,我们已经确保CUPLR的输出,即预测概率和支持每个预测的特征,是人类可解释的,以促进CUPLR的诊断使用和临床决策。

结果

基因组特征的提取

为了开发CUPLR,我们从来自哈特维格医学基金会(Hartwig)和全基因组泛癌分析协会(PCAWG)的两个大型泛癌WGS数据集构建了一个协调数据集23.用相同的突变调用管道分析原始测序读数,以构建统一称为简单和复杂突变的目录。协调数据集包括来自35种不同癌症类型的6756名患者的肿瘤(图。1a,补充数据1).与许多以前发表的论文不同4,5,6,7该数据集包括取自转移病灶的大部分样本,这与TOO分类相关,因为根据定义,CUP样本来自患有转移癌的患者。

图1:未知主要位置的癌症解析器(CUPLR)使用来自所有突变类型的特征对35种不同的癌症类型进行分类。
figure 1

aCUPLR是使用全基因组测序数据开发的,这些数据包括来自Hartwig Medical Foundation(Hartwig)的4391个转移性肿瘤和来自全基因组泛癌分析(PCAWG)协会的2365个原发性肿瘤,共计35种不同癌症类型的6756个样本。b6082个样本用于训练CUPLR,674个样本作为独立的测试集。整个训练集用于训练最终的随机森林集合。进行15重交叉验证以获得训练集上的随机森林癌症类型概率,然后用于训练保序回归的集合(用于概率校准)。CUPLR由随机森林和保序回归系综组成,如所示d.使用校准的交叉验证概率以及通过将CUPLR应用于测试集获得的概率来评估CUPLR的性能。c从全基因组测序数据中提取并由CUPLR使用的基因组特征总结。每个功能的详细描述可以在补充数据中找到3.已发表的分类器的名称参考了以下研究:ICOMS从突变谱推断癌症起源,Dietlen等。4,肿瘤示踪剂Marquard等。5萨尔瓦多-SVM支持向量机。7、PCAWG-NN PCAWG神经网络等。6。癌型简称:CNS中枢神经系统、CNS _髓母细胞瘤、CNS _毛肉瘤毛细胞星形细胞瘤、网状神经内分泌瘤、肉瘤_GIST胃肠道间质瘤、肉瘤_平滑肌平滑肌肉瘤、肉瘤_脂肪肉瘤、肉瘤_骨骨肉瘤、肉瘤_平滑肌肉瘤、脂肪肉瘤或胃肠道间质瘤以外的其他肉瘤。其他缩写:RF随机森林、IsoReg保序回归、CV交叉验证、SBS单碱基取代、DBS双碱基取代、SV结构变体、DEL结构缺失、DUP结构重复、线长分散核元件。

广泛的功能(n= 4131)用于基于驾驶员/乘客和简单/复杂突变对癌症类型进行分类(图。1c).首先,我们确定了203个癌症相关基因中功能获得(扩增和激活突变)和功能丧失(深度缺失和双等位基因缺失)事件的存在。基于在至少一种癌症类型中具有丰富的功能获得和/或丧失事件来选择这些基因(参见方法)。其次,我们计算了每个样本的单碱基替换(SBS)、双碱基替换(DBS)和indels的突变负荷。第三,我们从宇宙目录中确定了SBS、DBS和indel信号的突变数量20。第四,跨基因组的每个1 Mb仓中SBS的数量(n= 3071)来确定RMD24。突变信号和RMD通过各自突变类型的突变负荷进行标准化,以解释样本间突变负荷的差异。第五,拷贝数数据用于推断每个样品的基因组倍性、二倍体比例、全基因组复制状态和性别25。第六,对于每个样品,我们确定了每个染色体臂相对于基因组倍性的拷贝数变化26。最后,我们解析被调用的简单和复杂SV,以确定:(I)每个样本的总SV负载;(ii)按长度分层的缺失、重复的数量;㈢按规模分层的复杂事件的数量;(iv)最大复杂事件的大小,(v)长散在核元素(线)插入和双分钟的数量;和(vi)基因融合和病毒序列插入的存在25,27.

分类器训练

提取的基因组特征然后用于开发CUPLR,一种由两种成分组成的分类器(图。1d).第一个组成部分是二元随机森林分类器的集合,每个分类器区分一种癌症类型与其他癌症类型(即,一个与其余)。我们选择使用二元分类器的集成,而不是一个多类分类器,这样可以对每种癌症类型进行特征选择,因为不同的特征对每种癌症类型都很重要。此外,我们选择使用随机森林而不是其他算法(如神经网络),因为它们可以处理不同的特征类型(连续、布尔、分类等),而不需要调整特征值,这也提高了模型的可解释性。CUPLR的第二个组成部分是保序回归的集合,以校准每个随机森林产生的概率。随机森林倾向于在概率接近0时过度自信,在概率接近1时过度自信,这种偏差在随机森林之间是不同的28。我们在这里执行的校准确保了随机森林之间的概率是可比较的。此外,校准允许概率具有以下直观解释:例如,0.8的概率意味着有80%的机会预测是正确的(这种关系不适用于来自随机森林的原始“概率”)。

我们使用6082个样本进行训练,并拿出674个样本作为独立的测试集,两者具有相同的癌症类型和群组比例(补充数据2).主随机森林集合的训练包括几个步骤(补充图。12).简而言之,由于RMD箱(3071)的绝对数量和稀疏性,对每个癌症类型的RMD箱进行非负矩阵分解(NMF ),以将箱减少到46个癌症类型特异性RMD分布图。然后,对于每种癌症类型,进行单变量特征选择(以去除不相关的特征),最终选择511个特征(232个数字和279个布尔;补充数据3).接下来是类重采样(以减轻每种癌症类型的样本数量的不平衡),随后是二进制随机森林本身的训练。将上述训练过程应用于训练集的所有样本,以产生最终的随机森林集合。然后对随机森林集合训练程序进行分层15重交叉验证,以获得训练样本的癌症类型概率。这些概率然后被用来训练用于校准随机森林概率的保序回归集合(图。1b,补充图。3).校准导致偏差较小的可靠性曲线(补充图。4)和提高的召回率,特别是对于具有很少训练样本的癌症类型(补充图。5).

CUPLR性能

为了评估CUPLR的性能,我们使用了基于保序回归校准交叉验证(CV)概率的癌症类型预测,以及将CUPLR应用于保留测试集的预测(图。1b).训练集(n= 6082)和保持测试集(n= 674)具有相同的癌症类型和群组分布(补充数据2).CUPLR也可以预测90% (CV)和89%(测试集)的总召回率,以及90% (CV)和89%(测试集)的总精确度(图。2b,c).在某些癌症类型中,CV和测试集召回率和精确度之间的差异是由于测试集中的样本量较低(图。2a,b,补充图。6).

图CUPLR的性能。

a训练集(左栏)和保留测试集(右栏)的每种癌症类型的样本总数。请注意y的轴a被截断以更好地显示小样本量的癌症类型。b, c也具有对应于训练集交叉验证和测试集性能的相同的左/右列布局。b绩效指标摘要。召回:每种癌症类型正确分类样本的百分比,相当于中的对角线值c。前2名召回:当认为2种最可能的癌症类型是正确的时,正确分类的样本的百分比。精确度:预测为特定癌症类型的样本中正确分类样本的百分比。总体绩效指标(即“全部”栏下)是微平均值。c显示CUPLR性能的混淆矩阵,其中列代表预测为特定癌症类型的癌症类型群组中样本的百分比。对角线代表被正确预测为特定癌症类型的样本百分比(相当于回忆)。中性能指标和混淆矩阵的原始数据b, c可以在补充数据中找到4。癌型简称:CNS中枢神经系统、CNS _髓母细胞瘤、CNS _毛肉瘤毛细胞星形细胞瘤、网状神经内分泌瘤、肉瘤_GIST胃肠道间质瘤、肉瘤_平滑肌平滑肌肉瘤、肉瘤_脂肪肉瘤、肉瘤_骨骨肉瘤、肉瘤_平滑肌肉瘤、脂肪肉瘤或胃肠道间质瘤以外的其他肉瘤。

某些癌症类型的高错误分类率可能是由共同的癌症类型特征造成的(图。2c).这可能是由于共同的发育起源,例如子宫被错误分类为卵巢癌(变异系数:7%,检验:29%),因为两者都是妇科癌症29,胆汁被误分类为胰腺(变异系数:24%,试验:42%)和肝脏(变异系数:9%),因为它们是前肠癌30,31。癌症亚型也经常被错误地分类为其他亚型,例如肺小细胞型和肺非小细胞型(变异系数:40%,检验:60%);肾乳头向肾透明细胞(变异系数:38%,试验:67%);和肉瘤_平滑肌瘤(CV: 35%,试验:43%)和肉瘤_骨(CV: 17%)向肉瘤_其他(除平滑肌瘤/脂肪瘤/骨肉瘤或胃肠间质瘤以外肉瘤)的转化。神经内分泌肿瘤(NET)亚型偶尔会被错误分类,例如NET_Lung朝向NET _ gastropic(CV:9%)和NET_Pancreas (CV: 9%,test: 33%),以及NET _ gastropic朝向pancream(CV:6%),这可能(至少部分地)反映了这些样本中的癌症类型误判,因为神经内分泌肿瘤具有相似的形态学特征32。同样,被错误分类为乳腺(CV: 23%,测试:33%)的头颈部唾液样本由于是乳腺的腺样囊性癌(即唾液腺样癌)而可能被误诊33.

到目前为止,我们主要基于最高概率癌症类型是否是正确的癌症类型(即回忆;图。2b,c).然而,如果我们考虑正确的癌症类型是否在前2个最高概率中(前2个回忆;图。2b),总体召回率从90%增加到95% (CV)和89%增加到94%(测试集),增加最多的是癌症亚型,包括肺小细胞癌(CV: 50%到83%,测试:40%到100%)、肾乳头状癌(CV: 62%到79%,测试:33%到100%)、肉瘤平滑肌癌(CV: 56%到89%,测试:57%到86%)和肉瘤其他癌(CV: 63%到89%,测试:54%到还观察到胆管(CV: 52%到73%,测试:42%到83%)的召回率有很大提高,这通常被误分类为胰腺。基于对测试集的预测,召回率也有类似的提高。当常规诊断不能完全确定时,CUPLR的前2位(甚至前3位)概率特别有助于鉴别诊断,以缩小潜在的too范围。

增加了SV相关特征的预测价值

当检查CUPLR中每个随机森林的最重要特征类型时(图。3a),RMD谱(‘rmd’)始终是最能预测癌症类型的(与焦等人2020年的研究结果一


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297