摘要
癌症基因组中的体细胞突变是由多个突变过程引起的,每个突变过程都会产生特征性的突变特征1。在这里,作为国际癌症基因组协会(ICGC)和癌症基因组图谱(TCGA)的全基因组全癌基因分析(PCAWG)联盟2的一部分,我们使用了来自4,645个全基因组和19,184个外显子序列,涵盖大多数类型的癌症。我们确定了49个单碱基取代,11个双碱基取代,4个簇碱基取代和17个小的插入和删除签名。我们的数据集的实际大小,与以往相比,分析3,4,5,6,7,8,9,10,11,12,13,14,15可以发现新的签名,分离重叠的签名以及将签名分解成可能代表相关但独特的DNA损坏,修复和/或复制机制的组件。通过估计每个签名对单个癌症基因组突变目录的贡献,我们揭示了签名与外源或内源性暴露以及缺陷性DNA维持过程的关联。但是,许多签名的原因不明。该分析为有助于人类癌症发展的突变过程库提供了系统的观点。
癌症基因组中的体细胞突变是由受精卵与癌细胞16之间的细胞谱系运作的外源和内源性突变过程引起的。每个突变过程都可能涉及DNA损伤或修饰,DNA修复和DNA复制(可能是正常或异常)的组成部分,并产生特征性的突变特征,可能包括碱基取代,小的插入和缺失(indels),基因组重排和染色体副本数更改1。单个癌症基因组中的突变可能是由多个突变过程产生的,因此并入了多个叠加的突变特征。因此,为了系统地表征导致癌症的突变过程,以前已经使用数学方法从体细胞突变目录中破译突变特征,估计可归因于单个样品中每个特征的突变数量,并注释每个肿瘤中的每个突变类别。用的概率,它从每个签名产生6,9,17,18,19,20,21,22,23,24,25,26,27。
先前对多种类型癌症的研究已经鉴定出30多个单碱基取代(SBS)标记,其中一些是已知的病因,但很多是未知的病因,一些普遍存在,而其他则很少,正常细胞生物学的某些部分以及其他与异常暴露相关的疾病或肿瘤进展3,4,5,7,8,9,10,11,12,13,14,15。基因组重排的签名也之前已描述11,25,28,29,30。然而,其它类突变的分析已经相对有限3,11,31,32,33。
突变特征分析主要使用了癌症外显子组序列。然而,整个基因组中体细胞突变的数量多很多,从而大大增强了签名分解的能力,从而能够更好地分离部分相关的签名,并提取出贡献相对较少突变的签名。此外,技术伪像以及测序技术和变异调用算法之间的差异本身可以产生变异特征。因此,来自PCAWG项目2的2780个癌症基因组的所有类别的体细胞突变的经过统一处理和高度策划的集合,与大多数其他合适的癌症基因组(登录号syn11801889,可在https://www.synapse.org/#!Synapse:syn11801889),提供了一个重要的机会来建立突变特征库并确定其在不同类型癌症中的活性。这些签名的个体的癌症的发展和结构变化的签名的所有组成成分中的其它PCAWG已探索定时分析30,34。
在23829个样品-包括大多数类型的癌症,并且包括2780 PCAWG整个基因组2进行分析的突变是,1865个附加整个基因组和19184外显子组,得到79793266体SBSS,814191双峰碱基取代(DBSS)和4122233个小插入和缺失签名,比我们知道的任何先前研究多大约10倍的突变(syn11801889)6。
我们为每种类型的突变建立了分类。对于SBS,主要分类包括96个类别(可从https://cancer.sanger.ac.uk/cosmic/signatures/SBS获得),由6个碱基替换C> A,C> G,C> T,T>组成A,T> C和T> G(其中突变的碱基由碱基对的嘧啶代表),加上侧翼的5′和3′碱基。在一些分析中,考虑突变碱基的两个侧翼碱基5'和3'(产生1,536个类别),或者根据转录的嘧啶是落在转录的还是未转录的链上(产生192个类别)选择转录的基因组区域内的突变并分类)。我们还导出了DBS的分类(78个类;可从https://cancer.sanger.ac.uk/cosmic/signatures/DBS获得。)。插入缺失被分类为缺失或插入,并且当存在单个碱基时,分类为C或T,并根据它们出现的单核苷酸重复序列的长度进行分类。较长的插入缺失被分类为发生在重复序列上或在缺失边界处具有重叠的微同源性,并根据插入缺失,重复序列和微同源性的大小进行分类(83类;可在https://cancer.sanger.ac.uk/cosmic/signatures/ID获得)。
PCAWG全基因组序列,其他全基因组序列和外显子组序列分别进行了单独分析(syn11801889)2。从每种癌症的类型中分别从所有癌症类型中提取签名,作为单独的SBS,DBS和indel签名,以及作为所有三种类型的突变的复合签名(补充说明2)。
我们使用了基于非负矩阵分解(NMF)的两种方法:SigProfiler,该框架的详细版本,用于以前的“突变体签名的目录”(COSMIC)突变签名(COSMIC v.2,可在https: //cancer.sanger.ac.uk/cosmic/signatures_v2)11,17,和SignatureAnalyzer,其基于NMF的贝叶斯变体9,27,35。NMF确定特征谱以及每个特征对每个癌症基因组的贡献,作为其对突变谱输入矩阵进行因子分解的一部分。但是,由于样品中存在许多签名和/或异质突变负担,因此可以多种方式重建在特定样品中观察到的突变-通常许多签名的贡献很小和/或生物学上难以置信。因此,每种方法都开发了一个单独的过程来估计签名对每个样本的贡献(方法)。
我们对11组合成数据(包括64,400个合成样品)进行了测试,这些数据来自已知的特征文件(方法,补充说明2))。两种方法在从实际复杂的数据中重新提取已知签名方面都表现良好。与已知输入不一致的提取签名通常是由选择正确数量的签名引起的。结果证实,使用基于NMF的方法来提取突变特征并不是纯粹的算法过程,还需要考虑实验确定的突变特征以及DNA损伤和修复文献中的证据,以及生物学上的合理性和人类指导的敏感性的先前证据。分析证实从不同肿瘤组中提取可产生一致的结果。我们使用这些类型的证据和方法来确定此处报告的签名特征。调查结果与有关NMF的结果一致,36,37。众所周知,潜在变量数量的选择(就我们的目的而言,就是突变签名的数量)很难完全自动化。
我们对癌症数据进行SigProfiler和SignatureAnalyzer分析的结果显示出许多相似之处,并且我们为使用两种方法(syn12016215)提取的相似签名分配了相同的标识符。但是,也存在明显的差异。在突变负担低的PCAWG肿瘤中发现的SBS签名数量(占94.4%的病例中包含47%的突变)相似:使用SigProfiler时为31个,使用SignatureAnalyzer时为35个。但是,从超突变的PCAWG样本中提取的其他SBS签名的数量(5.6%的情况,包含53%的突变)有所不同:使用SigProfiler时为13个,使用SignatureAnalyzer时为25个。SBS签名配置文件也存在差异,包括在突变负担较低的情况下发现的签名之间。后者主要涉及相对无特征的(“平坦”)签名,从数学上讲,对卷积进行挑战性很大。最后,各个样本的签名属性存在差异。SignatureAnalyzer使用了更多的签名来重建突变谱(扩展数据图。1)(syn12169204和syn12177011)和归因于平面签名的属性不同(Extended Data Fig。2a ,b)(syn12169204)。两种方法之间的DBS和indel签名通常相似(扩展数据,图2c,d)。
最终参考突变签名是从PCAWG集确定的,并补充了其他数据集的其他签名(COSMIC,可从https://cancer.sanger.ac.uk/cosmic/signatures获得)。每个签名都分配有一个与COSMIC v.2注释一致并扩展的标识符。某些以前的签名分成多个组成签名:这些签名的编号与前面的注释中的相同,但带有附加的字母后缀(例如,SBS17分为SBS17a和SBS17b)。DNA测序和分析伪像也产生突变特征。我们会指出哪些签名可能是人工制品,但在下面不作介绍(有关完整信息,请访问https://cancer.sanger.ac.uk/cosmic/signatures)。在整个研究中都使用了SignatureAnalyzer和SigProfiler的结果。但是,为简洁起见和连续性,以前在COSMIC v.2中显示的签名集已被广泛用作参考,此处概述了SigProfiler结果,并在Extended Data Figs中提供了SignatureAnalyzer结果。3,4和在syn11738307。
样本之间(数百至数百万)和癌症类型38之间的SBS数量存在实质性差异(图1)。总共提取了67个SBS突变特征,其中49个被认为可能是生物学起源的(图2,方法;可在https://cancer.sanger.ac.uk/cosmic/signatures/SBS/获得)。除了签名SBS25,所有在COSMIC v.2中报告的签名(参考6))已确认;新派生的签名与COSMIC v.2上的签名之间的余弦相似度中位数为0.95,其中不包括“分割”签名(如下所述)。SBS25以前在化学疗法治疗的霍奇金淋巴瘤衍生的细胞系中发现,没有这种类型的原发癌。与COSMIC v.2签名相比,新获得的签名显示出彼此之间更好的分隔以及更清晰的签名配置文件(有关更多信息,请参见补充说明2中的 “与COSMIC v.2签名相比更好的分隔” )。
我们提取的SBS签名中有13个(不包括由于签名拆分而引起的签名)代表了新识别的并且可能是真实的签名,这些签名在COSMIC v.2中不存在。一些是罕见的(SBS31,SBS32,SBS35,SBS36,SBS42和SBS44)。其他的则更常见,但贡献的突变相对较少和/或类似于先前发现的特征(SBS38,SBS39和SBS40)。值得注意的是,SBS40是类似于SBS5的固定签名。它会导致多种类型的癌症,但其与SBS5的相似性使得这种影响的程度不确定。对于一些新鉴定签名,有合理的潜在病因(图3,扩展数据图4,5):为SBS31和SBS35,铂化合物化疗39; 对于SBS32,硫唑嘌呤疗法;为SBS36,灭活种系或体细胞突变在MUTYH(其编码碱基切除修复机械的部件)40,41 ; 对于SBS38,暴露于紫外线(UV)会产生其他影响;对于SBS42,职业接触卤代烷13;对于SBS44,缺陷DNA错配修复42。
三个先前表征的碱基取代签名(SBS7,SBS10和SBS17)分为多个组成签名(图2)。签名分裂可能反映了由同一暴露引发的多个不同的突变过程的存在,这些过程具有紧密但不完全相关的活动。我们以前将SBS7视为单一签名,主要由C> T在C C N和T C处组成N个三核苷酸(带突变的碱基加下划线)和更少的T> N突变。它是在恶性黑色素瘤和鳞状皮肤癌中发现的,可能是由于紫外线诱导的嘧啶二聚体的形成,随后通过易错的聚合酶(主要是插入与受损的胞嘧啶相反的A形成)的跨病变DNA合成。现在,SBS7已分解为四个组成签名。SBS7a和SBS7b(分别主要由T C N处的C> T和C C N 处的C> T 组成)可能反映出不同的嘧啶-二聚体光产物。SBS7c和SBS7d(主要是T> A的组成为N Ť T和T> C中的Ñ Ť T,分别43)可能是由于嘧啶二聚体中与胸腺嘧啶相反的T和G错配频率较低。SBS10和SBS17的拆分在https://cancer.sanger.ac.uk/cosmic/signatures/SBS/中进行了描述。
几个碱基取代的签名显示出转录链偏向,这可能归因于对DNA损伤作用的转录偶联核苷酸切除修复和/或对基因44的未转录链的过量DNA损伤。两种机制都导致未转录的受损碱基比转录的基因链发生更多的突变。假设任一机制都导致观察到的转录链偏向,DNA对胞嘧啶(SBS7a和SBS7b),鸟嘌呤(SBS4,SBS8,SBS19,SBS23,SBS24,SBS31,SBS32,SBS35和SBS42),胸腺嘧啶(SBS7c,SBS7d, SBS21,SBS26和SBS33)和腺嘌呤(SBS5,SBS12,SBS16,SBS22和SBS25)可能是这些突变特征的基础(链偏倚图可在https://cancer.sanger.ac.uk/cosmic/signatures/SBS/)。已知可能的DNA破坏剂包括SBS4(烟草诱变剂),SBS7a,SBS7b,SBS7c和SBS7d(紫外光),SBS22(阿兜铃酸),SBS24(黄曲霉毒素),SBS25(化学疗法),SBS31和SBS35(铂化合物) ,SBS32(硫唑嘌呤)和SBS42(卤代烷烃)。
使用1,536个突变类型的SBS分类,该序列使用序列上下文中每个突变碱基的两个碱基5'和两个碱基3',产生的标记与在三核苷酸上下文中基于替换的标记基本一致。然而,值得注意的是,提取了两种形式的SBS2和SBS13,一种主要是嘧啶,另一种主要是嘌呤位于-2碱基(突变的胞嘧啶的第二个碱基5')。这些分别代表胞苷脱氨酶APOBEC3A和APOBEC3B的活性45。如果是这样,那么在具有高APOBEC活性的癌症中,APOBEC3A的突变要比APOBEC3B多得多。其他签名显示了在+2和-2位置的非随机序列上下文(例如SBS17a,SBS17b和SBS9),但是序列上下文的影响通常比5'和3'突变碱基更强。
SBS签名显示出发现癌症的类型和癌症样本的数量以及每个癌症样本的突变(图3)存在显着差异。几乎所有个体癌症样本均表现出多重特征,在PCAWG组(syn12169204)中表现为三个特征。分配的特征很好地重建了癌症样品的突变谱(在PCAWG样品中,中位余弦相似度为0.97; 96.3%的样品的余弦相似度> 0.90):图4显示了示例性示例。
一些突变过程产生碱基取代,其聚集在小的基因组区域中。此类突变的数量有限,可能导致无法使用标准方法检测其特征。因此,我们确定了每个基因组中的簇状突变,并分别进行了分析(方法)。四个主要群集突变签名进行鉴定(图2),如先前报道4,27,32。两个,它们在多种类型的癌症中发现,类似于SBS2和SBS13(其已被归因于APOBEC酶活性)和代表kataegis病灶3,32,46。另外两个成簇的特征,一个特征是(A或G)C(C或T)三核苷酸47处的C> T和C> G突变,另一个特征是(A或T)T处的另一个T> A和T> C突变(A或T)在淋巴样肿瘤中发现;它们可能代表了容易引起错误的聚合酶(分别为SBS84和SBS85)引起的激活诱导的胞苷脱氨酶诱变和病灶DNA合成的直接和间接后果27。
观察到串联双链体,三联体,四联体,五联体和六联体碱基取代(syn11801938和syn11726620)的SBS发生率约为1%。在大多数癌症基因组中,DBS的数量远高于SBS的随机邻接(syn12177057)所预期的数量,这表明存在普遍发生的单个诱变事件,这些事件在邻近碱基处引起了替换。在样本中,DBS的数量存在很大差异,范围从0到20,818。DBS的数量通常与SBS的数量成正比(图1),尽管结直肠腺癌的数量少于预期,而肺癌和黑色素瘤的数量则更多(扩展数据表1)。我们提取了11个DBS签名(图2),其中三个先前已报道33,48。
签名DBS1的特征在于CC> TT突变(图2),在具有SBS7a和SBS7b的恶性黑色素瘤中促成数百至数万个突变(图3),表现出与胞嘧啶损坏一致的转录链偏向(syn12177063),并且通过UV光诱导的DNA损伤的已知后果33,49。排除与暴露于UV光相关的癌症也产生一个签名(DBS11),通过CC> TT突变主要特征,但只有从多个类型的癌症(图贡献几十突变的许多样品在2,3)。DBS11与SBS2相关联,这是由于APOBEC活动引起的:因此,APOBEC活动也可能生成DBS11。
DBS2主要由CC> AA突变组成,其中CC> AG和CC> AT突变的数量较少,并且在肺腺癌,肺鳞癌和头颈鳞癌中通常导致吸烟的原因是数百至数千种突变33(图2,3)。DBS2显示出表明鸟嘌呤损伤的转录链偏向(syn12177064),并与SBS4有关,后者是由暴露于烟草烟雾引起的。因此,DBS2可能是烟草烟雾诱变剂破坏DNA的结果。
在没有证据显示暴露于烟草烟雾的情况下,与DBS2类似的特征导致了数百种肝癌突变和数十种其他类型癌症突变。类似于DBS2的模式在健康小鼠细胞50中也占据着DBS的主导地位。在与吸烟无关的人类癌症和健康小鼠中,构成这些特征的突变过程的性质尚不清楚。然而,在实验系统中,乙醛暴露已显示出主要以CC> AA突变为特征的突变特征,以及CC> AG和CC> AT突变的较低负担以及C> A SBS 48。乙醛是酒精的氧化产物,是香烟烟雾的一种成分。乙醛,也许还有其他醛类,在生成DBS2中的作用值得进一步研究51。
DBS3,DBS7,DBS8和DBS10在罕见的结直肠癌,胃癌和食道癌中显示成百上千个突变,其中一些显示出缺陷的DNA错配修复(DBS7和DBS10)或聚合酶epsonon核酸外切酶结构域突变(DBS3)的证据,可产生超突变表型。 (图2,3)。DBS5在暴露于铂化学疗法的癌症中发现,并且与SBS31和SBS35相关。
插入缺失通常以碱基取代频率的约10%存在(图1)。即使排除具有缺陷DNA错配修复证据的癌症,癌症基因组之间插入缺失的数量也存在很大差异。总体而言,缺失和插入的数目相似,但是癌症类型之间存在差异:某些癌症显示出更多的缺失,而其他癌症则显示出更多的各种亚型插入(图1)。我们提取了17个indel突变特征(图2)。
在长(≥5)的胸腺嘧啶单核苷酸重复序列中,Indel签名1(ID1)主要由胸腺嘧啶的插入组成,ID2的主要成分是胸腺嘧啶的缺失(图2)。在大多数类型的癌症的大多数样本中都发现了数十种到两种特征的突变,但在结直肠癌,胃癌,子宫内膜癌和食道癌以及弥漫性大B细胞淋巴瘤中尤为常见(图3)。在超突变和非超突变的癌症基因组中,ID1和ID2分别占插入缺失的97%和45%(扩展数据表2)。它们可能是由于长单核苷酸束的DNA复制过程中新生(ID1)或模板链(ID2)的滑动所致。
ID3在短(≤5-bp的)单核苷酸重复胞嘧啶主要特征在于胞嘧啶的缺失和显示出数百个突变在了与吸烟(图相关联的肺,头和颈癌2,3)。存在突变的转录链偏向,在未转录的基因链上鸟嘌呤的缺失比胞嘧啶的缺失更多,这与受损的鸟嘌呤的转录偶联核苷酸切除修复(syn12177065和syn12177066)兼容。ID3突变的数字与SBS4和DBS2突变,我们已经示出与吸烟(扩展数据图相关联的数量正相关。6,7)。因此,烟草烟雾成分对DNA的破坏可能是ID3的基础。
ID13在胸腺嘧啶-胸腺嘧啶二核苷酸主要特征在于胸腺嘧啶的缺失和表现出大量的突变的皮肤(图的恶性黑色素瘤2,3)。与SBS7a,SBS7b和DBS1突变的数目,这是我们归因于由UV光引起的DNA损伤相关的ID13的突变的数目(扩展数据图6,7)。但是,ID13中胞嘧啶-胞嘧啶二核苷酸的胞嘧啶缺失并不很明显,与紫外线诱导的胞嘧啶二聚体相比,它可能反映了胸腺嘧啶的优势52。
ID6和ID8均以≥5-bp的缺失为主要特征(图2)。ID6陈列在删除边界重叠microhomology与2个碱基(通常更长的区段)的模式,并用SBS3,我们已归因于缺陷的基于同源重组修复(扩展数据图相关6,7)。相比之下,ID8删除显示删除边界处较短或没有微同源性,并且与SBS3没有强相关性。两种缺失模式都可能是通过基于非同源重组的末端连接机制进行DNA双链断裂修复的特征,并且,如果这样的话,这表明在人类癌症中至少有两种不同的形式有效[ 53]。
一小部分癌症表现出非常大量的ID1和ID2突变(> 10,000)(图3)(显示在https://cancer.sanger.ac.uk/cosmic/signatures/ID)。这些通常伴随有SBS6,SBS14,SBS15,SBS20,SBS21,SBS26和/或SBS44,它们与DNA错配修复缺陷有关-有时与POLE或POLD1校对缺陷(SBS14和SBS20)结合在一起35。具有这些签名的偶发病例还显示出大量归因于ID7的插入缺失(syn11738668),稀有样品显示出大量ID4,ID11,ID14,ID15,ID16或ID17突变,但不显示大量ID1和ID2突变或SBS签名与DNA错配修复缺陷有关。
癌症诊断年龄与可归因于标志的突变数量之间呈正相关,这表明从受精卵到癌细胞的整个细胞谱系中,潜在的突变过程一直在起作用(或多或少恒定)。正常细胞从该类型的癌症发展6,54。确认以前的报告6,54,SBS1和SBS5突变的数字对应的年龄,在不同类型的组织表现出不同的速率(q syn12030687,syn20317940和syn12217988中提供的值)。尽管SBS40与SBS5相似,但SBS40也与多种癌症的年龄相关,尽管不能排除错误分配。DBS2和DBS4与年龄相关;符合正常细胞的活动,并结合起来时,它们的概况非常类似于正常小鼠细胞中发现的DBS突变的频谱50。ID1,ID2,ID5和ID8在多个组织中显示出与年龄的相关性。ID1和ID2插入缺失可能是由于DNA复制过程中poly T重复序列的滑动所致,并且与SBS1取代的数量相关,SBS1取代的数量先前已被提出来反映细胞经历的有丝分裂数量6。因此,SBS1,ID1和ID2都可以在有丝分裂的DNA复制过程中生成。ID5突变的数量与SBS40突变的数量相关,因此,这两个与年龄相关的特征背后的突变过程可能包含共同的成分。ID8主要由≥5bp的缺失组成,在其边界处没有或仅有1 bp的微同源性,可能是由于DNA双链断裂是通过非同源末端连接机制修复的。结果表明在正常细胞中有多个突变过程。
在这里用来表征突变特征的分析框架中有重要的约束,局限和假设。从多个过程可操作的样本集中提取的签名仍然是数学近似值,其轮廓可能会受到所使用的数学方法和其他因素的影响。为了概念和实用上的简化,我们假定单个签名与每个突变过程相关联,并提供一个平均参考签名来表示它。但是,我们不排除签名配置文件存在进一步细微差别和变化的可能性。我们估计了每个签名对每个样本中突变负担的贡献。然而,随着签名数量的增加以及某些签名之间突变负担的多个数量级的差异,现有知识有助于避免生物学上令人难以置信的结果。因此,有必要进一步开发用于破译和归因于突变特征的方法,理想地,该方法最好由源自已知原因的实验系统的特征支持。但是,可以通过不同的数学方法找到具有许多相似性和某些差异的签名,并且可以通过多种方式进行确认,包括通过实验阐明的签名。理想情况下,由已知原因的实验系统派生的签名提供支持。但是,可以通过不同的数学方法找到具有许多相似性和某些差异的签名,并且可以通过多种方式进行确认,包括通过实验阐明的签名。理想情况下,由已知原因的实验系统派生的签名提供支持。但是,可以通过不同的数学方法找到具有许多相似性和某些差异的签名,并且可以通过多种方式进行确认,包括通过实验阐明的签名。5,31,39,42,43,54,55,56,57,58,59,60,61,62个肿瘤由单个签名(syn12016215)支配。
该分析包括最公开的外显子组和全基因组癌症序列。可能尚未捕获到一些罕见的或受地理限制的特征,可能遗漏了赋予有限突变负担的特征,并且尚未详尽地探索治疗性致突变物暴露的特征。尽管如此,现在很可能已经描述了人类癌症中发现的大部分自然发生的突变特征。该综合库为癌症发病率的地理和时间差异的病因学,在健康组织和非肿瘤性疾病状态中起作用的突变过程,签名的临床和公共卫生应用以及对突变过程的机理理解提供了基础致癌作用
没有使用统计方法来确定样本量。实验不是随机的,研究人员在实验和结果评估过程中也不会盲目分配。
这些在线方法包含对当前手稿中所使用方法的简要说明;补充说明2中提供了有关我们使用的方法的广泛详细信息。重要的是,两个独立开发的基于NMF的计算框架(SigProfiler和SignatureAnalyzer)分别应用于检查的突变目录集。SigProfiler和SignatureAnalyzer采用不同的方法来解密突变特征并将每个特征分配给每个样本。通过使用两种方法,我们旨在提供一个视角,说明不同方法可能对生成的签名数量,签名配置文件和属性产生的影响。除了将SigProfiler和SignatureAnalyzer用于癌症数据外,该工具还通过已知解决方案应用于实际的合成数据。
SigProfiler结合了用于突变签名识别两个不同的步骤,基于先前描述的方法6,11,17(扩展数据图8)。第一步(SigProfilerExtraction)包括基于体细胞突变及其直接序列上下文的从头开始的突变签名的分层提取,而第二步(SigProfilerAttribution)则专注于准确估计与每个样本中每个提取的突变签名相关的体细胞突变的数量。SigProfilerExtraction是以前的框架,为突变特征的分析,延伸11,17。简而言之,对于给定的一组突变目录,该算法将解密一组最小的突变特征,从而最佳地解释每种突变类型的比例并估计每个特征对每个样本的贡献。更具体地说,对于每个NMF迭代,SigProfilerExtraction都将受非负约束的广义Kullback-Leibler发散最小化(补充说明2)。该算法使用多个NMF迭代(在大多数情况下为1,024)来标识突变签名的矩阵和这些签名的活动矩阵,如先前所述17。签名的数量未知,是通过人工评估一系列值的解决方案的稳定性和准确性来确定的,如前所述17。该框架被分级应用,以提高其查找几乎不产生突变或仅存在于少量样品中的突变特征的能力。
通过SigProfilerExtraction发现签名后,SigProfilerAttribution估计其对各个样本的贡献。对于每个检查的样本,估计算法包括使用非线性凸优化编程求解器(使用内点算法63)来找到约束函数的Frobenius范数的最小值。有关更多详细信息,请参见 补充说明2和扩展数据图8b。
SignatureAnalyzer使用NMF的贝叶斯变体,该变体通过自动相关性确定技术来推断签名数量,并为签名配置文件和属性提供高度可解释和稀疏的表示形式,从而在数据拟合和模型复杂性之间取得平衡。实际执行的计算方法的进一步细节之前已公布的9,27,64。通过使用两步签名提取策略来应用SignatureAnalyzer,该策略使用了SBS的1,536个五核苷酸上下文,83个indel特征和78个DBS特征。除了分别提取SBS,Indel和DBS签名外,我们还基于所有1,697个特征(1,536 SBS + 78 DBS + 83 indel)执行了“ COMPOSITE”签名提取。对于SBS,首选1,536个SBS COMPOSITE签名。对于DBS和Indel,首选单独提取的签名。
在两步提取过程的步骤1中,对具有低突变负担(n = 2,624)。这些排除的超突变肿瘤:那些具有推定的聚合酶ε(POLE)缺陷或错配修复缺陷(微卫星不稳定肿瘤),皮肤肿瘤(具有强烈的紫外线诱变作用)和一个患有替莫唑胺(TMZ)暴露的肿瘤。由于SignatureAnalyzer的基础算法执行随机搜索,因此不同的运行会产生不同的结果。在步骤1中,我们运行了SignatureAnalyzer 10次,并选择了后验概率最高的解决方案。在步骤2中,提取了超突变样本特有的其他特征(再次选择十次运行中的最高后验概率),同时允许在具有低突变负担的样本中找到所有特征,以解释一些高突变样本的光谱。设计该方法的目的是将众所周知的“签名出血”效应或超突变或超突变样本在签名提取中的偏差降至最低。此外,此方法还提供了有关哪些签名对于超突变样本是唯一的信息,稍后在将签名归因于样本时使用。
一种类似的策略用于签名归因:我们对所有COMPOSITE,SBS,DBS和indel签名中的低变异和超变异样本执行了单独的归因过程。对于下游分析,我们首选对SBS使用COMPOSITE属性,对DBS和Indel使用单独计算的属性。在每种肿瘤类型中(例如,胆道-AdenoCA,膀胱-TCC,骨-骨软骨等),分别进行了具有低突变负担的样品中的特征标记。在合并的微卫星不稳定肿瘤(n = 39),POLE(n = 9),皮肤黑色素瘤(n = 107)和TMZ暴露的样本(syn11738314)。在两个组中,主要通过仅对活动矩阵H进行自动相关性确定过程(同时确定签名矩阵W)来推断签名的可用性(哪些签名处于活动状态)。仅使用在特征提取步骤1中找到的特征进行突变负担较低的样品中的归因。在SBS签名归因中应用了另外两个规则,以增强生物学上的合理性并最大程度地减少签名出血:(i)仅在肺,头和颈部病例中允许SBS4(吸烟签名);(ii)在单个GBM样本中允许SBS11(TMZ签名)。这是通过引入二进制的,按样本签名的签名指示符矩阵Z来强制执行的(1,允许的; 0,不允许),将其乘以ħ中的每一个乘法更新矩阵ħ。没有将其他规则应用于indel或DBS签名属性,只是在突变负荷低的样本中不允许在超突变样本中发现的签名。
我们的目标是在真实的合成数据上评估SignatureAnalyzer和SigProfiler,以识别这两种方法的任何潜在限制。SignatureAnalyzer和SigProfiler在11组合成数据上进行了测试,涵盖了总共64,400个合成样品,其中已知的特征谱用于生成合成突变谱的目录。我们根据SignatureAnalyzer或SigProfiler对PCAWG基因组数据的分析特征,在操作上定义“现实”数据。SignatureAnalyzer的参考签名谱基于COMPOSITE签名,包括五核苷酸背景下的1,536种与链无关的SBS,78种DBS和83种小indel,共计1,697种突变类型。SigProfiler的参考分析基于在一个5'和一个3'碱基的情况下与链无关的SBS。对于每个测试,我们生成了两组真实数据:SigProfiler-realistic(基于SigProfiler的参考签名和属性)和SignatureAnalyzer-realistic(基于SignatureAnalyzer的参考签名和属性),以及其他两种使用SignatureAnalyzer涉及的数据类型具有SigProfiler归因的配置文件,反之亦然。有关11组综合数据中每组数据的详细说明以及应用SigProfiler和SignatureAnalyzer的结果,请参见 SigProfiler-realistic(基于SigProfiler的参考签名和属性)和SignatureAnalyzer-realistic(基于SignatureAnalyzer的参考签名和属性),以及涉及使用SignatureAnalyzer配置文件和SigProfiler归因的其他两种类型的数据,反之亦然。有关11组综合数据中每组数据的详细说明以及应用SigProfiler和SignatureAnalyzer的结果,请参见 SigProfiler-realistic(基于SigProfiler的参考签名和属性)和SignatureAnalyzer-realistic(基于SignatureAnalyzer的参考签名和属性),以及涉及使用SignatureAnalyzer配置文件和SigProfiler归因的其他两种类型的数据,反之亦然。有关11组综合数据中每组数据的详细说明以及应用SigProfiler和SignatureAnalyzer的结果,请参见补充说明2。
如果体细胞SBS的互换距离<1,000 bp,则认为它们是集群的。更具体地说,对于每个样品,生成了一个SBS突变目录,用于距另一个取代<1,000 bp的取代。随后,从头开始提取突变特征的包含聚类突变的SBS突变目录集。任何新颖的突变特征(以前在完整的SBS目录中都没有观察到)被报告为簇状突变特征。
如手稿中所述,先前在COSMIC v.2中报告的所有突变特征已在新的一组分析中得到证实,其余弦中值相似度为0.95。但是,COSMIC v.2突变签名之间的分隔(https://cancer.sanger.ac.uk/cosmic/signatures_v2)比这里报告的突变特征之间的分离差得多。例如,在COSMIC v.2中,签名5和16的余弦相似度为0.90,这使得它们之间很难区分。相反,在当前分析中,SBS5和SBS16的余弦相似度为0.65。这使我们能够明确地将SBS5和SBS16分配给不同的样本。在当前的分析中,大量的样本可以减少特征之间的出血,并提供更多独特且易于区分的特征。一个人可以通过检查一组突变特征之间的余弦相似度分布来评估一组突变特征的整体分离。COSMIC v.2中的签名的平均余弦相似度为0.238。相比之下,当前签名的中位余弦相似度低得多,为0.098。相似度的这种双重降低在统计上非常重要(P 值为9.1×10 -25),表示当前分析中的特征之间有更好的分离。
在评估年龄与突变特征的活性之间的关联之前,从数据中删除了年龄和归因于癌症类型的特征的突变数量的所有异常值。离群值定义为与平均值相差三个标准差的任何值。 使用MATLAB函数robustfit(https://www.mathworks.com/help/)进行了稳健的线性回归模型,该模型可估算直线的斜率以及该斜率是否与零显着不同(F 检验;P值<0.05)。stats / robustfit.html)和默认参数。F中的P 值 使用Benjamini-Hochberg程序对测试的错误发现率进行了纠正。结果可在syn12030687和syn20317940获得。
有关研究设计的更多信息,请参见与本文链接的《 自然研究报告摘要》。
参考文献中描述了由ICGC和TCGA PCAWG联盟生成的体细胞和种系变异调用,突变签名,亚克隆重建,转录本丰度,剪接调用和其他核心数据。2,并可以从https://dcc.icgc.org/releases/PCAWG下载。有关访问数据(包括原始读取文件)的其他信息,请访问https://docs.icgc.org/pcawg/data/。根据ICGC和TCGA项目的数据访问政策,大多数分子,临床和标本数据处于开放层,不需要访问批准。为了访问可能识别参与者的信息,例如种系等位基因和潜在的测序数据,研究人员将需要通过dbGaP向https://dbgap.ncbi.nlm.nih.gov/aa/wga申请TCGA数据访问委员会。.cgi?page = login),以访问数据集的TCGA部分和ICGC数据访问合规办公室(http://icgc.org/daco),以获取数据集的ICGC部分。此外,要访问源自TCGA供体的体细胞单核苷酸变异体,研究人员还需要获得dbGaP授权。对于SigProfiler提取的每个突变签名,在COSMIC上都有一个“小插图”,包括情节和简短的文字说明(可从https://cancer.sanger.ac.uk/cosmic/signatures/获取)。除了由ICGC和TCGA PCAWG联盟生成的核心序列数据外,其他衍生的数据集也由本文报道的研究生成。这些派生的数据集可从Synapse(https://www.synapse.org/#!Synapse:syn11726601/wiki/513478)获得,并以登录号(synXXXXXXXX)表示。所有这些数据集都在处镜像https://dcc.icgc.org/releases/PCAWG/mutational_signatures/,具有完整的链接,文件名,登录号和说明,如补充表1所述。这些数据集包括(1)CSV文件,该文件包含所有观察到的突变谱的目录,这些目录用作签名提取(syn11801889)的输入;(2)CSV文件以及SigProfiler(syn11738306)和SignatureAnalyzer(syn11738307)提取的签名图;(3 )CSV文件,其中包含估计每个肿瘤中每个标记所产生的突变数(syn11804065),(4)估计每个标记引起单个肿瘤中每种突变类型(例如CTG> CAG)的概率(syn11804068 )和(5)合成测试输入数据,加上合成测试数据(syn18497223)的特征提取(发现)测试结果。所有派生的数据集都是开放访问的,无需注册或登录即可下载。
|