您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!
本企业通过iso9001质量体系认证

人类癌症基因组中体细胞结构变异的模式

 二维码
发表时间:2020-02-09 16:08作者:武汉新启迪Xinqidibio来源:www.qidibio.com

人类癌症基因组中体细胞结构变异的模式

摘要 

在癌症的关键突变过程是结构变异,其中重排删除,放大或从千碱基到整个染色体的大小范围重排基因组区段1234567在这里,我们使用国际癌症基因组协会(ICGC)和癌症基因组图谱(TCGA)的全基因组全癌基因分析(PCAWG)协会的数据,开发了对体细胞结构变异进行分组,分类和描述的方法38种肿瘤类型中2658例癌症的基因组测序数据8出现了十六种结构变化的特征。缺失具有多峰大小分布,在各种肿瘤类型和患者中分布不均,在晚期复制区域富集并与倒位相关。串联复制也具有多峰大小分布,但是在早期复制区域中富集-不平衡易位。基于复制的重排机制可生成具有低拷贝数增益和频繁倒排重排的各种染色体结构。一种突出的结构由2-7个模板组成,这些模板是从一个基因座内串在一起的基因组不同区域复制而来的。模板插入的这种循环与串联重复相关,并且在肝癌中经常激活端粒酶基因TERT癌症中存在各种各样的重排过程,这些重排过程会产生复杂的基因组构型,从而可以进行选择。

主要

体细胞中产生的突变是癌症发展的驱动力。结构变异是一种特别重要的体细胞突变,在这种变异中,基因组重排起着放大,删除或重新排列染色体物质的作用,其范围从单个基因到整个染色体。癌症和种系基因组的以前的分析已启用的结构变体的几个独特的模式的说明1234567,并基于它们的聚类,方向和相关联的拷贝数变化提出了关于这些模式中几种模式的基础的假设。假设驱动体外现在研究开始揭示一些产生这些结构的机械过程的910111213,并产生进一步的预测可以在基因组数据来评估。但是,人类癌症中结构变异的情况仍然不完整,并且有许多复杂的结构无法进行正式描述。

PCAWG协会汇总了ICGC和TCGA项目生成的来自38种肿瘤类型的2658种癌症的全基因组测序数据。这些测序数据与人类基因组比对(参考构建hs37d5),并使用标准化的高精度管道进行分析,以调用所有8类的体细胞和种系变体在这里,我们分析了PCAWG数据中结构变异的模式和特征。我们提出了一种工作分类方案,其中包括已知的和新近确定的结构变体类别。我们开发了用于注释给定癌症基因组中观察到的结构变异的方法,确定了一类基于复制的重排过程,该过程产生了几个结构变异的簇。我们使用特征分析来定义它们在患者中的相关性,探讨整个人群中可分类结构变异类型的大小,活性和全基因组分布。PCAWG撰写的其他论文涉及结构变异的互补方面,包括推断正选择作用于基因组的反复重排区域14。,结构变异体如何影响转录组15和染色体拓扑16,体细胞逆转录的模式17和跨癌症类型的染色质分布18

结构变体的分类

“结构变体”表现为基因组中两个“断点”之间的“连接点”(此处及以下的反向逗号中的术语指的是扩展数据表1中的术语表中定义的术语))。通常,如果仅中断的一侧被结构变体挽救,则给定断点的拷贝数将发生变化。如果挽救了双链DNA断裂的两侧,则将产生“相互的”或“平衡的”结构变异,而拷贝数没有实质性变化。我们有时会观察到“结构变异簇”,其中几个断点在时间上或在基因组空间中(通常都是同时出现)靠在一起。这种空间和/或时间上的接近通常但并非总是暗示着群集内的结构变体是机械地链接的。簇可以是“分阶段的”(在这种情况下,簇中的所有结构变异都解析为单个衍生染色体)或“非分阶段的”,在这种情况下,结构变异携带在不同的衍生染色体上。1)。

图1:癌症基因组中结构变异的分类。
图1

主要结构变量(SV)类的示意图,根据它们的简单或复杂程度进行分组,并通过剪切粘贴或复制粘贴过程生成。每个原理图包括三个部分。顶部显示每个重排连接点的虚线弧,每个重排连接点将两个染色体段连接在一起。中间片段显示了所涉及的基因组片段的拷贝数。底部显示了由结构变异产生的最终衍生染色体的构型;段的颜色与副本编号示意图中该段的颜色相对应。+表示为某些类别创建的不同的衍生染色体:即,结构变体未定相为单个衍生物。

我们从交界处两个片段的方向和相关的拷贝数变化中识别出不同的“结构变异类别”(图1,补充图1)。某些类型的结构变体(例如同染色体和扩展的高度同源序列之间的重排)很难用短读测序数据检测到;这些类不在这里进一步讨论。我们建议在两个方面对结构变体的类别进行分类:涉及的断点数(简单或复杂),以及模式是否可能由“剪切粘贴”或“复制粘贴”重排过程产生。剪切和粘贴过程生成了与现有基因组片段的改组或丢失一致的结构变体簇,而复制和粘贴过程是在此过程中新复制或合成基因组“模板”的副本。重排过程。删除,倒数倒置,不平衡易位和相互易位是简单剪切和粘贴结构变异的示例,因为它们可以从染色体断裂的不正确连接重建。串联重复是简单的复制粘贴结构变体,因为它们是通过基因组模板的新生成的额外副本的局部插入而产生的。

产生结构变异的更复杂的剪切和粘贴过程也发生在癌症中。DNA断裂,端对端姐妹染色单体融合,有丝分裂桥和进一步DNA断裂的循环导致“断裂-融合-桥”事件。这些事件表现为一个或几个接近,倒断点接点与相关的拷贝数变化,我们称之为“折回反转” 1219(图1)。“Chromoplexy” 520 -其在前列腺癌,结果特别频繁在几个染色体同时发生多个双链DNA断裂被错误再结合,导致重排的平衡链。'Chromothripsis' 3,其中染色体破碎和重排发生在一个单一的灾难性事件921,导致振荡拷贝数变化和几十到几百断点的局部聚类的图案22

在种系,更复杂的复制和粘贴先前已经描述的结构变体的类,其中包括小的重复和triplications并且被认为从复制叉导致模板切换的失速到出现42324在这里,我们描述了人类癌症中广泛存在的各种复杂的复制和粘贴类型的体细胞结构变异,其特征通常是复制数增加和频繁的倒排重排。

结构变量类的注释

我们分析了通过最严格PCAWG质量控制标准的38个肿瘤类型(以及匹配的种系DNA)的2559个完整癌症基因组:在2429个肿瘤中检测到1个或多个体细胞结构变异8如随附的第8条所述,使用配对末端测序数据25中的异常映射和/或拆分读取来识别结构变异我们使用了四个体结构变呼叫者20252627,和由呼叫者≥2被返回的最终结构变数据集包括事件,合并通过基于图的共识方法8在此分析中,我们仅考虑体细胞获得的结构变异,并排除体细胞逆转事件。结构变量调用的验证是通过人工检查和下拉断点重新排序进行的。通过这些方法,我们估计对于4个呼叫者中的任何一个产生的真实呼叫,共识结构变量呼叫集的敏感性为90%。特异性估计为97.5%8我们使用的4种算法中的3.22个算法的平均值称为全基因组范围内的每个结构变体,在重复元素之间差异很小:短散布的核元素的平均值为3.22,长散布的核元素的平均值为3.21。

由于来自给定癌症的结构变异通常是高度聚类的,因此我们根据断点的接近程度,基因组中事件的总数和这些事件的大小分布将重排分为几类(补充方法)。从本质上讲,给定该患者的结构变体的总数和方向,特定簇包含的结构变体比偶然偶然所预期的紧密得多。除了聚类之外,我们还计算了一个计算机生成的文库,其中包含由连续的简单结构变体(缺失,串联重复,倒位,易位和染色体重复或丢失)导致的所有可能的基因组构型,深度达五个重排。然后,我们可以将每个观察到的结构变异簇的基因组构型与文库进行比较,以确定其可能如何产生。

这种方法的优点是,可以根据发生断裂的更广泛的基因组背景对断裂点进行分类。这意味着,例如,真正的缺失将与断点连接明显不同,后者恰好具有删除类型的方向,但发生在(例如)显着机制和特性不同的染色质事件中。我们观察到超过一半的断点连接出现在几个或多个结构变体的簇中(图2a):从真正的缺失,串联重复和倒置的目录中删除这些连接可以更简单地描述简单结构变体的性质。

图2:跨肿瘤类型的结构变异类别的频率。
图2

a,每个组织学组内患者分类的结构变异类别的密度的小提琴图。肿瘤类型面板按每个样品的结构变异断点平均数目的降序排列。在每种肿瘤类型中,不同结构变量类别的频率分布(y轴)(x轴)以密度显示:密度最高的区域具有最大的阴影区域宽度。在每个面板中,患者数量显示在右上方。腺癌,腺癌;BNHL,B细胞非霍奇金淋巴瘤;ChRCC,发色肾细胞癌;CLL,慢性淋巴细胞性白血病;中枢神经系统,中枢神经系统;GBM,胶质母细胞瘤;HCC,肝细胞癌;平滑肌肉瘤; 髓质,髓母细胞瘤; MPN,骨髓增生性肿瘤;食道,食道 寡聚,少突胶质细胞; 胰腺,胰腺 毛细胞星形细胞瘤; 前列腺 RCC,肾细胞癌;肉瘤,肉瘤 SCC,鳞状细胞癌;TCC,移行细胞癌;你的甲状腺 b,食管腺癌的复杂(底部)和分类(顶部)结构变异断点的每个样本计数。c,卵巢腺癌的复杂(底部)和分类(顶部)结构变异断点的每个样本计数。

在简单的结构变异中,最常见的是缺失,其次是串联重复,然后是不平衡的易位。相互易位和相互倒置是不常见的事件(图2a)。在给定肿瘤类型中,不同类型的肿瘤以及不同患者之间的结构变异的总数和分布存在很大差异(扩展数据图1)。例如,食管腺癌的特征是许多缺失和大量复杂的簇状重排(图2b),而卵巢癌通常携带大量串联重复和/或缺失,并伴有中等数量的不平衡易位(图2c)。

模板化插入的周期

接下来,我们检查了包含2-10个结构变异的簇。一种新近确定的构型由拷贝数增加的多个片段组成,通常在不同的参考染色体上,这些片段通过结构变体链接在一起(图3,扩展数据,图2)。通过遵循断点连接可以形成通过连续段的顺序路径,这表明每个簇代表一串重复的模板,这些模板插入到单个派生染色体中,可能是同时获取的。尽管从理论上讲,此类簇中的结构变异可能不在相同的衍生染色体上定相,或不会同时发生,但出于某些原因,我们认为这不太可能。首先,我们发现了RNA转录物的例子,这些转录物将由结构变异簇中两个连接点分隔的外显子剪接在一起(补充图2),这表明它们是在相同的衍生染色体上定相的。二,长期读取的测序数据(在随附的第8条中报告)支持链接模板插入物的结构变体的定相。第三,我们发现,对于这些簇中的结构变异而言,肿瘤细胞的克隆级分倾向于比每个患者中随机选择的结构变异更为相似(补充图3),这表明它们在进化时期共存。第四,群集中各个片段的拷贝数增益水平趋于相同(图3,扩展数据,图2)。

图3:模板插入的链,循环和桥。
图3

ac是模板化插入的典型循环(a),链(b)和桥(c)的示例估计的拷贝数分布图如图1所示,结构变体显示为连接两个拷贝数段的虚线弧。可以解释拷贝数和结构变异概况的衍生染色体如下所示。de在两种肝细胞癌中影响TERT基因的模板化插入的周期KIAA1024也称为MINAR1

我们根据插入片段的字符串是否返回原始染色体来定义三个基本类别:我们将术语插入片段的字符串不返回模板化插入的“链”,将那些字符串返回“桥接”(即在宿主染色体上留下一个缺口)或“周期”(复制宿主染色体上的一个片段)。在整个PCAWG数据集中,我们观察到1,467个循环和1,275个模板插入的桥(图3a,b,图2扩展数据)。在模板化插入的链中,一连串的基因组片段不会返回出发染色体(图3c,扩展数据,图2)。),但它与每个模板化段的拷贝数增益类似。数据集中有285个这样的链实例,通常表现为通过一个或多个中间模板插入插入的不平衡易位。

大多数模板化插入事件仅涉及两个断点连接,但是这可以扩展到三个,四个或更多链接的重排(Extended Data图3a)。最长的此类事件-来自宫颈鳞状细胞癌-在第八个宿主染色体上串在一起有七个模板化插入(图3c;长模板化插入事件的其他示例在扩展数据图3中显示)。

影响TERT的模板化插入

结构变体通过改变基因拷贝数,破坏肿瘤抑制基因,创建融合基因或将一个基因的编码序列与另一个基因的调控装置并置,从而通过影响癌基因来驱动肿瘤的发展。我们发现许多肝癌的模板插入周期都会影响TERT(图3d,e,图4的扩展数据)。TERT启动子中的点突变存在于54%的肝癌中,另外5-10%的肝癌具有激活该基因的结构变异28在30例肝癌中,有影响TERT的结构变异,我们发现这些变体中有10个是模板化插入事件(主要是周期)。所有这些事件都复制了整个TERT基因,并将其与基因组其他地方的完整基因,基因片段或调控元件的重复相联系,并导致TERT的表达增加(Extended Data图4e)。因此,这种特殊的重排过程对于癌症复制和粘贴通常将其基因组中不同的功能元件结合在一起而没有整体不稳定的精确度而言是独特的。

肿瘤抑制基因也通过模板插入而失活(扩展数据图5)。例如,在许多直接删除中,RB1受到模板插入,带有删除的模板插入以及“局部n跳跃和局部远距离簇”中详细说明的链接的反向重复的一个实例的打击。这些事件通常会在RB1中产生内部外显子的重复和/或来自其他基因的外显子的插入,所有这些都可能导致了非功能性转录本。

局部n跳和局部远距离簇

数据集中许多2-10个结构变异的簇被限制在单个基因组区域。在包含两个局部重排的那些簇中,有一些具有简单的解释,例如嵌套或相邻的串联重复。但是,许多人没有简单的解释(图4a)。其中包括以前在种系结构变异体24中发现的 349个实例。由反向重排链接的两个重复的结构(531个实例);拷贝数丢失的结构以及通过反向重排链接的附近重复(472个实例)。所有这些模式都具有将断点定相为单个衍生染色体的解决方案(图4a)。),尽管理论上可以使用非分阶段的解决方案(如果不太可能)。除了两个重排(两次跳跃)的簇外,我们还发现了涉及局限于一个基因组区域的三个,四个或更多个重排的示例(图4b)。结构变体簇的所有这些配置都可以定相为单个衍生染色体,并具有紧密分组的断点。

图4:在人类癌症中见到的2–5重排簇的例子。
图4

a,由两个局部重排创建的结构,用简单的结构变量类(我们称为局部2跳)无法轻易解释。估计的拷贝数分布图如图1所示,结构变体显示为连接两个拷贝数段的虚线弧。衍生染色体的可能构型如下所示;每个示例可能有多种解决方案。重复,重复;invDup,通过反向重排链接的重复;trp,三重。b,由3–4个局部重排创建的结构,无法用简单的结构变量类别轻松解释。c,由一种局部重排和一种延伸至基因组其他位置(局部-远距簇)的重排创建的结构。

除了局限于单个基因组区域的簇,我们发现了2–10个结构变异的簇,这些簇将局部跳跃与重排相结合,并进入了基因组的一个或多个遥远区域(图4c)。)。这些事件的简单示例包括不平衡的移位或在断点处插入了局部衍生片段的大缺失,但也存在范围广泛的更复杂的模式。在某些情况下,插入片段的来源位于主要断裂的远端,并且结构变异可能是由于在修复(剪切和粘贴)过程中,在空间上与短DNA片段的捕获非常接近的同时发生了多个DNA断裂。 。在其他情况下,插入片段的起源在主要断裂附近,并且与拷贝数的增加有关。这种模式很难通过剪切和粘贴机制来解释,因为复制数量的增加意味着插入的片段是原始模板的重复,而不是从其原始位点重新分配的分离片段。代替,

通过远距离重排将局部足迹链接在一起的比较显示,具有相同或相似结构的足迹具有很强的连通性,经常比偶然地丰富十倍甚至更多(请参阅补充结果中的 “足迹连通性分析”   )。其原因尚不清楚,但它可能反映出通过生成或解决重排或通过赋予一致的结构基序的机制的重复作用而引入的固有结构对称性。

集群的复制和粘贴模式

的2-10群集结构变体(图的不同图案34)共享重要的形态学特征:(1)可分阶段进行,以一个单一的衍生染色体基因组的构型; (2)复制数量低水平的获得,尤其是重复和三份;(3)除非反相重排外,还存在高频率的反相重排;(4)在染色体背景上发生,其平均拷贝数与肿瘤总体相似;(5)断点在本地封装内的紧密距离(通常小于1 Mb)。

使用我们的基因组配置计算机模拟文库,我们可以定义所有可能的途径,通过这些途径,顺序结构变体可以通过经典定义的删除,串联重复,倒位和易位库生成这些结构(补充图4)。这些路线通常将需要令人难以置信的染色体机械加工(补充结果)。特别是,使用连续的简单重排很难重建倒转断点连接和局部拷贝数增益的高流行性。简单的倒位事件在癌症中并不常见(图1d),它们通常不会产生拷贝数增加,除非通过断裂-融合-桥环循环:后者也会导致末端缺失2,在此处讨论的事件中看不到。

如果不能通过顺序简单的重排令人满意地解释这些事件,则另一种可能的解释是复杂的剪切和粘贴机制,例如染色菌病,染色体异常或反复的断裂-融合-桥循环。但是,2-10个簇结构变体的模式也不适合这些过程(补充结果)。虽然随着拷贝数增益chromothripsis先前已经描述3111922,所得到的拷贝数和重排模式具有不同的特性的那些,我们观察到。Chromoplexy,其中染色体断裂导致平衡互换在多个断点路口520,通常会生成不分阶段的解决方案。重复断裂融合桥循环往往会引起倒置相关的高层次的拷贝数增益,折回重排12,不同的是结构这里报告。

取而代之的是,我们相信许多具有低拷贝数增益的结构变体的这些局部复杂簇是通过复制和粘贴过程在单个事件中生成的。也就是说,在这些情况下,基因组模板的复制是结构变异过程的一个固有方面,多余的副本将插入到所得的衍生染色体中。如果基因组模板全部是本地产生的,我们将观察到局部的n跃点(如图3a,b所示),其中包含断裂点,相控解决方案,频繁的拷贝数增益以及反向和非反向断点连接的混合。如果复制片段的原始模板来自整个基因组,则会出现模板插入的链,环和桥(图2)。)。

结构变异的基因组特性

串联重复和缺失的大小遵循不同肿瘤类型之间的复杂分布(通常是多峰分布)(图5a,扩展数据,图6a)。然而,如先前报道629,个别病人往往有更简单的,通常缺失或串联重复(扩展数据图的单峰分布图6B),这意味着从样品与结合在给定肿瘤类型结果所见复杂不同的配置文件。模板化插入事件中单个片段的大小也明显是多峰的,在不同肿瘤类型中峰高不同(图5b))。在给定事件中关联模板大小时,出现了两种模式:一种模式中的模板大小彼此紧密相关,另一种模式中的小(<1 kb)模板与任意大小的模板相关联(扩展数据,图7a)。 ,b)。同样,给定的局部两次跳跃事件中的片段大小彼此之间显示出中等程度的强相关性(Extended Data图7c)。

图5:分类的结构变体的大小分布和基因组特性。
图5

a,每个组织学组的缺失大小分布,肿瘤类型根据所见事件的总数排序。垂直虚线代表两个突出模式。b,每个组织学组模板化插入片段的大小分布。对于每种肿瘤类型,模板化插入的周期,桥和链的三个分布是叠加的。插入,插入。C,是基因组属性的一个子集(行)与结构变体类别(列)之间的关联。每个密度曲线代表与随机基因组位置相比在观察到的断点处的基因组特性值的分位数分布。星号表示在单侧Kolmogorov–Smirnov检验的多假设校正后,基于包含结构变异的2,559个基因组的样本量,对均分位数有显着偏离:*错误发现率<0.01,**错误发现率<0.001, ***误发现率<10 -6具有显着属性关联的单元格被观察到的中位数的分位数在(蓝色)或低于(红色)0.5以上的移动幅度所遮盖。每个属性从左到右的解释由属性标签右侧的轴指示。复杂uncl,复杂簇未分类;cplxy,发色;del,删除;inv,反转;ins,插入;LAD,与薄片相关的域;回报,互惠;TAD,拓扑关联的域;TD,串联重复;易位 不平衡,不平衡。d,重排作为连接微同源性基础的函数,适合与不同形成机制一致的三个线性函数。NHEJ,非同源末端连接;MMEJ,微同源性介导的末端连接;SSA,单链退火。Ë,与保留了断点位置但交换断点伙伴的置换背景相比,具有特定注释的基因组区域之间的断点连接富集或耗尽。中心点是排列背景的平均倍数变化;误差棒代表三个标准差。分析基于包含结构变异的2559个基因组的样本量。LTR,长终端重复;SINE,短散布的核元素;线,长散布的核元素;异染色质,异染色质。

许多基因组属性(如复制定时,转录活性和染色质状态)的影响的点突变的密度3031和拷贝数改变32,但是这如何与各个类结构变体还不清楚。从文献中,我们编译了38个特征在全基因组范围内分布的库,包括复制时机,GC含量,重复密度,基因密度以及与G-四链体基序的距离等。复制时间与结构变异的发生最密切相关。缺失在晚期复制区富集,串联复制和不平衡易位优先发生在早期复制区(图5c),扩展数据图8)。对于具有大量缺失或串联重复的个体患者,我们观察到根据复制时机这些结构变异的分布存在显着的异质性:一些事件主要发生在复制后期区域,另一些事件仅发生在复制初期。区域,在其他情况下,分布更均匀(补充图5)。活性染色质区域和增加的基因密度与重排率呈正相关。

一个结构变异体需要DNA修复途径将两个序列连接在一起,并且多种修复机制可用于体细胞。一些需要两端之间的序列同源性,而另一些可以操作以连接非同源序列。据此前报道22533,我们在整个PCAWG数据,许多结构变异不具备断点处结(图序列同源性发现。5D),因此是通过非同源末端连接产生的。尽管如此,相当一部分结构变体具有比偶然预期更多的微同源性,并且具有明显的双同源性长度的双峰分布。一组结构变体具有2–7 bp的微同源性,可能是通过微同源性介导的末端连接产生的,而第二组结构变体具有10–30 bp的微同源性,可能是通过单链退火或其他形式的同源重组产生的(包括微同源性介导的断裂诱导的复制)。基因组中的重复序列,例如短而长的散布的核元件,可能是此类结构变异的底物,我们发现连接此类元素的结构变异的富集(图5e,补充图。6)。

结构变化的特征

跨癌症的点突变的异质谱可以通过相对有限的突变过程库的差异作用来重建,每个突变过程都具有特征性特征34患者在串联重复和缺失的大小分布上的差异,以及肿瘤类型和基因组拓扑结构中结构变异的频率和模式的广泛差异,建议我们可以类似地了解各个结构变异类别之间的这种相关性。

我们将每个患者的结构变异集分为互斥类别。我们根据大小,复制时机和易碎站点的发生情况,将最常见的简单结构变体类别(缺失和串联重复)分为11类。队列中其他结构变异和拷贝数变化超过50倍的其他配置也包括在其他类别中,包括模板插入的循环,链和桥(也按大小划分),局部n跳和局部远距离簇。

我们将两种方法应用于签名发现,它们产生了可比的结果。我们确定了16个结构变量签名:这些签名中12个最普遍的签名如图6a所示随机分成两半的队列中的签名提取识别出十个高度相关的签名(补充图7)),尽管其功能较低,但与整个队列中的签名紧密匹配。出现了三个删除特征,按大小划分:小(<50-kb)删除的签名包括小的倒序,大(> 500-kb)删除的签名包括大的倒序。这意味着删除和倒转的频率在整个队列中是相关的,并且在单个患者中都遵循相似的大小分布。

图6:人类癌症中的结构变异特征。
图6

a,由贝叶斯分级Dirichlet过程算法提取的12个最独特的结构变异特征,在包含结构变异的2559个基因组的样本量上运行。在此,条形的长度代表分配给每个签名的每个事件类别的估计比例(行总和为1);黑色线段表示马尔可夫链中杆长度的95%后部间隔。FB,折返;中,中型。b,具有结构变异特征的关键DNA修复基因中的致病突变(生殖系和体细胞组合)的关联。的谁在所评估的特定基因致病突变的患者样本大小显示在括号中的每个基因标签(后ÿ 轴)。从组织学校正后的特征强度线性模型中得出每个基因的假设检验和效应大小。显示了双向检验与多项假设检验的校正之间的显着关联。点的颜色和大小代表估计的效果大小。MSH是指错配修复途径中的MSH2MSH3MSH4MSH6基因。FANC是指与范可尼贫血相关的基因,即FANCAFANCCFANCD2FANCEFANCFFANCGFANCIFANCLFANCM

我们确定了串联重复的五个特征,按大小和复制时间划分。模板插入的循环,桥和链在早期复制串联重复的特征中特别突出,而局部两跳结构与晚期复制串联重复的关系更紧密。所有这些模式都体现了复制和粘贴的概念,其中产生了额外的基因组模板副本,并将其插入作为结构变异过程的一个整体特征。

另一个特征是在染色体易碎位点35缺失和串联重复串联重复在脆弱部位的边缘更为明显,而缺失则集中在中央(扩展数据图9a,b)。易碎位点缺失的大小范围在约100 kb处达到峰值,与较大的删除特征相似,而罕见的易碎位点串联重复显示没有明显的峰大小(扩展数据图9c)。脆性位点在各种肿瘤类型中差异很大(扩展数据图9d)。

不平衡易位包含其自身的特征,这表明它们源自癌症基因组中独特的重排过程。进一步的特征既包括作为折断-融合-桥循环标志的折返反转,又包括类似的结构,例如与折返反转相邻的易位。最后,有一个平衡的重排标志,包括相互易位和染色体丛5此特征可能来自几个双链DNA断裂(可能发生在相间),其中断裂的两侧通过与基因组的其他同时断裂区域连接而被错误地修复。

DNA修复基因和肿瘤类型

我们对整个队列8的 DNA修复基因中的病原种系变体和体细胞驱动程序突变的注释进行了分组,将它们的存在与结构变异特征的活性相关联(图6b)。如先前针对乳腺癌和卵巢癌中描述629BRCA1突变显著小串联重复的签名相关联,则机械基础其中日益很好理解10如前所述636CDK12中型到大型串联重复的变体预测签名。BRCA2如先前工作[ 29]所预期的,这些变体与小缺失相关,并且还与包括染色体复合体的相互的结构变异特征相关。PALB2变体与小缺失和相互结构变体的特征显示出与BRCA2相同的相关性:PALB2在同源重组过程中与BRCA2共定位,稳定并协助BRCA2 37,因此我们可能已经预测到,任一基因的失活都会导致相似的结构变体签名。在许多类型的肿瘤中,驱动突变和结构变异特征之间的这些联系始终是显而易见的(扩展数据图10)。

结构变异特征在不同肿瘤类型之间以及在给定肿瘤类型内的患者之间表现出相当大的异质性(补充图8)。胃肠道肿瘤(包括结直肠癌和食道腺癌)显示出较高的脆弱部位特征。前列腺癌是显着的chromoplexy签名的盛行,如先前报道520,和肺的鳞状细胞癌的特点是以折回反转签名。

我们评估了结构变异的类别如何改变已知的癌症基因(补充表1)。一些癌症基因只有通过特定的结构事件才能获得致癌潜力,例如融合基因或增强子劫持。毫不奇怪,这些基因通常显示出极小的变异性,在这种变异中,各种类型的结构变异都可能产生此类事件(Extended Data图11a–c)—尽管有例外。例如,前列腺癌TMPRSS2-ERG融合基因是由一系列过程产生的(包括简单的缺失,染色体异常和染色体剥脱),所有这些都是该肿瘤类型的普遍特征(扩展数据图11d-f)。

肿瘤抑制基因和反复扩增的基因在观察到结构变异类型时表现出更大的变异性,这些变异是由在相关肿瘤类型中活跃的特征形成的。例如,在乳腺癌和卵巢癌中通常被灭活的肿瘤抑制基因PTENRAD51B经常被串联复制作为靶标,从而产生框外外显子复制(扩展数据图12a,b)。相反,缺失是使SMAD4CDKN2A失活的主要事件,与它们在胃肠道癌症中的流行保持一致(扩展数据图12c,d)。我的C,是所有类型癌症中最普遍扩增的基因之一,在其重排机制中显示出相当大的多样性:乳腺癌中的巢状串联重复,淋巴瘤中IGH的易位或染色体异常,以及染色体脱位,模板化插入的循环,局部其他类型肿瘤中的n跃点和局部远距簇(扩展数据图13)。

讨论区

我们已经描述了一大批经过统一分析的癌症基因组的结构变异的模式和特征。从我们的研究中得出的结构变体中的一大类模式是在重排过程中插入了额外的基因组模板副本。这包括简单事件(例如串联重复),以及一系列更复杂的事件,这些事件具有在本地重新排列并远距离插入的重复和三重复。我们的签名分析将这些复杂事件中的很大一部分与串联重复进行了分组,这表明它们代表了共享基本属性的过程的连续体。基于复制的机制之前已经提出来解释当地的两跳423参见图 24,其中停滞的复制叉或其他DNA损伤导致DNA聚合酶转换模板并在新位置继续复制。现在在实验模型中的研究表明,广泛的机制和DNA损伤均可导致模板化插入:这些机制包括 BRCA1缺乏症中的串联重复 10,由失调的链侵袭引起的模板化插入易位 38缺乏DNA的情况下的远距离模板化插入。复制解旋酶 39

癌症的基因组不稳定性不是一个单一现象。取而代之的是,许多不同的突变过程可以起到重组基因组的作用,并在此过程中产生可能结构的明显灵活的阵列。任何给定的肿瘤都会利用可用过程的一个子集,该过程受起源细胞,种系易感性及其他未知因素的影响:选择然后进行其余的研究,促进克隆出可能具有增加自身自我潜力的结构判定。

方法

没有使用统计方法来确定样本量。实验不是随机的,研究人员在实验和结果评估过程中也不会盲目分配。

补充信息中详细描述了本文使用的方法和许多其他结果   在这里,我们总结了分析的关键方面。

生成结构变量调用集

本文中使用的最终结构变体集由PCAWG联合会的技术工作组生成,并在PCAWG的主要论文8中进行了描述简而言之,使用四个变体调用者从匹配的肿瘤和种系全基因组测序数据中识别出体细胞获得的结构变体:SvABA(广泛的管道),DELLY(DKFZ的管道),BRAS(Sanger的管道)和dRanger(广泛的管道)。使用基于图的算法将这些合并到最终调用集中,以识别算法之间重叠的断点连接。对结构变体调用的详细视觉检查表明,接受四种算法中的两个或多个算法进行的所有结构变体调用的简单方法可以在敏感性和特异性之间取得最佳平衡。

结构变量聚类和注释

为了识别结构变体的簇,我们开发了一种将结构变体分组为簇和足迹的方法,从而可以系统地进行结构和机理推断。并行地,我们处理了体细胞拷贝数数据,并将其与结构变异结点合并,从而使我们能够从生成的结构变异簇和足迹产生重排模式。我们生成了结构变异聚类模式的归一化表示,这使我们能够将不同聚类和足迹模式的数量制成表格并分析其特征。最后,我们对经常观察到的簇和足迹模式进行了人工和模拟辅助的解释。下面概述了结构变量分类管道的各个步骤,并在随后的小节中进行了详细介绍:(1)从剪切的读数中计算确切的断点坐标;(2)删除多余的“旁路”结构变体;(3)将重排断点与拷贝数数据合并以产生结构变量断点标定的,归一化的绝对拷贝数数据;(4)将各个结构变体聚类为结构变体聚类和足迹;(5)启发式地细化结构变量簇和足迹;(6)过滤支撑不充分的人为折返型结构变体;(7)确定平衡的重叠断点(此步骤是将非常短的模板插入与相互重叠的平衡断点区分开);

基因组中结构变异的分布

我们将hg19人类参考基因组(常染色体和X染色体)划分为1 kb的3,036,315个像素,并计算了每个像素的一套指标,以总结与重排分布潜在相关的各种基因组特性,如补充信息中所列。 根据PCAWG数据,将属性与癌症样本的来源组织尽可能匹配。所有其他基因组特性在所有组织中均保持固定。为了测试结构变异事件类别与基因组特性库之间的关联,比较了基因组特性指标(在真实的结构变异位置(随机选择每个断点连接的一侧以减少观察结果之间的依赖性))和一百万个均匀随机位置之间的关系。来自可调用的基因组空间。为了比较组织的特定属性,从结构变异调用集中观察到的组织类型分布中,为每个随机位置分配了一个随机组织类型。对于每个基因组属性和每个事件类别,将真实观察结果汇总在随机观察结果中,然后进行等级转换并在0到1的范围内进行归一化。在没有事件与属性的关联的零假设下,真实观测值的等级将遵循均匀分布。我们使用Kolmogorov-Smirnov检验对每种情况进行了测试,然后在整个测试套件中对错误发现率应用了Benjamini-Yekutieli校正,并将显着性报告的阈值设置为0.01。

结构变异特征分析

我们使用两种算法来提取结构变量签名。两者都使用相同的输入文件,包括每位患者(跨所有患者)的结构变异簇计数矩阵,这些矩阵属于许多互斥类别。这些类别包括结构变体的主要类别,更常见的事件(删除,串联重复和倒位)按大小和/或复制时间划分。用于提取签名的两种算法是(1)分级Dirichlet过程和(2)非负矩阵分解。有关这些算法实施的更多详细信息,请参见   补充信息

报告摘要

有关研究设计的更多信息,请参见与本文链接的《   自然研究报告摘要》

资料可用性

ICGC / TCGA PCAWG联盟生成的体细胞和种系变异调用,突变签名,亚克隆重建,转录本丰度,剪接调用和其他核心数据在随附的第8条中进行了描述,可从https://dcc.icgc下载。 org / releases / PCAWG有关访问数据(包括原始读取文件)的其他信息,请访问https://docs.icgc.org/pcawg/data/根据ICGC和TCGA项目的数据访问政策,大多数分子,临床和标本数据处于开放层,不需要访问批准。为了访问可能识别参与者的信息,例如种系等位基因和潜在的测序数据,研究人员将需要通过dbGaP向https://dbgap.ncbi.nlm.nih.gov/aa/wga申请TCGA数据访问委员会。.cgi?page = login)以访问数据集的TCGA部分,并访问ICGC数据访问合规办公室(http://icgc.org/daco)以访问数据集的ICGC部分。此外,要访问源自TCGA供体的体细胞单核苷酸变体,研究人员还需要获得dbGaP授权。




武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297