您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!
本企业通过iso9001质量体系认证

癌症中RNA改变的基因组基础

 二维码
发表时间:2020-02-08 14:07作者:武汉新启迪Xinqidibio来源:www.qidibio.com

癌症中RNA改变的基因组基础

摘要

转录物变化通常是由癌症基因组的体细胞变化引起的1已经描述了癌症中各种形式的RNA改变,包括过表达2,改变的剪接3和基因融合4。; 然而,由于患者和肿瘤类型之间的异质性以及通过转录组和全基因组测序对其样品进行了分析的相对较小的队列研究,很难将这些归因于潜在的基因组变化。根据我们的知识,在这里,我们介绍了迄今为止最全面的癌症相关基因改变的目录,该目录是通过表征国际癌症基因组协会(ICGC)的全基因组全癌分析(PCAWG)协会的1,188个供体的肿瘤转录组而获得的)和《癌症基因组图谱(TCGA)5使用匹配的全基因组测序数据,我们将几类RNA改变与种系和体细胞DNA改变相关联,并确定了可能的遗传机制。体细胞拷贝数变化是总基因和等位基因特异性表达变化的主要驱动力。我们确定了649个体细胞单核苷酸变异体与顺式基因表达的关联,其中68.4%涉及与该基因的侧翼非编码区的关联。我们发现1,900个与体细胞突变相关的剪接改变,包括在Alu元件附近的内含子内形成外显子。此外,82%的基因融合与结构变异有关,包括75种新的称为“桥接”融合的融合,其中第三个基因组位置桥接了两个基因。我们观察到转录组改变特征在癌症类型之间是不同的,并且与DNA突变特征的变化相关。在基因组背景下,这种RNA改变纲要为鉴定与癌症功能相关的基因和机制提供了丰富的资源。

主要

为了更广泛地研究癌症基因组的变化,特别是在非编码区域,成立了PCAWG项目,以分析为ICGC和TCGA项目做出贡献的大量全基因组样本5各个项目的关键分析没有使用相同的方法。因此,16个PCAWG工作组的每个工作重点都是对PCAWG数据进行统一分析。例如,PCAWG技术工作组领导了原始数据的收集,全基因组测序数据的重新排列并实施了核心的体细胞突变调用流程5其他PCAWG工作组侧重于拷贝数变异的统一分析6,结构变体78,种系的变体5,突变签名9   和驱动基因8的鉴定5在这里,我们报告了PCAWG转录组工作组5对来自27种肿瘤类型的1,188个样品的可用匹配转录组和基因组谱进行联合分析的结果,据我们所知,这是迄今为止最大的RNA表型资源及其潜在癌症遗传变化的资源(扩展数据图1,方法,补充结果,补充表23)。我们证明了转录组学数据在理解特定DNA改变的不同维度如何致癌作用中的重要性,并绘制出与癌症相关的RNA改变的图景。

癌症特异性种系顺式 -eQTL

为了研究不同类型的RNA改变的潜在机制,我们首先关注基因表达水平的变化(Extended Data图2)。我们最初考虑了靠近各个基因(±100 kb)的常见种系变异(次要等位基因频率≥1%),并在整个队列中绘制了表达定量性状基因座(eQTL)(扩展数据图3,补充表1)。该泛癌分析鉴定了3,532个基因,其eQTL(错误发现率(FDR)≤5%,以下称为eGenes)(补充表2),富含转录起始位点(TSS)的近端区域(扩展数据图3)。 。

为了鉴定癌症特异性调控变体,我们比较我们eQTLs从基因型与组织中的表达(GTEx)项目eQTLs 10,采用先前的策略,以评估eQTL复制11,并且探测在GTEx组织(边际意义铅eQTL变种P   0.01≤ ,Bonferroni调整)。尽管可以在GTEx样本中检测到大多数先导变体(3,532个eQTL变体中的3,110个),但我们鉴定出422个不与GTEx组织相对应的eQTL,这提示了癌症的特异性调控(扩展数据图4补充表3)。相应的eQTL前导变异体丰富了异色区域(图1a)。)。总体而言,该分析表明,基因表达调控的种系框架在癌症组织中基本上是保守的。

图1:与表达相关的胚系和体细胞SNV。
图1

a,表观遗传学路线图富集分析,显示了泛分析中PCAWG特定eQTL中各个细胞系中路线图因子的平均倍数变化,以及在GTEx组织中复制的eQTL。* P   <0.05 / 25,针对PCAWG特定eQTL的单侧Wilcoxon秩和检验,已针对所使用的路线图因素数进行了校正(即25)。数据为均数和标准差sd b,用于基因表达水平的方差分析,显示由不同种系和体细胞因子解释的不同基因集的方差的平均比例,包括所有因素的平均影响:(1)所有遗传因素(种系和体细胞);(2)SCNA;(3)侧翼区域的体细胞变异;(四)人口结构;(5)顺式-胚芽效应;(6)体细胞内含子和外显子突变效应。c,曼哈顿图,显示了考虑到侧翼,内含子和外显子的时间间隔TEKT5的标称P(以灰色突出显示)。领先的体细胞负担与TEKT5表达增加相关P   = 1.61×10 -6),并且与上游的二价启动子重叠(红色点;在81个路线图细胞系中标注,包括8个胚胎干细胞,9个胚胎干细胞来源)和5条诱导性多能干细胞系)。d,突变特征(Sig)与基因表达之间重要关联的摘要。顶部,每个签名的相关基因总数(FDR≤10%)。与每个特征相关的基因的底部,富集的GO类别或Reactome途径(FDR≤10%,显着性水平用颜色编码,-log 10-转换后的调整P值)。e,仅考虑SCNA,种系eQTL,编码和非编码突变对AEI存在的标准化效应大小。数据是效应大小估计的估计值和标准误差。

非编码区的体细胞顺式 -eQTL

以前的研究已经描述了非编码突变的景观中癌症1,特别是在启动子区,以及它们的调节作用于基因表达的1213在这里,我们研究了整个基因组中可能的体细胞DNA变化,这些变化是基因表达改变的基础。我们通过在相邻的基因(侧翼)2-kb的间隔聚集单核苷酸变体(个SNV),以及外显子和内含子(扩展数据图估计的局部突变负担256)。接下来,我们分解个别基因的表达变化,考虑到常见的突变负担,以及种系变体和体细胞拷贝数改变(SCNA)。这确定了SCNA是表达变异的主要驱动力(17%),其次是基因侧翼区域的体细胞SNV(1.8%)和种系变异(1.3%)(图1b)。

我们还测试了整个基因组中所有常见突变负担与基因表达之间的关联。我们鉴定了649个具有体细胞eQTL(FDR≤5%)的基因(补充表5)。这些中,11个协会分别位于内含子或相应eGene的外显子,其中包括基因在特定癌症的发病机理已知的作用,如CDK12在卵巢癌14IRF4在慢性淋巴细胞性白血病15(扩展数据图7,   8) 。大多数eQTL(68.4%)涉及侧翼的非编码突变负担(扩展数据,图6e)。接下来,我们考虑了侧翼地区的eQTL(n = 556),并通过表观遗传学路线图16进行了细胞类型特定注释的丰富化测试这确定了13种富集注释(FDR≤10%)(扩展数据图9,补充表6),包括平衡的启动子,弱而活跃的增强子和异染色质,但值得注意的是没有转录因子结合位点的富集(补充表7))。转录无活性区域的这种富集可能是由于这些区域中突变率的提高(扩展数据图9),这在癌症17中已有报道

我们还研究了体细胞eGenes的功能特性,并观察到诸如睾丸TEKT5)18   等癌症睾丸基因的二价启动子中体细胞eQTL的富集(P = 0.04,Fisher精确检验)(图1c,扩展数据图8h)。此外,我们发现与细胞分化和发育过程有关的基因本体论(GO)类别的全球富集(FDR≤10%)(补充表8)。总体而言,体细胞eQTL分析确定了大多数与局部基因表达变化相关的非编码区,并且与癌症特异性种系eQTL相似,显示出富含转录活性的区域(如异染色质)的富集。

表达和突变特征

突变模式的全球变化可以使用突变签名来量化,该标签标记了特定于其起源组织和环境暴露的突变过程19但是,突变签名的提取是一个固有的统计过程,需要后验功能注释。我们进行了全基因组突变特征和基因表达水平之间的全癌关联分析,以破译伴随突变特征的存在的分子过程。

我们考虑了使用特定上下文的突变频率9的非负矩阵分解得出的28个突变特征我们测试了供体中的标志性患病率与总基因表达之间的关联,说明了总突变负担,癌症类型以及其他技术和生物学混杂因素。这鉴定出与至少一个特征(FDR≤10%)相关的1,176个基因(扩展数据图10,补充表19)。

我们考虑了18个具有20个或更多相关基因的特征以作进一步注释(扩展数据图11),并使用GO类20和Reactome途径21评估了富集我们发现至少有一个类别(FDR≤10%)丰富了11个特征(补充表19),揭示了与已知病因和未知病因相一致的关联(图1d)。例如,与经典紫外线特征7相关的特征38(r 2   = 0.375,P   = 5×10 -40)(扩展数据图11c)与黑色素过程相关(图1d)。)。黑色素的合成引起对黑素细胞22的氧化应激,我们发现与氧化应激促进基因TYR 23相关的签名38 P   = 1.0×10 -4)。签名38基因的标志是C> A突变,这是活性氧24的典型产物这表明签名38可以捕获DNA损伤,该DNA损伤是在直接日晒25之后由UV诱导的氧化损伤间接引起的,其中TYR可能是这种作用的介质。

等位基因表达的基因组基础

为了分析单个单倍型水平的表达,我们测试了等位基因表达失衡(AEI)(FDR≤5%,二项式检验)。我们观察到在基因的分数显着差异与AEI不同类型的癌症之间(扩展数据图12),以及癌症和相应的健康组织,与等位基因失衡之间的高观察到的一致性在DNA和RNA水平之间(扩展数据图13)。

我们使用logistic回归模型来确定AEI的决定因素,考虑已知的印迹状态26,种系eQTL基因型,SCNA和近端体细胞SNV的加权突变负担(分为功能类别)(扩展数据,图2)。总体而言,SCNA占解释的变异总数的84.3%,这证实了我们从体细胞eQTL分析中得到的发现,其次是种系eQTL前导变异体(9.1%),体细胞SNV(4.9%)和印迹状态(1.7%)(已扩展)数据图14)。尽管累积地,非编码变体比编码变体更相关,体细胞截短变体(“停止获得”变体)触发了无义介导的衰变27是最具预测性的个人。剪接区,5'非翻译区(UTR)和启动子中的SNV也与AEI的存在密切相关,并且我们观察到了变体的相关性随着与TSS距离的增加而降低的全球趋势(图1e,扩展数据图。14)。

AEI以基因为中心的归因于个体遗传变异的来源(补充表9)显示,体细胞诱导的AEI在一些已知的癌症驱动基因以及新的候选中有所丰富,例如与错配修复相关的基因EXO1与大肠腺癌的生存相关(对数秩P   = 0.022,危险比= 0.57)(补充结果)。我们进一步观察到基于躯体个SNV在AEI得分的癌症的强烈富集睾丸基因只(χ 2检验P   = 6×10 -3)。总而言之,我们确定了与各种癌症类型的基因的等位基因特异性失调相关的体细胞和种系遗传变异。

与启动子使用相关的突变

我们认为启动子活性282930作为另一个分子表型研究启动子突变的影响。尽管先前已经显示了癌症特异性替代启动子的使用28,但尚未广泛探讨潜在的基因组改变与启动子活性的关系。为了估计单个基因启动子的活性,我们结合了在相同或附近的TSS中启动的同工型的表达,假设它们是从同一启动子转录而来(扩展数据图15a–c)。我们将启动子分为三类:(1)无活性的启动子(每百万个碱基对的图谱读取(FPKM)活性<1个片段/千碱基的片段),(2)主要的启动子(每个基因的活性最高)和(3)次要的启动子(所有剩余的)启动子,并检查了不同活动水平下的突变率。我们观察到与小启动子或无活性启动子相比,主要启动子在TSS附近的突变数量增加了(扩展数据图15d)。这种模式在皮肤黑色素瘤中最为突出,这归因于核苷酸切除修复的受损(扩展数据图15e,f,k,l)。表现出与这种模式最强偏离的癌症类型是结直肠腺癌,这突出了启动子处突变模式的组织特异性(扩展数据图15e,f,m,n)。在每个肿瘤类型中,在启动子上游200 bp的窗口中,只有171个启动子显示出超过5个样本的突变(扩展数据图15g,h)。大多数突变发生在皮肤黑素瘤和淋巴瘤中,这是由于核苷酸切除修复和激活诱导的胞苷脱氨酶减少所致(预计数据图15h)。我们在启动子突变负担和启动子活性之间没有发现显着的泛癌相关性(Extended Data图15i,j)。但是,TERT具有启动子突变的最高编号1531(扩展数据图16A),并且这些突变先前已报道与相关联TERT表达1 ; 因此,我们更详细地研究了TERT基因座(扩展数据图16b)。尽管TERT在泛癌分析中未显示出显着的关联,但我们发现在单个类型的癌症1中启动子活性的增加与关联(扩展数据图16c)。

与剪接相关的突变

扩展癌症的经典特征,替代剪接被认为与解释癌症异质性越来越相关32根据我们对全球变化的剪接景观的观察(扩展数据图17a–c),我们试图具体了解内含子中剪接变化与体细胞突变之间的关系。着眼于盒式外显子事件,我们将剪接事件的定量与体细胞变异整合在一起,并在外显子-内含子边界附近鉴定了5,282个突变,其中1,800(34%)个与剪接变化有关(| z -score |≥3)(补充表10)。使用外显子测序以前的研究结果相一致3334,大多数与受体或供体位点的必不可少的二核苷酸基序重叠的突变均与剪接变化相关,分别为61%或57%(图2a)。在5'位点下游的5个核苷酸窗口中,近三分之一的所有突变(469个突变中的226个)显着富集了剪接变化(图2a)。与体细胞突变显着相关的几乎所有变化都对剪接产生负面影响(96%)(扩展数据图17d)。对于聚嘧啶区中或附近的突变,我们发现 与异常剪接相关的突变有明显的富集(置换试验,P <0.05)(图2a)。我们还发现了一种浓缩(P <0.05,倍数变化> 2)在分支位点腺苷处的异常值(图2a中间,扩展数据图17d,补充表11)。总之,这些结果表明,延伸的剪接位点区域,聚嘧啶束和分支点中的体细胞突变会影响剪接。

图2:体细胞突变对选择性剪接的位置特异性作用。
图2

a,顶部,与外显子跳跃事件相关的外显子-内含子连接点附近和分支部位的突变比例。带有相关剪接变化的突变是那些剪接自来 z-分数| ≥3(深蓝色)。星号表示基于置换测试,相对于背景剪接变化而言显着富集的内含子位置。* P   <0.05,** P   <0.01,*** P   <0.001。底部,区域的序列主题。b,抑癌基因STK11中的外显子事件的例子对于带有替代等位基因的供体,该基因一部分的RNA-seq读数覆盖率显示为红色,对于具有参考等位基因的随机供体,显示为灰色。卡带外显子事件如下图所示。c,与序列背景(BG)相比,SAV中SINE元素的富集。针对在正(中)和反义(右)方向上重叠的SINE元素显示。

我们还使用SAVNet方法35(扩展数据图17e;请参见“方法”中的“数据可用性” )识别出1900个罕见的剪接相关变体(SAV),这些变体仅出现在少量样品中值得注意的是,有862个SAV影响了规范的剪接位点,而其他1,038个SAV破坏了非规范的剪接位点或创建了新的剪接位点。值得注意的是,我们在SAV中发现了癌症基因的双重富集(扩展数据图17f)。

尽管我们发现那些产生剪接位点的SAV强烈集中在外显子-内含子边界附近(扩展数据,图17g),但45.9%的SAV距最近的带注释的外显子相距100 bp。这些位点处的突变通常将序列朝着供体或受体基序共有改变(扩展数据图17h)。着眼于内含子深处的新型剪接位点,我们分析了外显子化的程度,即内含子中新外显子的形成(扩展数据图17j,补充表13、14)。这些新外显子的五分之一以上(43个中的9个)发生在与癌症相关的基因中,例如著名的肿瘤抑制基因STK11正如所料,exonization事件将导致移码STK11(图2b中,扩展数据图17K)。

沿反义方向插入的Alu元件具有类似于共有剪接位点的序列,其与激活性突变一起可以导致新外显子36的形成(Extended Data图17l)。我们发现,在带注释的Alu序列(P   = 2.8×10 -9)内,特别是在反义方向(P   = 2.6×10 -15),显着富集了剪接位点产生的SAV (图2c)。我们的结果表明,在灵长类动物基因组进化的背景下,对Alu序列的外显子化也进行了广泛研究,在癌症基因组进化中也可以观察到。

跨癌症的基因融合模式

基因融合是一类重要的癌症驾驶事件,具有治疗和诊断价值[ 37]我们通过组合的两个融合发现方法的输出以及基因组重排(的结构变体)的信息和非癌症样品中不包括伪像或融合总共925已知的和2372新的癌症特异性基因融合标识38(图3A) 。对于代表3297种独特基因融合的3540种融合事件,我们根据新颖性,复发性和已知致癌基因伴侣将它们分类(图3a)。

图3:与RNA融合相关的结构重排。
图3

a,所有检测到的和新融合的数目及其与癌症普查基因的重叠。b,桥接融合示例的示意图。桥接融合是由桥接两个基因的第三基因组片段形成的那些复合融合。在每种情况下,仅描述了基因组排列的可能顺序之一,其中的断点突出显示为雷电。

在超过一个样本中仅发生149次融合(约5%),其中78项是新颖的。其中大多数(78种中的46种)发现于几种组织型中。在27个最常见的基因融合体中(扩展数据图18a),先前已报道8个(例如CCDC6-RET 39FGFR3-TACC3 40PTPRK-RSPO3)或在TCGA队列41中独立检测到,而6个是新的(例如NUMB-HEATR4ESR1-AKAP12TRAF3IP2-FYN)。总共有105个融合转录物涉及一个基因的UTR区和另一个基因的完整编码序列,这可能是由于启动子区的结构变异所致。

尽管大多数参与融合的基因仅与一个融合伴侣结合,但35个基因具有超过5个伴侣。这些“混杂”基因在具有保守的断裂点和位置(3'或5')的5'或3'伴侣中趋于选择性,并且在癌症普查基因和PCAWG癌症驱动基因中过度表达(一个尾的Fisher精确检验,比值比= 8.66,P   ≤1.1×10 -15,和比值比= 12.27,P   ≤2.2×10 -16,分别地)。对混杂基因及其伴侣的网络分析表明,含有至少10个基因的几个大型基因簇(扩展数据图18b)富含癌症相关途径(Benjamini-Hochberg校正了P ≤0.01),在蛋白质-蛋白质相互作用(P   ≤1.0×10 -7),这表明在癌症的可能的功能性作用。

值得注意的是,包括已知融合在内的大量融合不能仅与单个结构变异事件相关。例如,ETV6-NTRK3基因融合体42存在于头颈部甲状腺癌样本中,将ETV6的外显子4 NTRK3的外显子12 连接起来我们在同一样本中发现了三个独立的结构变异:(1)ETV6易位至6号染色体;(2)NTRK3易位至6号染色体。(3)从ETV6的内含子5 到确切的结构变异断点的额外拷贝数损失,共同使ETV6处于NTRK3上游45 kb之内-一个距离,该距离将允许转录通读43或剪接44产生ETV6-NTRK3融合体45(图3b)。因此,短的第6号染色体片段似乎起着桥梁的作用,将两个基因组位置连接在一起以促进基因融合。我们将此类产品称为“桥接融合”。这类融合并不罕见。在由2个独立的结构变体支持的总共436个基因融合物中,有75个是桥接融合(补充表15)。

根据潜在的基因组重排的性质,我们提出了一个统一的融合分类系统(Extended Data图19a)。除了桥接融合,还有344个其他融合与同一样品中的一个以上结构变异连接。这些多结构变异融合体统称为“复合融合体”(Extended Data图19a,b)。我们发现284种复合材料融合(染色体间易位)和124种复合材料融合(染色体内重排),分别以ERC1-RET1NUMB-HEATR4融合为例(扩展数据图19b))。复合重排使融合配偶显著彼此更接近,从6.8 MB的7.9 kb的的中值的中位数天然距离(Wilcoxon秩和检验,P   ≤2.2×10 -16 ;扩展数据图19C易位之后)。对于18%的融合,未发现结构变异的证据。考虑到340种结构独立的变异,染色体内融合的断裂点比结构变异的断裂点更近(扩展数据图19d),可能是由于RNA读取事件引起的。另一种可能性是,潜在的支持性结构变异逃脱了检测,如观察到的那样,即由结构变异驱动的已知基因融合物(如TMPRSS2-ERG 46)没有在匹配样品中具有一致的结构变异证据。

癌症中RNA改变的态势

鉴于我们全面的RNA改变,我们试图表征癌症基因组和转录组改变的异质机制。为了能够对RNA和DNA改变进行联合分析,我们创建了一个基因水平表,该表指示每个基因和供体对RNA或DNA可能存在的功能性变化的存在与否。经过严格的过滤后,我们确定了1,523,098个改变事件,其中一个事件是基因-样本-改变三元组(扩展数据表1,补充表14)。应当指出,我们选择仅包括具有潜在功能作用或定量影响最强的RNA改变,类似于过滤DNA改变的类似策略47多种变异类型的复发分析帮助我们进一步丰富了功能相关基因。建立在以基因为中心的表上,我们在RNA水平表征了基因改变,并将其与DNA改变(非同义SNV或SCNA)进行了对比5根据所有组织型中每个RNA和DNA水平改变之间的计算关联,我们发现一半的RNA改变与DNA改变显着相关(似然比检验,FDR <1×10 -4)(扩展数据图。20)。

当比较所有组织型的基因改变频率时(图4a),我们注意到不同类型的癌症包含DNA和RNA水平改变的不同组合(图4a,补充表17)。尽管如预期的那样,皮肤黑色素瘤的非同义SNV数量明显超过其他癌症48(Wilcoxon秩和检验,P   <0.012),淋巴癌的SNV数量却很少(Wilcoxon秩和检验,P   = 5.3× 10 -15),但是其他剪接离群值的发生率很高(Wilcoxon秩和检验,P   = 4.9×10 -47),这表明转录组的改变在某些癌症类型中相对更为明显。

图4:影响肿瘤的DNA和RNA改变的整体图。
图4

a,跨组织型不同变化的中位数。根据不同改变类型的模式,通过层次聚类对组织类型进行排序。仅显示超过10个供体的组织型。替代。非同义,非同义。癌症类型的缩写列在补充表23中bcB2Mb)和PCBP2c共同出现的所选基因的圆形表示连接线指示变更对并发的特定类型。内部直方图指示以不同颜色显示的不同变更类型的发生频率。d,所有74种癌症中的体细胞突变目录(COSMIC)癌症普查基因或PCAWG驱动基因,它们在RNA和DNA水平的改变中经常且异质地改变。黄色条表示具有DNA水平改变的样品的比例,绿色条表示具有RNA水平改变的样品的比例。中间一栏是对该基因观察到的每种改变类型的比例。e,在我们显着复发的基因列表中,癌症基因的富集。

为了评估RNA改变在多大程度上为癌症基因改变提供了其他机制,我们研究了途径中的基因集(扩展数据,图21)以及在癌症中具有已知作用的单个基因中的DNA和RNA水平的改变(扩展数据22)。我们发现RNA改变在许多途径中都以很高的比例发生,包括NOTCH和TGF-β途径。另外,在某些类型的癌症中KRAS表现出比DNA改变更多的RNA改变。鉴于最近的发现,即KRAS的可变剪接扩展了大肠癌49中突变状态以外的预后影响,我们的数据进一步支持了KRAS改变的几种模式 在肿瘤中。

RNA和DNA改变的共现

这项研究中的各种变化类型使我们能够研究涉及癌症相关基因的不同遗传和表达特征之间的反式关联(FDR <5%)(补充表18)。通过研究已知癌症基因的体细胞突变是否与其他基因的表达相关,我们发现IDH1NFKBIE与许多基因的失调有着广泛的联系(Extended Data图23a,b)。在几种类型的癌症中均存在明显的共现现象。例如,B2MEIF4G2在B细胞非霍奇金淋巴瘤和肺鳞癌中同时观察到这种改变。对与所有B2M改变相关的前100个基因进行的路径富集分析表明,受影响最严重的基因参与DNA修复(FDR≤1%),其中约三分之二的关联在一种以上的癌症类型中具有显着意义(图。图4b是扩展数据,图23c)。

我们还通过共现分析检查了癌症基因可能如何受到其他基因的影响。PCBP2的表达异常与大量与癌症相关的基因(包括CTNNB1CDK4)的异常剪接同时发生(图4c)。据报道,PCBP2可增强盒式外显子50的剪接因此,我们的结果进一步支持了PCBP2在调节癌症相关基因的剪接中的可能作用

驱动基因中的复发性RNA改变

在我们分析与这些单个RNA表型相关顺式作用突变中,绝大多数在PCAWG队列中很少观察到。许多癌症基因(如MET 5152)是已知的由异质机制,例如基因融合体,剪接突变和非同义突变体细胞改变; 因此,研究被几种顺式作用机制改变的基因可能有助于鉴定罕见的个体改变类型的癌症基因。通过基因表达,等位基因特异性表达(ASE),剪接和/或基因融合改变了总共5,413个基因,并在顺式中具有相关的DNA水平突变(补充表20)。与以前未被鉴定为癌症基因的基因相比,PCAWG定义的驱动基因8倾向于具有更多样化的RNA水平改变机制(P   <0.001)(扩展数据图24a)。我们在MAPK途径中鉴定出了例如体细胞eQTL,与剪接相关的变异体和已知肿瘤抑制因子NF1中的融合体(扩展数据图24b)。

由于大多数体细胞突变是罕见的5,因此很难从统计学上区分功能相关的潜在驾驶员变更和乘客变更。因此,我们的目的是在这些基因具有增强的功能相关性的假设下,识别出经常性和异质性改变的基因。这项分析确定了731个具有明显重复畸变的基因(FDR <5%)(扩展数据图25a),而排名靠前的基因同时携带RNA和DNA改变。RNA改变占每个基因中所有已识别的改变的0.05–99.14%(平均:78.23%)(扩展数据图25a,补充表21)。此排名因癌症普查基因的联合而更加丰富53个(603个中的60个)和PCAWG定义的驱动基因(157个中的33个,并集:674 P中的 74个 = 4.6×10 -13,富集度:2.45)(图 4d,e)。

在我们排名靠前的基因中排名前10%的是CDK12(排名55)。我们发现91个样品具有涉及其蛋白激酶结构域的改变,这涉及DNA修复失调54这些样品中有许多在CDK12中没有DNA水平的改变(46%)(扩展数据图26a)。此外,该基因中的剪接,替代启动子,SNV,RNA编辑和融合改变是互斥的(调整后的P   = 4.8×10 -3)(扩展数据图26b,c)。经过进一步调查,我们发现CDK12中的体细胞eQTL突变与串联复制子表型55相关尽管这种关联没有与其他RNA改变重复,但它提供了证据表明体CDK12突变可能通过基因表达变化来改变其功能。该实施例说明了对各种RNA和DNA改变进行复发分析可以帮助鉴定已知在肿瘤发生中重要的基因。

讨论区

在这里,我们介绍了癌症中RNA水平改变的全面目录,涵盖27种不同的肿瘤类型,并提供了匹配的转录组和全基因组序列的统一资源。我们确定了731个基因,这些基因经常通过几种机制改变,共同丰富了已知的癌症普查和PCAWG驱动基因8该列表包括主要在DNA级别发生改变的基因(例如TP53),还包括该改变最常在RNA中出现的基因(例如GAS7)。在PCAWG研究的87个样本中,DNA水平没有驱动因子改变5,并具有RNA测序(RNA-seq)数据,每个样品均具有已鉴定的RNA水平改变。尽管人们认为癌症主要是由DNA的变化驱动的,但是某些驱动程序的变化可能通过RNA的变化而不是DNA序列的突变来显现。

我们确定了约20%的表达基因的种系eQTL。与其他一些研究相比,发现的eGene数量通常很少,这反映了我们样品的异质性。只有422个基因似乎对癌症具有特异性。由于异质性,样本数量少和所选择的策略较为保守,这可能被低估了。我们还绘制了基因与顺式体细胞畸变之间的联系,其中68.4%的关联是非编码体细胞变体与基因表达之间的关联。等位基因拷贝数失衡是癌症中ASE失调的主要决定因素。我们发现与剪接变化相关的突变,包括新型的癌症特异性外显子,可以部分由突变驱动的外显子化来解释。我们系统地比较了多种肿瘤类型的基因融合与全基因组重排,发现82%的融合检测与特定基因组重排有关。对于其余的融合,有可能尚未检测到相关的基因组重排,或者某些融合直接在RNA水平发生,如反式-拼合或通读事件。全基因组序列的可用性使我们能够开发融合事件的系统分类,并提出新的桥接融合机制。

由于RNA表达表型的总体差异在很大程度上是组织特异性的,因此我们将顺式反式突变关联的能力受到每种组织型内较小且可变的样本量的限制。需要做进一步的工作来研究其他基因组改变的机制,这些机制可能导致RNA的改变,例如表观遗传改变56或增强子劫持57我们的工作将有助于确定进一步调查的优先顺序。

总体而言,我们的分析显示了在DNA和RNA水平上癌症基因和途径改变的多种模式,并表明RNA分析揭示了仅通过DNA途径尚未发现的癌症相关途径改变。这些见解说明了整合转录组和全基因组测序分析在癌症研究中的作用。

方法

RNA-seq比对和质量控制分析

PCAWG研究组5中包括的肿瘤和健康的ICGC RNA-seq数据使用两个读取的比对仪与STAR 58(v.2.4.0i,两次通过)进行比对,并与人类参考基因组(GRCh37.p13)进行比对,在MSKCC上进行ETHZürich和TopHat2 59(v.2.0.12)在欧洲生物信息学研究所进行。两种工具都使用了Gencode(版本19)60作为参考基因注释。对于STAR两遍比对,对每个样品进行初始比对运行,以生成源自RNA-seq数据的剪接点列表。然后将这些连接点用于为每个样本建立参考基因组的增强索引。在第二遍中,将增强索引用于更敏感的对齐。对齐参数已固定为https://github.com/ICGC-TCGA-PanCancer/pcawg3-rnaseq-align-star中报告的值TopHat2对齐策略也遵循两次遍历对齐原理,但是在单个对齐步骤中使用相应的参数集执行。对于TopHat2比对,使用了irap分析套件61完整的参数集以及中的对齐代码均可用https://hub.docker.com/r/nunofonseca/irap_pcawg/对于这两个对齐器,将按对齐位置对BAM格式的结果文件进行排序,索引并可以在GDC门户(https://portal.gdc.cancer.gov/)和ICGC数据门户(https://)中下载。 dcc.icgc.org/)。各个登录号和下载链接可在PCAWG数据发布表中找到:http ://pancancer.info/data_releases/may2016/release_may2016.v1.4.tsv 癌症类型的缩写列在补充表23中组织学源自PCAWG病理学和临床相关工作组发布的较旧版本。可以在文件rnaseq.extended.metadata.aliquot_id.V4.tsv.gz中找到https://dcc.icgc.org/releases/PCAWG/transcriptome/metadata/上的供体对组织学的分配

所有数据集的质量控制都在三个主要级别上进行:(1)使用FastQC 62(v.0.11.3)评估初始原始数据(补充图4);(2)评估对齐数据(两种对齐方式的映射和未映射读取的百分比);(3)定量(通过关联由基于STAR和TopHat2的表达管线产生的表达值)(补充图2)。总的来说,我们定义了六个质量控制标准来评估样品的质量。如果满足以下条件,我们将样品标记为排除样品:(1)5种主要FastQC指标中的3种(基本质量,k -mer过度表达,鸟嘌呤-胞嘧啶含量,N含量)碱基和序列质量)未通过;(2)超过50%的读取未映射,或者使用STAR管道可以总共映射少于100万个读取;(3)超过50%的读取未映射,或者使用TopHat2管道总共可以映射不到100万个读取;(4)我们测得的降解评分63大于10;(5)对齐后的样本中的片段计数(在STAR和TopHat2上平均)小于500万;(6)两条管道的表达计数之间的相关性均<0.95。如果样品未通过这六个标准之一,则将其标记为有问题的样品并将其列入灰名单。如果没有通过两个以上的标准,我们将排除样本。

来自ESAD-UK,OV-AU,PACA-AU和STAD-US项目的722个文库的一个子集被确定为是由相同等分试样产生的技术复制品。这些库使用samtools 64集成了STAR和TopHat2管道的对齐后,并合并到对齐文件中。基于这些文件进行了进一步分析。通过添加技术复制品的读取计数,单个库的读取计数被集成到样本级别的计数中。

最初,流水线已完全处理了2,217个RNA-seq文库。质量控制过滤和技术复制品的整合(722个文库)提供了来自1188个供体的1359个经过充分处理的RNA-seq样品等分试样的最终数量。

GTEx数据分析

对于来自各种健康组织的一组RNA-seq数据,使用了来自GTEx(phs000424.v4.p1)的3,274个样品的数据,并与PCAWG数据在同一管线中进行了分析以定量基因表达。GTEx标识符列表在https://dcc.icgc.org/releases/PCAWG/transcriptome/metadata中提供

转录本和基因表达的量化和标准化

STAR和TopHat2比对用作HTSeq 65(v.0.6.1p1)的输入,以产生基因表达计数。Gencode v.19 60被用作基因注释参考。使用Kallisto 66(v.0.42.1)在每个转录本水平上进行定量。该实现可作为Docker容器在https://hub.docker.com/r/nunofonseca/irap_pcawg上获得STAR和TopHat2量化的实现可作为docker容器在以下网址中找到:https : //github.com/ICGC-TCGA-PanCancer/pcawg3-rnaseq-align-starhttps://hub.docker.com/r/nunofonseca / irap_pcawg /, 分别。通过基于STAR和TopHat2比对取平均表达来进行共有表达的定量。通过将计数调整为FPKM 67以及具有较高四分位数归一化(FPKM-UQ)的FPKM 来对基因计数进行归一化,其中FPKM定义中的总读取计数已由读取计数分布的较高四分位数乘以总蛋白质编码基因的数量。

FPKM和FPKM-UQ计算如下。FPKM =(C   ×10 9)/(NL),其中N   表示编码蛋白质的基因的总片段数,L表示基因的长度,C表示片段数。FPKM-UQ =(C   ×10 9)/(ULG),其中U表示常染色体上蛋白质编码基因的片段计数的上四分位数不等于零,G表示常染色体上蛋白质编码基因的数目。

t-分布随机邻居嵌入分析

所述 -分布式随机邻居嵌入(在补充图-SNE)曲线。使用RTsne软件包68(困惑度值为3)根据1,500个最易变基因的聚集表达(对数+ 1)的Pearson相关性,生成了图5和图6每个基因的FPKM表达值通过组织(GTEx)和研究(PCAWG)进行汇总(中位数)。每个组织(GTEx)和研究(PCAWG)的每个基因的变异系数也被计算出来,以确定1,500个变化最大的基因。纯度值先前已有描述69

扩展数据图17c中t- SNE图基于SplAdder 70确认的蛋白质编码基因中的所有外显子跳跃事件每个事件都在PCAWG和GTEx队列中进行了量化。在所有串联的PCAWG和GTEx样本中,所有缺失(PSI)值中拼接百分比超过1%的事件均被删除。剩余的缺失值被推算为非缺失样本的平均值。然后,使用来自Scikit Learn工具箱71的TSNE包将中心数据可视化,其困惑度值为100,随机状态为0,并使用PCA进行初始化。

基因变异与基因表达之间的关联:患者队列

为了将遗传变异与基因表达联系起来,我们分析了1,188个供体的全基因组测序(WGS),并从PCAWG队列中获得了列入白名单的匹配RNA-seq数据。先前已报道了种系基因型,SNV调用和分段等位基因特异的SCNA调用5我们将1188个肿瘤RNA-seq ID 5与WGS白名单肿瘤ID(突触条目syn10389164)进行了匹配。对于具有多个WGS ID(1188个中的2个)或RNA-seq等分试样ID(1188个中的17个)的患者,我们通过将样品与相同的'tumor_wgs_submitter_specimen_id'配对来解决匹配问题(补充表1)。1,188名患者分布在27种癌症和29个项目代码中,包括899例癌症;转移的患者34例,复发的患者13例,其余患者为原发性肿瘤(补充表1)。

我们使用这1,188例患者的数据进行体细胞和种系eQTL定位,ASE分析以及基因表达与突变特征之间的关联研究。

基因表达过滤

如上所述的来自共有表达定量的基因表达值(在FPKM中测量;https://dcc.icgc.org/releases/PCAWG/transcriptome/gene_expression)用于该分析。

保留至少1%的患者(12名患者)中FPKM≥0.1的基因,得到47,730个基因。仅18,898个蛋白质编码基因(根据Gencode v.19 60中报道的'gene_type'生物型)用于后续QTL分析。对数2转换后的表达值(FPKM + 1)进行了同级分析72以解释隐藏的协变量(syn7850427; https://dcc.icgc.org/releases/PCAWG/transcriptome/eQTL/表型)。为了平衡协变量,统计功率和每癌症类型可用的样品尺寸的数量,我们按照GTEx协议和估计的,取决于样品尺寸要使用15,30和35隐藏协变量73Ñ   <150,150≤   Ñ <250,Ñ   ≥250)。然后,对所有患者的同伴残差进行等级标准化。FPKM临界值和同伴校正也应用于899例癌症患者的亚组中,过滤后产生18,837个蛋白质编码基因。此外,我们使用普通最小二乘回归将35个对等因子中的每个因子与每个样本的协变量相关联,包括癌症项目代码,性别,肿瘤纯度,躯体负担和多个序列指标(补充说明),以了解方差的比例由已知的生物学和技术协变量解释。

协变量

在所有线性模型中,我们通过将它们建模为固定效应来考虑已知的混杂因素。在所有关联研究中,我们考虑了性别,项目代码(描述癌症类型和起源国家)和每个基因的拷贝数状态(每个患者协变量列表的补充表1; syn7253568和syn7253569的性别和项目代码;每个基因的拷贝数为syn9661460)。每个基因的拷贝数变化是基于syn8042988在带注释的基因边界内称为所有拷贝数畸变的平均拷贝数。

体细胞的eQTL,ASE和突变特征分析也说明了总的体细胞突变负担(SNV的数量以及短插入和缺失(indels)的数量)和样品纯度(补充表1)。纯度是根据拷贝数分割来估计的。此外,体细胞eQTL和ASE分析说明了在1-Mb窗口中根据基因坐标计算得出的局部SNV负担(https://dcc.icgc.org/api/v1/download?fn=/PCAWG/transcriptome/eQTL /covariates/pergene.somatic.snv.cis.burden.1188.wl.donors.tsv.gz)。

种系eQTL分析还将种群结构建模为随机效应。通过基于每个第二十个种系变种计算的亲属关系矩阵评估种群结构,如下所述进行处理(请参阅“ Germline eQTL变种”)。然后将亲属关系矩阵计算为经验的逐个患者协方差矩阵。

每种分析方法均考虑了不同的协变量(补充表1)。项目代码描述了癌症类型和起源国家。体细胞负担是SNV和插入缺失的总数。纯度是根据拷贝数分割来估计的。局部体细胞负担是基因坐标周围1-Mb窗口中SNV的数量。局部拷贝数被定义为在带注释的基因边界内所有SCNA的平均拷贝数状态。

GO和Reactome途径富集

我们进行GO 7475和Reactome向途径2021富集与Bioconductor的封装biomaRt 7677,clusterProfiler 78和ReactomePA 79(FDR≤10%)。每个分析方法都描述了用作背景集的基因数量。

Germline eQTL变体

从GNOS下载了PCAWG变体调用v.0.1 5,并按照PCAWG-8协议进行了处理:(1)使用bcftools 80索引并合并了VCF文件(2)所有变体都被过滤以作为'PASS'标志。(3)所有变体的质量均大于20。(4)仅考虑双等位基因位点。

假定对于纯合参考,杂合或纯合替代状态,假定分别数字编码为0、1或2的可加性,将生成VCF文件的每个100 kb块的HDF5文件。对于插入缺失,我们将变体的存在或不存在分别编码为0或1。将每个变体归一化为均值0和标准偏差1。为了创建我们的eQTL版本集v.1.0,随后将生成的HDF5文件合并到全局HDF5文件中,并删除了符合以下任一条件的所有变体:(1)次要等位基因频率≤1%;和(2)缺失值≥5%

Germline eQTL分析

在种系eQTL分析中,我们使用了来自1,178名患者的经过处理的基因表达数据集,这些患者可获得种系变体调用(eQTL版本1.0,请参见“ Germline eQTL变体”)。使用线性混合模型使用limix软件包81对种系变异(在100 kb的基因边界内)和基因表达值(参见“基因表达过滤”)之间的相关性进行建模将已知协变量建模为固定效应,将群体结构建模为随机效应(请参见“协变量”)。

使用了两步方法来调整多个测试。首先,对于每个基因,我们调整了基于局部连锁不平衡82估计的独立测试的数量其次,我们对每个eQTL的潜在变异(即最重要的SNP)进行了全局校正。生殖系eGenes定义为eQTL的整体FDR≤5%的基因。

GTEx比较分析

GTEx比较eQTL分析基于eQTL映射v.6p 10我们将PCAWG特异性eQTL的位置和等位基因映射到所有GTEx组织中的eQTL。为了确定前导eQTL变体是否在给定的GTEx组织中复制,我们遵循了先前描述的策略10对于每一个eGene,我们使用42个不含细胞系的GTEx组织(P   <0.00024 = 0.01 / 42,针对GTEx组织的数量进行了校正),基于边缘关联统计,考虑了eQTL前导变体并评估了信号在GTEx队列中的可复制性。即42))。如果前导变体没有复制或未经测试,我们根据连锁不平衡区中P最小的变体确定复制[R 2   ≥0.8基于跨越25(或42引线变体的UK10K项目))组织匹配GTEx分析估计。如果未测试连锁不平衡区中的前导序列或任何变体,我们将根据GTEx队列中测试的100 kb窗口内任何变体的最小P确定复制通过允许在多达1、5或10个GTEx组织中进行复制,我们还获得了不太严格的PCAWG特异性eGenes集。

基因型之间种系eGene的组织共享

使用R包qvalue(https://github.com/StoreyLab/qvalue,v.2.14.0),我们产生π 1统计比较针对他们的一个组织型的变体引线P   中的其他组织型值分布。因为π 1个统计已知由样本大小和eQTL发现数混淆,我们在二次采样引线eQTL变体与随机选择的组的100种变体。经过20轮的子采样,我们得出同样的π 1如前所述和报告的平均统计数据。

种系eGenes路线图富集

对于每个潜在客户变体,我们使用SNPsnap 83生成了一个匹配的背景集合,包含1,000个变体每个变体(背景和前景)与127个单元格类型中25个路线图因子16的位置相交从中我们得出倍数变化和P值。PCAWG特定和非特定eQTL之间的倍数变化的显着变化是基于单方Wilcoxon秩和检验。

富集分析

使用Bioconductor软件包ReactomePA 79进行PCAWG特异性eGenes反应组途径的富集

躯体调用和突变负担

我们使用了PCAWG(syn7357330)基于三个核心调用方管道和MuSE 84提供的一组共识SNV体调用平均而言,我们计算出每位患者22,144例体表SNV,每种癌症类型的SNV中位数不同,范围从甲状腺腺癌中的1,139到皮肤黑素瘤中的72,804 SNV(扩展数据图5a)。由于整个队列中体表SNV的频率较低(扩展数据,图5b),我们通过基因注释定义的基因组区域折叠了变体(Gencode v.19 60)。具体来说,我们使用bedtools 85将重叠的外显子注释折叠为单个特征,从而生成了一组不相交的基因外显子这套不相交的内含子是使用bedtool通过从基因区域中减去折叠的外显子区域而生成的。为了在基因体外部的侧翼特征中绘制体细胞突变的局部效应,我们将周围区域(距基因边界的正负1 Mb)合并为2 kb窗口(侧翼),重叠1 kb。

我们定义了三种不同类型的汇总体细胞负担,以评估检测体细胞eGenes和P值校准的能力差异基因组区域的负担定义为:(1)表示存在或不存在SNV的二进制值;(2)总负担为SNV之和;或作为(3)加权负担,即SNV变异等位基因频率的总和(补充图10a),以考虑其克隆性(https://dcc.icgc.org/releases/PCAWG/transcriptome/eQTL/基因型)。我们用名义和置换P值(基因表达矩阵中患者的置换)的Q-Q图评估了所有三种分析的校准(补充图10b-d)。此外,对于线性回归分析,在患者之间对基因型进行了标准化(平均为零,标准差为1),补充表5中提供了标准化的效应量

总体而言,侧翼区域内的体细胞负担是每个基因测试的最普遍的负担类型(Extended Data图6a)。我们发现每种基因组区域的平均相对突变密度相似(侧翼=每kb 0.008突变;内含子=每kb 0.007突变;外显子=每kb 0.006突变)(扩展数据图6b),并且同一突变区域的平均复发率队列相当低(侧翼= 1.4%;外显子= 1.7%;内含子= 4%)(扩展数据图6c)。

体细胞eQTL分析

使用线性混合模型limix package)81,使用线性模型来建模复发性体细胞负担与多达18,898个蛋白质编码基因的基因表达之间的相关性(请参阅“基因表达过滤”)。针对35个隐藏的Peer因子校正了基因表达。将已知的协变量建模为固定效应(请参见“协变量”)。我们仅考虑了频率大于1%的体细胞负担,包括外显子和内含子负担,以及侧翼负担,距基因边界1 Mb以内。

对所有1,188例患者和899例癌症患者(代表27种癌症中的20例)的亚组进行了体细胞eQTL分析,以对一组更均一的肿瘤进行重复分析。使用距基因边界1 Mb的顺式窗口查找队列中突变频率≥1%的突变基因组间隔(完整队列中至少12例患者,癌队列中9例)。共有18,708个基因在该频率下具有至少一个突变间隔,并包含在分析中,并且1,049,102个区域的负担频率≥1%

应用Bonferroni校正来校正同一基因内测试的多个顺式窗口。然后,应用Benjamini–Hochberg校正来调整整个基因中前导基因组区域P值。体细胞基因被定义为FQ≤5%的eQTL。

体细胞顺式-eQTL对比分析

我们比较了649体eQTL组与前三次癌症研究868788,以确定我们的eGenes和相关相互作用的独立证据躯体负担的基因组区域。如果研究提供了与基因相关的癌症调控元件列表或具有与癌症中基因表达失调相关的体细胞突变的调控元件,则选择研究。所有三项研究均基于TCGA癌症。为此,我们检查了身体负担位置和eGene的完美重叠。此外,我们研究了体细胞eQTL与72,987 GeneHancer 89之间的重叠从UCSC hg19 GeneHancer轨道90下载至少两种独立的支持方法(称为“双重精英”)与基因的增强子相互作用然后,我们将这种重叠与GeneHancer调节元件的1000个随机排列与附近位于1 Mb内的基因产生的一组空值进行了比较。然后,我们通过计算随机空值(N的数量来获得富集的经验P值,该值显示的重叠量大于体细胞eQTL集和GeneHancer集之间的重叠量(P   =(N   + 1)/(1,000 + 1) )。

体细胞顺式 -eQTL中的功能富集

为了确定丰富的体细胞eQTL的推定调控位点,我们检索了体细胞eQTL的前导基因组侧翼间隔的功能注释(556个间隔与638个体细胞eQTL链接)。因此,我们将体细胞eQTL映射到127种不同细胞类型的25个路线图基因组学染色质标记16和9种细胞类型(包括8种癌症和一种胚胎干细胞系91)的ENCODE转录因子结合位点注释(补充表67))。我们根据一组匹配的基因组区间的随机抽样,比较了有效eQTL集中具有空分布的注释。为了定义匹配的基因组间隔集,我们从整套测试基因中选择了侧翼基因组间隔,这些基因组间隔显示出距基因起始点相似的距离(精确距离为±2 kb),并且与基因组中相应间隔的确切负担频率相匹配。重要的协会。然后,我们将1,000个匹配的集合与路线图表观基因组学和ENCODE注释重叠。为了避免模棱两可的重叠(带有多个注释),我们仅保留了显示最小重叠长度为10%的基因组间隔。

我们通过对随机抽样的侧翼间隔(N的数量进行计数来检索每个注释的经验丰富的P值,该间隔显示出与eQTL集相比有更多的重叠(P   =(N   + 1)/(1,000 + 1))。将Benjamini–Hochberg校正应用于经验P值(对Roadmap Epigenomics注释,在127个细胞系中有25个标记,而对于9个ENCODE细胞系则有149个以上的转录因子结合位点)。然后,我们计算了每个注释和单元格的倍数变化,作为带注释的前导侧翼间隔与在1,000个采样中带注释的匹配的随机侧翼间隔的平均数的比率。

此外,我们进行GO 7475和Reactome通路2021的富集与Bioconductor的封装biomaRt 7677,clusterProfiler 78和ReactomePA 79(FDR≤10%),并且还搜索高可信度的癌症中富集睾丸基因先前描述的92,使用至少具有一个突变间隔的18,708个基因作为背景。

方差成分分析

使用Limix进行方差分解,使用与体变分析中相同的协变量,除了局部拷贝数状态(请参阅“协变量”)。随机效应基于以下常见的种系变异和体细胞负担(频率> 1%)(有关负担的详细说明,请参见“体细胞调用和突变性负担”):(1)顺式体细胞内含子:内含子中的加权负担;(2)顺式体细胞外显子:外显子的加权负担;(3)顺式体侧翼:在距基因边界1 Mb内2 kb的1 kb重叠区域中的加权负担;(4)体细胞间基因:在1 Mb窗口外2 kb的1 kb重叠区域中的加权负担;(5)顺式-种系:距基因边界100 kb以内的种系变体;(6)基因种系:全基因组种群结构(见“协变量”);(7)本地拷贝数变化(请参见“协变量”)。

所有数据均以均值为中心且标准化。对于每个随机效应,计算线性核并将其用作协方差矩阵。将产生的方差分量归一化以总计一。

突变签名关联

我们从PCAWG-7 beta 2第9版获得了39个突变特征,并使用线性模型将突变特征与1,159名患者中多达18,898个蛋白质编码基因的基因表达相关联,同时考虑了已知的协变量(请参见“协变量”)(质量控制)(扩展数据图10a-e)。1159例患者是全部1188例患者的子集,这些患者具有突变特征谱。针对35个隐藏的对等因子校正了基因表达(请参见“基因表达过滤”)。

我们保留了1,888个患者中至少1%的18,888个基因,其最小FPKM为0.1(请参见“基因表达过滤”)。过滤出方差为零且流行率低于1%的签名,我们获得了28个签名。我们应用线性模型将这些基因的表达与所有1,159名患者,877名癌症患者的子集或891名欧洲患者的子集的签名相关联,以评估关联的一致性(扩展数据图10f,g)。

在所有患者中,我们在Benjamini–Hochberg校正后发现了1,176个显着相关的基因(我们使用FDR≤10%进行富集分析,对所有特征基因对进行了多次检测)(补充表19a–c)。我们对每个签名的重要基因进行了基因富集分析(请参阅“ GO和Reactome途径富集”)(此处为18,831个背景基因,每个签名FDR≤10%的所有本体的多重测试校正)(补充表19d)。大多数签名仅与少数基因相关,而18种表现出反复的反式作用并影响了20多个基因的表达(扩展数据图11d,补充表19e))。我们进一步发现,绝大多数基因(85.8%)只与一个特征(1,009个基因)相关。129个基因与两个,32个与三个,5个与四个和1个与五个签名相关。

为了评估组织特异性突变特征及其与基因表达的关系,我们分析了每种癌症中每种特征的发生情况。我们评估了该类型签名的存在(至少一名患有特定癌症类型的患者中至少有一个签名的SNV)和平均患病率(特定癌症类型的所有患者中具有特定签名的SNV的均值)的癌症(扩展数据图13c,d)。我们定义了特定于癌症类型的特征码,最多可出现四种类型的癌症(特征码4、7、9、12、16、16、38和39),而常见特征码最多可出现五种类型的癌症(特征码2, 13和18)。对于这些特征中的每一个,我们进行了癌症类型特异性分析,也就是说,我们仅评估了具有相应特征突变的癌症类型患者,评估了各自特征与基因表达之间的关联(扩展数据图。13C,左热图)。然后,我们相关联的P与这些癌症类型特异性的分析值P在所有患者的分析值和计算出的Pearson相关系数(补充图24A-E)。我们表明,癌症类型特异性和整个队列的P之间的相关性取决于相应分析的样本量(r 2   = 0.671)(补充图1f)。

我们还对患者(特征患者每位患者的特征特异性SNV)和基因(特征基因表达关联的P调整值后的PCA)患者的特征进行了PCA (扩展数据图11a,b)。

为了评估通过突变签名对SNV进行功能注释的重要性,我们还将基因表达与SNV的总数相关联,并将关联的P值(-log 10P))与各个签名特定的P相关联绝对皮尔逊相关系数保持在0.1以下(补充表19f)。

为了建立签名与基因表达关联的因果关系,我们使用线性混合模型将种系eQTL纳入了分析。我们1,176个与签名相关的基因中有197个也是种系eGenes。这197个关联涉及28个突变特征中的26个。我们将这些eGene的先导变体与2,507名患者的等级标准化签名SNV相关联。我们使用了2,818名WGS患者的子集,这些患者的突变特征谱和所有已知的协变量均可用。我们考虑了与突变特征-基因表达关联研究相同的固定协变量,此外,亲缘关系是一种随机效应(参见“协变量”)。

然后,我们使用R包coloc 93用贝叶斯模型平均进行比例共定位分析,以测试基因表达和突变特征是否在给定的基因区域内共享常见的因果遗传变异。比例共定位分析通过假设共享因果变体的两个表型对任一表型具有因果变体附近的任何变体选择而具有成比例的回归系数,从而检验了共定位的零假设。我们应用了贝叶斯模型平均方法,每个测试模型都包含两个变体的选择。然后,对所有模型P值取平均值,以生成后验预测P93我们过滤了变体,以使没有一对变体显示r 2   > 0.95,并且每个变体的其中一种表型被纳入的边缘后验概率均大于0.01。补充表19e中列出了拒绝共定位零假设的标称P

然后我们进行调解分析9495,以评估种系eQTL,基因表达和突变特征的效果的方向性。首先,使用来自R包lavaan 96的结构方程模型对eQTL前导变体,基因和突变签名的三元组中的每一个进行因果中介分析然后,我们使用R包中介97评估了中介的重要性,并通过非参数自举置信区间(1,000个模拟)估算了介导作用的比例。

ASE分析:组装分阶段的种系和体细胞变异体

为了了解体细胞变异在其基因组背景下的精确效果以及后续的等位基因特异性分析,对种系和体细胞变异进行了分阶段。为了组装分阶段的种系基因型,我们使用了Sanger 1000G调用集6,并将IMPUTE2 98应用于杂合种系变体的定相。使用Battenberg CN调用算法99的结果对IMPUTE2输出进行了校正确定连续拷贝数增益区域内没有单倍型转换。排列得到的分阶段的种系基因型,使单倍型1始终对应于带有SCNA的区域中的扩增等位基因(主要等位基因)。如果两者同时出现在同一NGS上(大约1000万个变体,占所有SNV的20%),我们会将个体体变相分阶段到最近的种系杂合位点。对于下游分析,我们仅考虑了通过至少三次读取对相应种系变体进行分阶段的SNV(1000万个SNV中大约有600万个)。

根据基因注释定义的所有基因组区域(上游,下游,启动子,5'UTR,内含子,同义词,错义,终止增益和3'UTR),将所有分阶段的SNV归类为功能类别,并定位到顺式内的最近基因使用变异效应预测器(VEP)工具100 kb的窗口启动子变体被定义为TSS上游1kb。我们通过使用最大范围参数为100 kb的VEP'UpDownDistance'插件包含了侧翼区域。我们使用10到100 kb的10 kb窗口将上游和下游变体类别划分为不相交的类别。我们将“剪接供体”和“剪接受体”变体整合到常规的“剪接区域”变体类别中,并将“停止保留”变体映射到“同义”变体类别。我们将转录本注释与基因注释平均化,以检索给定基因的变体的预期功能效果。我们分析了SNV变异等位基因频率与SCNA在同一基因座之间的关系,以确定变异是在相应SCNA(PCAWG-11)之前(“早期”)还是在其后(“晚期”)发生。我们计算了一个加权通过估计每个SNV的癌细胞分数并将SNV聚合到按其各自的癌细胞分数加权的总局部负担来确定每个类别的顺式突变负担。

ASE读取计数

杂合种系变体的位置信息与RNA-seq BAM文件一起用作GATK ASEReadCounter 101算法的输入,以对ASE读数进行计数。我们认为读图的最低定位质量为20,最低碱基质量为10。对于所有进一步的分析,仅考虑杂合度最低的八种RNA-seq读数的杂合变体。

原始ASE读取计数按以下方式进行后处理:(1)将ASE站点转换为BED文件,并与ENCODE 50-mer可映射性轨道(wgEncodeCrgMapabilityAlign50mer.bigWig)对齐,以提取所有站点的可映射性分数。除去所有可映射性得分不等于1的站点。(2)去除等位基因读数计数小于或等于1的所有位点,以防止基因分型错误影响ASE定量。(3)删除所有性染色体以供进一步分析。(4)我们将每个患者的测序错误估计为非参考和非替代碱基与碱基总数的总和。我们使用估计的测序错误概率通过二项式检验评估了统计单等位基因,并使用Benjamini-Hochberg降低程序进行了校正。去除似乎统计上是单等位基因的所有位点。(5)对于每个ASE站点,从Sanger副本号共识电话集(PCAWG-11)中检索副本号状态。从随附的纯度表中检索出每个患者的纯度估计值。

为了将位点水平的ASE聚合为基因水平的读数,并考虑到效应方向性,我们使用了分阶段的种系基因型。使用pyEnsembl Python库针对ENSEMBL 75版进行了基因定位。我们在每个ASE位置检索了所有基因,并将各个单倍型的读取计数汇总为基因水平的单倍型特异性读取计数。我们进一步将单倍型特异性拷贝数状态平均为每个基因的单倍型特异性拷贝数状态,并计算基因水平拷贝数比率作为这些平均值的主要比率。为了对基因水平的ASE进行有力的评估,我们仅考虑了至少具有15个读数的基因,产生了1,379位患者的4,379,378位基因-患者对和跨越12,441,502位可访问位点的17,009个独特基因。P值,以及针对预期的拷贝数比的二项式检验,该预期拷贝数比被肿瘤纯度修改,以得出经拷贝数校正的P值。标称值和经拷贝数校正的P值分别使用Benjamini-Hochberg程序进行了多次测试的调整。在FDR≤5%时,需要使用显着的AEI。我们进一步用聚合所用的ASE位点数注释每个基因。对于所有下游分析,我们仅考虑了注释为蛋白质编码的基因(ENSEMBL生物型=“蛋白质编码”)。

广义线性模型

在所有4,379,378对基因-患者对中,我们使用(i)对基因中AEI不存在或不存在的二元指标进行逻辑回归,或(ii)对基因的阶段ASE比进行标准线性回归来评估多元线性模型,以评估监管变革的方向性。对于(i),单倍型特异性突变总和为每个类别的总负担,而对于(ii),我们使用单倍型1和2之间的负担差异。确保体变体和ASE位点之间的定相图的一致性该模型系数保持它们的方向性独立单元型的任意标记为1或2。全套考虑的因素如下:(1)在基因座(0.5≤拷贝数比   X   ≤1); (2)样品纯度(0 <   x <1); (3)总基因长度的自然对数(x > 0);(4)标准成绩单长度的自然对数(x > 0);(5)引线eQTL变体的杂合性(X   = 0,如果纯合的,X   = 1,如果不纯合的); (6)作为由VEP注解(上游在10-kb的窗户,在10-kb的窗口,启动子,5'端非编码区,内含子,同义,错义,停止增益和3'UTR下游确定的所有突变负担类别; X   ≥0为Logistic模型,X &Element; 用于定向模型)。

为了比较SCNA,种系eQTL,编码和非编码SNV的整体效应和不同贡献,在将所有编码和非编码变体积累到单独的类别并报告标准化效应量之后,对简化的逻辑模型进行了训练(图1e)。

癌症基因富集

如先前所述102,使用Fisher精确检验和基因组富集分析对COSMIC普查53进行癌症基因富集为了进行富集,在整个队列中计算了一个基因的平均得分,并且仅保留了该队列中具有至少五个重复的基因,总共产生了1,078个基因。

ASE的染色体分布

我们计算了每种肿瘤类型中ASE基因的复发率。为了检查ASE基因的染色体分布,我们以10个基因的步长计算了每个200个基因窗口的所有基因的平均复发率,然后减去每种肿瘤类型中的平均ASE发生率,以获得所有基因上的ASE剩余峰。染色体。拷贝数基因的复发以类似的方式计算。

估计替代启动子活性

我们使用RNA序列数据和Gencode(第19版)注释对20,738个基因中的70,937个启动子估计了启动子的活性。我们假设转录物受同一启动子103调控,因此它们与第一外显子重叠的TSS是位于外显子内部内,或其与剪接受体位点重叠,这些启动子是困难从RNA-SEQ数据以估计从这个分析中去除28启动子活性可以使用外显子使用量29,剪接读数28或基于亚型的估算值30来估算在这里,我们使用了基于同工型的方法来量化启动子活性。我们使用Kallisto 66从RNA-seq数据中量化了每个转录本的表达并计算在每个启动子处起始的转录本的表达总和,以获得启动子活性的估计值。为了获得每个启动子的相对活性,我们通过整体基因的表达来标准化每个启动子的活性。基于它们的平均全癌启动子活性,我们将每个基因的启动子分为三类。平均活性<1 FPKM的启动子称为无活性启动子,每个基因中最活跃的启动子称为主要启动子。该基因的其余活性启动子称为次要启动子。

使用与体细胞eQTL分析相同的框架估算启动子活性与启动子突变负担之间的关联。我们检查了队列中负担频率≥1%的表达的多启动子基因启动子的关联(整个队列中至少有12名患者)。TSS上游1kb区域的加权负担,即每个基因的SNV变异等位基因频率之和,被用作各个基因启动子的基因型。我们使用线性模型研究了复发性体细胞负荷与启动子活性之间的关联(相对活性和log 2-转换后的绝对活动)。与躯体eQTL分析相似,已知的协变量和35个隐藏的对等因子也作为辅助因子提供给线性模型。我们 使用Benjamini-Hochberg校正方法调整了P值,并寻找FDR≤5%的关联。

确定替代拼接

我们使用了基于STAR管线的比对,以使用SplAdder 70收集和量化其他剪接事件该软件已运行,其默认参数的置信度为3。我们为肿瘤样本以及匹配的健康样本(如果有)的每个RNA-seq样本生成了单独的剪接图。然后将所有图整合到合并图中,以全面反映所有样本中观察到的所有剪接点。根据此组合图,使用SplAdder提取以下类型的替代剪接事件:替代3'剪接位点,替代5'剪接位点,盒式外显子,内含子保留,互斥外显子,协调外显子跳跃(请参见补充图)参考文献70中的 3)。然后,通过对任何先前确定的事件中每个剪接点的分裂比对进行计数,在所有样品中对每个确定的事件进行量化,并确定该事件所涉及的每个外显子片段的平均阅读覆盖率。然后,我们为每个事件计算了一个PSI值,然后将其用于进一步分析。我们进一步生成了事件的不同子集,并以不同的置信度进行了过滤,其中置信度由SplAdder置信度(通常为2),支持每个事件的对齐读取数,为支持该事件而找到的样本数定义以及通过最小对齐读取阈值的样本数。

丰富与剪接位点和分支点基序相关的离群剪接

我们评估突变富集的5意义'和3'剪接位点和分支点104105个使用基于置换的方法内含子区域。有影响的突变被定义为与盒式外显子事件中涉及的外显子和内含子重叠的突变,其中PSI衍生的z-得分≥3或≤-3。对于每个内含子位点,我们将观察到的有影响突变的频率与随机采样的内含子区域的频率(迭代次数= 1,000)进行了比较。对于外显子部位,从随机采样的外显子部位建立零分布。随机采样的位点在5'和3'剪接位点周围100 bp的窗口内。对于分支点区域,采样点位于分支点序列周围的50 bp窗口内。P   值计算为大于或等于观察到的频率的随机采样频率的数量。

SAVNet分析以识别罕见的SAV

SAVNet方法35设计用于从匹配的基因组和转录组测序数据中识别与局部异常剪接改变相关的体细胞变异。它使用置换来计算FDR,并通过限制体细胞突变和剪接变化之间的两类关系来关注:(1)剪接位点破坏,其中外显子跳跃,替代5'或3'剪接位点或内含子保留相关剪接位点基序有突变;(2)剪接位点的产生,其中5'或3'的剪接位点与产生新的剪接基序(FDR≤10%)的突变相关(扩展数据图17e)。

RNA融合的鉴定

根据两条基因融合检测管道:FusionMap(v.2015-03-31)管道106和FusionCatcher(v.0.99.6a)/ STAR-Fusion(v.0.8.0)管道107,确定了任意两个基因之间的基因融合。ChimerDB 3.0被用作先前报道的基因融合的参考。该数据库包含32,949个融合基因,分为三类:(1)KB:根据融合基因的公共资源和实验证据人工策划的1,067个融合基因;(2)Pub:从PubMed摘要的文本挖掘中获得的2,770个融合基因;(3)Seq:从深度测序数据中存档30,001个融合基因候选者。该组包括通过重新分析TCGA项目的RNA-seq数据而发现的融合物,该数据涵盖了来自23种癌症的4,569名患者。

简而言之,对于每个等分试样,将FusionMap应用于来自PCAWG对齐的TopHat2 RNA-seq BAM文件的所有未对齐读数,以检测基因融合。在FusionCatcher / STAR-Fusion管道中,对于每个具有配对末端RNA-seq读段的等分试样,将FusionCatcher应用于原始读段,并带有基因组参考。具体而言,对于每个具有配对末端RNA-seq读段的等分试样,将FusionCatcher应用于原始读段。'-U True; -V True'使用了运行时选项。对于具有单端RNA序列读数的每个等分试样,将STAR-Fusion应用于原始读数,其参考基因组和基因模型与FusionCatcher相同,并且具有默认设置。并行地,将FusionMap应用于来自PCAWG对齐的TopHat2 RNA-seq BAM文件的所有未对齐读段,以检测具有以下非默认选项值的基因融合:MinimalHit = 4; OutputFusionReads = True; RnaMode = True; FileFormat = BAM。

为了减少假阳性融合的数量,根据支持连接的读取次数,序列同源性和正常样品(来自GTEx和PCAWG队列)的出现情况,对两组融合进行过滤以排除融合。为了从这两个管道中获得一个高可信度的共识融合调用集,必须在最终融合集合中包含的融合必须:(i)由两个融合检测工具在至少一个样本中进行检测;和/或(ii)通过一种方法检测,并且在至少一个样品中具有匹配的结构变体。基于WGS的共识体细胞结构变体(v.1.6)从PCAWG存储库中获得,网址为https://dcc.icgc.org/releases/PCAWG

为了与匹配的结构变异证据整合,如果融合断裂点和结构变异断裂点之间的绝对距离不超过500 kb,则认为融合与结构变异相匹配(当融合和结构染色体的染色体之间的距离被认为是无限的)变体断点不同)。当没有直接的结构变异融合的证据时,搜索范围扩大到寻找复合融合。在这种情况下,进行了详尽的搜索,以查找两个断裂点接近融合断裂点且有效距离小于250 kb的结构变体。

最终,将3,540个融合事件作为共识融合调用集,其中,FusionCatcher / STAR-Fusion和FusionMap分别从这2268个中检测到了(其中1,821个具有匹配的结构变异证据),仅通过一种方法就检测到了1,112个并匹配了结构差异证据。

总体上,预计所有检测到的融合转录本中约有36%符合读框,几种UTR介导的融合转录本保留了一个融合伴侣的完整编码序列。这些包括在乳腺肿瘤中的已知融合TBL1XR1-PIK3CA在胃肿瘤中的显着新实例CTBP2-CTNNB1

所有融合都可以在Synapse中找到:https//dcc.icgc.org/releases/PCAWG/transcriptome/fusion

鉴定RNA编辑事件

我们使用了RNA编辑事件调用管道,该管道是先前发布的108的改进版本首先,我们以堆放格式总结了预处理的比对RNA读数对人类参考的碱基调用。其次,然后通过以下质量意识步骤对最初识别的编辑站点进行过滤:(1)考虑候选编辑站点的深度,基本质量,地图质量和变化频率,以进行基本过滤:候选变异位点的碱基质量应≥20,映射质量应≥50,映射读物≥4,支持变异读物≥3,错配频率(变异支持读物/映射读物)≥0.1。(2)基于二项式分布Bnp)用于区分每个错配位点109上的真实变异与测序错误,其中p表示每个转录组测序的背景错配率,n表示该位点上的测序深度。(3)丢弃组合DNA SNP数据集中存在的位点(dbSNP v.138、1000个基因组SNP第三阶段,荷兰人种群110以及BGI内部数据;合并的数据集位于ftp://ftp.genomics.org.cn/pub/icgc-pcawg3)。(4)根据两尾费舍尔精确检验估计链偏向,并用链偏向过滤掉变异。(5)估计并滤除带有位置偏差的变体,例如仅在读取的3'端或5'端发现的位点。(6)丢弃简单重复区域或均聚物区域中的变异位点,或距剪接位点<5 bp。(7)为了减少由于读数与参考基因组高度相似区域的错配而引入的假阳性,我们进行了重新比对过滤。具体而言,我们在候选变体位点上提取了变体支持读段,并通过bwa0.5.9-r16将它们与组合参考(hg19基因组加Ensembl转录本参考v.75)重新比对。如果至少有90%的支持变体的读本重新与该位点对齐,我们将保留一个候选变体位点。最后,所有高度可信的RNA编辑位点均由ANNOVAR注释111(8)为了消除RNA编辑变异体是体细胞变异体的可能性,针对PCAWG WGS体细胞变异体调用对变异体位点进行了位置过滤(9)。最后的两个过滤步骤旨在丰富功能性RNA编辑位点的数量。首先,我们只保留至少一种癌症类型中发生两次以上的事件。其次,我们仅保留在外显子区域发生的事件,这些事件具有预测的错义,无义或停损功能。在具有特定预测功能的外显子区域内过滤的最后一步,在我们的分析与已发表的 108篇文章中,在观察到的RNA编辑事件频率上引起了最大的差异在我们的分析中确定的RNA编辑事件发生频率的比较图(补充表24)与先前公布的分析108被认为是在补充图23

以基因为中心的表格创建

为了对RNA和DNA变异进行联合分析,将每种变异类型浓缩为以二进制基因为中心的格式。因为改变发生在许多不同的尺度(核苷酸,外显子,基因或转录本),为了使其具有可比性,我们将每种改变类型投射到基因体上。我们通过在单个基因中存在或不存在来总结每种改变类型,从而为每个基因样本对每种类型产生一个二进制值。

我们包括在此分析中的事件是:RNA编辑,非同义变体,表达,剪接改变,拷贝数改变,融合和替代启动子。由于其固有的差异,每种变更类型的总结都不同。

RNA编辑事件和非同义变体可以在单个基因体内发生多次,因此,如果这些事件在基因样本对中至少发生一次,则将这些事件标记为1。

对于拷贝数,为了获得每个基因样本对的单个数值,将拷贝数变化在整个基因体上平均。由于我们没有匹配的正常样本要进行比较,因此我们将每个组织型内的异常事件视为重要事件。因此,将大于6或小于1的平均拷贝数变化的值设为1。

与非同义变体相似,基因体内可能发生多个剪接事件。选择基因体内具有最大PSI值的事件作为该基因的候选事件。将基因候选者的PSI值与组织型内的所有样本进行比较,并且仅当其z得分的绝对值大于6并且标准偏差大于0.01时,才将其设置为1(即有效)。在那种类型上

与表达异常值相似,我们使用对数转换后的上四分位数归一化FPKM值(伪计数为1)来计算z得分。在标准差大于0且绝对值大于3的组织型中,所有基因均为确定为异常值。根据每种癌症类型内的相对启动子活性,计算出其他启动子离群值。为了使启动子活性二值化,在每种癌症类型内的相对表达分布上使用了两个z值截止值。

对于ASE离群值,仅将具有显着等位基因失衡(FDR≤5%,等位基因失衡> 0.2,二项式检验)的基因标记为1。对所有已鉴定的ASE事件进行进一步过滤,以仅保留尚未鉴定为印迹的基因26

除了上面提到z -score-filtering,我们还过滤了非同义SNV,RNA编辑事件和剪接事件,以便它们引起移码或替代区域包含HGMD变体112类别“损坏”。

必须注意的是,在许多情况下,计算出z分数并非来自高斯分布,因此某些事件可能会丢失或错误地包含在内。通过选择非常严格的z得分阈值和功能滤波器,我们希望将虚假的异常事件减到最少。

途径分析

对于我们的途径分析,我们使用TCGA途径定义来检查在DNA和RNA水平均具有数种改变的基因和途径113

同现分析

共现分析也在上述二值化的以基因为中心的表上进行,但仅包括变体,表达异常值,替代启动子,替代剪接和融合。由于大量预期同时发生,因此不包括SCNA和ASE。在此分析中,我们要求给定的变异对中的至少一个基因为COSMIC基因。对于每个变更对,基于一组癌症样本中有两个变更,仅一个变更而没有变更的供体的数量,我们进行了Fisher精确检验,以确定变更对是否彼此独立。这样的测试之后进行的Benjamini-Hochberg的多重检验校正以获得FDR(或q值)。为了排除由组织特异性改变引起的潜在假阳性关联,我们对至少50名患者的每种肿瘤类型进行了相同的分析,并仅保留了在两次全癌分析中均显着相关的那些改变对以及至少一种特定的癌症适应症。之间的相关联的显著改变对中,共发生对是那些用比值比大于1途径富集和可视化21114使用R包ReactomePA进行了79使用R包circlize 115生成了circos图剪接相关基因来自分子签名数据库(MSigDB)116中标注为“ REACTOME_MRNA_SPLICING”或“ REACTOME_MRNA_SPLICING_MINOR_PATHWAY”的基因

鉴定具有异源顺式改变机制的基因

顺式变体与基因表达,ASE,融合和剪接的关联中鉴定出具有RNA改变的多种异质机制的基因。对于基因表达,选择与FDR <5%的体细胞eQTL相关的基因。对于ASE,排名最高的5%的基因是由体细胞变体对ASE的预测贡献来排名。对于融合,选择具有结构变异支持的所有RNA融合。为了进行剪接,选择在带注释的剪接位点的10bp或分支点的3bp内具有体细胞突变的基因和相关的剪接。这些相关的剪接事件也必须具有|。z-分数| 大于或等于3,并且异常事件中拼接百分比的差大于或等于10%。

递归分析

对所有九种变异类型,在以二值化基因为中心的表格上进行了复发分析。复发分析通过三个主要步骤进行:(1)在所有样本的每种变化类型内进行汇总。这导致每个基因改变对的总和。(2)将计数转换为每次更改内的等级。排名最小的是最频繁改变的基因。等级在关系中平均分配。(3)为了对每个基因产生一个单一的分数,将改变中次最小的分数用作分数。为了确定显着改变的基因的得分临界值,通过置换产生了无效分布。对每个基因改变对中的样本进行置换,对所有基因和样本进行1,000次,将所有观察结果连接在一起,结果为16。从零分布得出的P <0.05被定义为显着,导致得分大于或等于774被认为是显着。

WExT 117用于测试RNA和DNA改变相互排斥的重要性。作为CDK12改变可能具有功能性影响的进一步证据,我们发现了先前检测到的证据,即先前发现的大串联复制器表型(此处定义为10个大于100 kb的串联复制)与CDK12体细胞eQTL突变之间存在联系55在215个大串联复制器案例中,18个体细胞eQTL携带者中也有一个(P   = 0.032,超几何检验)。

统计检验

除非另有说明,否则所有常见的统计检验都是双向的。没有使用统计方法来确定样本量。实验不是随机的,研究人员在实验和结果评估过程中也不会盲目分配。

报告摘要

有关研究设计的更多信息,请参见与本文链接的《   自然研究报告摘要》

资料可用性

ICGC和TCGA PCAWG联盟生成的体细胞和种系变异调用,突变特征,亚克隆重建以及其他核心数据在随附的第5条中进行了描述,并可从https://dcc.icgc.org/releases/PCAWG下载。有关访问数据(包括原始读取文件)的其他信息,可以在https://docs.icgc.org/pcawg/data/上找到根据ICGC和TCGA项目的数据访问政策,大多数分子,临床和标本数据处于开放层,不需要访问批准。要访问潜在的识别信息,例如种系等位基因和基础测序数据,研究人员将需要通过dbGaP向TCGA数据访问委员会提出申请(https://dbgap.ncbi.nlm.nih.gov/aa/wga.cgi?page=login),以访问数据集的TCGA部分和ICGC数据访问合规办公室(http://icgc.org / daco)表示数据集的ICGC部分。此外,要访问从TCGA供体衍生的体细胞SNV,研究人员还需要获得dbGaP授权。可从https://dcc.icgc.org/releases/PCAWG/transcriptome找到专门从RNA-seq分析获得的数据子文件夹包含对替代启动子使用,替代剪接,RNA融合,基因表达,转录本水平表达和RNA编辑的鉴定和定量。已识别的eQTL位于https://dcc.icgc.org/releases/PCAWG/transcriptome/eQTL可以在子文件夹https://dcc.icgc.org/releases/PCAWG/transcriptome/recurrence_analyses/中找到表示每个基因的所有RNA和DNA改变的二进制表此外,还包括质量控制指标和元数据。一些数据集用synXXXXX登录号表示,可从Synapse(https://www.synapse.org/)获得。




武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297