您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2020
本企业通过iso9001质量体系认证

XPC缺陷通过突变表型和特征突变信号增加血液恶性肿瘤的风险。

 二维码
发表时间:2020-11-23 15:35作者:武汉新启迪Xinqidibio

摘要

最近的研究表明,一种罕见的遗传性疾病XerodermaPigmentosum C(XP-C)患者患白血病的风险显著增加,其特征是全球基因组核苷酸切除修复(GG-NER)的构成性缺陷。XP-C患者非皮肤癌的遗传机制尚不清楚.在本研究中,我们分析了独特的XP-C肿瘤基因组,包括6例白血病和2例肉瘤。我们观察到XP-C与散发性白血病之间的一种特定的突变模式和平均25倍的突变率,我们认为这是导致XP-C的发病率升高和早期出现的原因之一。我们描述了XP-C肿瘤在转录和复制方向上的强烈突变不对称,提示突变与可能是内源性的庞大嘌呤DNA损伤有关。这些发现表明,GG-ner在人体细胞中的大量DNA损伤的形成和修复之间存在着平衡,XP-C患者的这种损伤是被破坏的。

导言

摘要猪干皮病是一组罕见的隐性遗传病,包括七个互补群(A−G),其特征是核苷酸切除修复(NER)通路的构成性缺陷和XP变异(缺失聚合酶η)。1)。NER是修复各种扭曲螺旋DNA加合物的主要途径.NER被细分为全球基因组(GG-NER)和转录偶联(TC-NER)子通路,它们分别优先操作基因组范围和转录的DNA链上的基因。Xp患者表现出明显的肿瘤倾向表型,非黑色素瘤皮肤癌的风险增加了近10,000倍,而由于细胞无法有效修复主要的紫外线光产品,患黑色素瘤的风险增加了2000倍。2,3。XP互补组C(xp-C)以gg-ner缺陷(但未受影响的tc-ner)为特征,是xp最易受肿瘤影响的亚型之一。4。此外,据推测xp患者对某些内部肿瘤(包括白血病、肉瘤)的风险增加了10倍,−增加了20倍。5甲状腺结节6,7.

最近的两项研究报告,xp-C患者的血液系统恶性肿瘤风险增加了一千倍以上。8,9主要表现为骨髓增生异常综合征,继发性急性髓系白血病表现。XP患者体内肿瘤风险增加的遗传机制尚不清楚。

用xp-c动物模型进行的实验显示肝癌和肺癌的发病率很高。10的自发突变率增加了30倍。HPRT1岁小鼠T淋巴细胞基因的研究11。氧化应激的诱导进一步增加了大鼠的体细胞诱变。XPC−/−-缺乏随年龄增长而稳定积累的小鼠12。发现一种类似的肿瘤倾向表型。Ddb 2/克普-GG-ner通路受损的小鼠:这些动物发展出广谱的肿瘤,尤其是造血肿瘤的高发率。13.

在这项工作中,我们对来自XP-C患者的独特的内部肿瘤进行了全基因组测序(WGS),以证明GG-ner缺乏症会导致突变表型,从而导致血液系统恶性肿瘤的易感性。一个特定的基因组突变特征解释了研究的XP-C白血病和肉瘤的大多数突变。观察到的突变谱表明,这一突变过程与嘌呤碱所形成的病变有关。本工作探讨了XP-C患者基因组范围以外的皮肤恶性肿瘤的突变模式及其机制。

结果

Xp-C白血病以突变表型为特征。

我们对6例髓系白血病、1例子宫横纹肌肉瘤、1例乳腺肉瘤以及来自不相关患者的配对正常组织进行了全基因组测序,代表xp-C,这是北非和欧洲xp最常见的一组。14并创建了202,467个体细胞突变的目录(表)1和补充表1)。8份样本中有7份含有给定xp-C群体的创始人c.1643_1644的delTG突变特征。14(表)1)。患者早期发展为内肿瘤,年龄12~30岁(中位肿瘤诊断年龄-24岁)。Xp-C癌症包括体细胞拷贝数畸变(Scnas)和突变,它们是相应类型散发性恶性肿瘤的特征:TP 53白血病第5染色体和第7染色体缺失,双等位基因丢失CDKN2A在乳腺癌及横纹肌肉瘤高度不稳定基因组中的应用(附表)1)。我们比较了TP 53Xp-C白血病与成人新发急性髓系白血病的突变及常见染色体畸变(5q和7q缺失)15(反洗钱);并认为TP 53在我们的数据集中(XP-C和散发性AML分别为5/6和15/200例),P−=2.963 E,优势比=58.66,95%CI=6.04−2872.04;XP-C白血病中5q和7q缺失的比例明显增高(P=1.024 e−06,用于5q和P=0.002985对于7q缺失,费舍尔的精确检验,双面),这可能表明研究的白血病病例接近TP 53根据Papaemmanuil等人的说法,与复杂的核型亚群发生突变。16.

表1所研究的XP-C肿瘤的描述。

我们发现XP-C白血病样本中的体细胞突变与散发性髓系肿瘤相比增加了14.5−31.2(平均24.6)倍(Mann-Whitney)。U测试,双面,P=5.8e−05),对XP-C肉瘤没有这种影响(图1)。1A)。这种效应对单碱基取代(SBS)、小吲哚(ID)和双碱基取代(DBS,图)是一致的。1A).

图1:XP-C和190个组织匹配的散发性癌症的突变负荷和分布.
figure1

aXP-C和散发性癌症的SBS(单碱基替换)、DBS(双碱基替换)和ID(Indels)的数目与扫描电镜间隔有一定的关系。髓系肿瘤的差别非常显著(Mann-Whitney)。U测试,双面,n=6适用于XP-C和n=65例髓系肿瘤),但乳腺肉瘤的突变数目(n=1)和横纹肌肉瘤(n=1)属于散发性肿瘤(n=91和n=34例乳腺癌和肉瘤。b基于样本突变剖面间余弦相似性距离的多维尺度图。XP-C肿瘤明显聚集在一起,远离组织匹配的散发性癌症.c三核苷酸-上下文突变剖面(扫描电镜间隔显示在多个样本,n表示独立癌症样本的数量)。阿x-轴代表突变的上游和下游的核苷酸。XP-C肿瘤彼此之间有很高的相似性(左面板),但散发性肿瘤(右面板)的特征与它们不同。

XPC缺陷是特征突变过程的基础

XP-C肿瘤基因组突变谱与肿瘤类型相似(平均配对余弦相似性为0.964(0.886~0.998))。1B,c,补充图。1和补充数据1)但与组织匹配的散发性肿瘤不同(如图所示)。1B,c)。基于突变谱的XP-C肿瘤的不同分组在190例散发组织匹配的肿瘤中通过多维尺度分析得到进一步证实(图1)。1B)。Indels的突变模式主要表现为C:G和T:A碱基在均聚物序列中的单核苷酸缺失和重复序列中的二核苷酸缺失(补充图)。1B)。二核苷酸的替换没有被特定的类过多地代表,并且表现出广泛的上下文(补充图)。1C).

为了更好地理解xp-c癌症中的突变过程,我们采用非负矩阵分解方法从xp-C和零星组织匹配肿瘤中提取突变信号。17(NMF)。从这个数据集中提取了七个签名(补充图)。2A,bXP-C基因突变率平均为83.1%(乳腺肉瘤57%,横纹肌肉瘤88.9%,白血病84.1−88.7%),而散发性肿瘤中仅见少量突变(平均9.7%,0−34.3%)。2A,b和补充图。2C,d).

图2:已知突变特征背景下XP-C肿瘤的突变谱.

aXp-C肿瘤和组织匹配的散发性癌症的nmf衍生突变信号“C”与宇宙信号8的比较18(余弦相似度=0.86)。bXP-C和组织匹配散发癌NMF衍生突变特征的相对贡献(NMF方法)。XP-C肿瘤突变谱以特征性“C”为主,而其他特征“C”所占比例相对较小的肿瘤则是散发性肿瘤。c基于xp-C肿瘤突变谱、xpc肿瘤和组织匹配散发癌的nmf衍生突变特征、宇宙突变特征(签名1−30)之间的余弦相似性距离的无监督分层聚类。XPCERCC 1器官敲除19。Xp-c肿瘤团簇相互结合,宇宙特征8形成一个更大的团簇。ERCC 1XPC器官击倒。

将这7个提取的签名(A−G)与xp-C的原始突变谱与宇宙突变特征进行了比较。18人有机物的突变谱XPC老鼠ERCC 1击倒19使用无监督聚类。分析表明,xp-C肿瘤突变谱及其nmf衍生突变特征“C”与宇宙信号8(余弦相似性分别为0.87−、0.92和0.86)相似性最高,并与之形成簇。XPCERCC 1器官敲除(图1.2C和补充图。2E)。同时,标记“C”与签名8的差异在于转录不对称,增加了C的突变,减少了T的突变(分别为Vp的1.24倍和1.43倍)。CPT>D和NPCpT > T(其中V表示A、C、T和D-A、G、T;图1.2A).

XP-C肿瘤的突变不对称

与XPC缺乏症相关的突变过程预计将显示转录和未转录的基因链之间的不对称。20(转录偏差:TRB)。这可能与gg-ner受损引起的未修复的大面积损伤有关,而在转录链上,这些损伤将由tc-ner有效修复。21。事实上,XP-C中的转录链偏差对于所有六类核苷酸替换都是非常显著的,而在组织匹配的散发性癌症中,则是弱的或不存在的(图一)。3A−c,e和补充图。3A−c)。此外,在XP-C肿瘤的高表达基因中检测到最强的转录偏差,达到7.34倍(Wilcoxon符号秩检验,双面检验),P在XP-C白血病中=2.91e−11)。3C和补充图。三维空间).

图3:强转录偏倚(TRB)是XP-C肿瘤的一个特殊特征.

aTRB在xp-C白血病样本的大部分三核苷酸背景中被观察到(n=6,表示SEM)。bTRB在XP-C白血病样本中对特定的单核苷酸C:G缺失非常明显(n=6,表示SEM)。cTRB的强度取决于基因的表达水平,在高表达的基因中最明显(SEMs表示为白血病;Poisson,用于乳腺肉瘤的双面试验)。n=1)和横纹肌肉瘤(n(1);Wilcoxon签名-秩,白血病双面试验(n=6),PNS-无显着性,*<0.5,**<0.0 1,*<0.001)。dXP-C白血病转录活性(FPKM>2)和沉默基因(FPKM<0.05)中转录和未转录链分离突变的相对突变特征贡献(FPKM<0.05)。方框描绘的是中间四分位数范围(25-75%百分位数),线条--中位数,胡须--1.5×IQR低于第一个四分位数,高于第三个四分位数。XP-C白血病的主要特征“C”在具有功能的TC-ner转录链上缺失,而典型的散发性白血病的特征“A”和“E”的相对贡献在转录链上富集(t双面测试,在已表达基因的转录和未转录链之间配对n=6),PNS-无显着性,*<0.5,**<0.0 1,*<0.001)。e与散发性癌症(Poisson双面检验)相比,TRB在XP-C样本中具有非常显著的意义,适用于所有六种替代类(Poisson双面检验)。f强TRB在XP-C白血病中的观察(n6)是由转录偶联修复(TC-NER)引起的,而不是转录相关损伤。与相邻基因间区(转录起始点±50 kBP)相比,嘧啶(嘌呤红转录,右侧转录起始位点,TSS)基因非转基因链突变率显著降低,而嘧啶转录链(嘌呤未转录,蓝色)突变率明显降低。

这些影响可以解释为过量的突变,从受损的嘧啶或减少的突变,从受损嘌呤上转录(非编码)链。这两种现象以前都有描述(见Haradhvala等人)。21指转录偶联损伤(TCD)或转录偶联修复(TCR).在TCD病例中,基因突变率应比基因间区增加(Haradhvala等人肝癌分析中的TCD)。21在TCR情况下,基因突变率较基因间区降低。为了区分这两种可能性,可以对嘌呤和嘧啶的基因间和基因区域的突变率进行比较。为了验证TC-NER(嘌呤突变减少对转录链的影响)的可疑效应,我们进行了两项分析。首先,我们比较了转录和未转录基因的相对特征贡献,观察到XP-C白血病标记“C”中优势基因的强烈缺失,以及散发性白血病信号“A”和“E”在转录链上的典型增加(图1)。三维空间)。其次,我们分别比较了具有近端基因间区的转录和未转录基因的突变率,并观察到与嘌呤在转录链上的突变减少相一致的强大而显著的效应(平均1.64倍,Wilcoxon符号秩检验,双面,P=1.694e−13),基因间区与未转录链间嘌呤突变无显着性差异(P>0.05)。P=0.4437;传统的突变表示法描述了嘧啶在未转录的链上的突变减少;3F和补充图。3E)。与此相一致,我们观察到,在不同的复制时间,未转录链上的嘌呤突变与基因间区域的突变没有差异,而在通常与活性基因转录相关的早期复制区,则观察到嘌呤基因突变修复的特征,且在早期复制区中最强。20,22(无花果)4A和补充图。4A)。与SBS类似,DBS和ID中的转录偏倚表明主要损伤是嘌呤基的,特别是在中国共产党>APD和C:G核苷酸的单核苷酸缺失。3B和补充图。3B,c).

图4:XP-C内肿瘤致突变的基因组图谱。
figure4

aXP-C白血病基因转录、未转录DNA链及基因间区突变密度与复制时机的关系(n=6,表示SEM)。复制时间被分成五个分位数。嘧啶在转录链(或嘌呤在未转录的,蓝色)上的突变率与同一垃圾桶内的基因间区域没有差别,这与GG-ner的缺失是一致的。b在XP-C白血病基因组DNA合成过程中,按参考DNA链的倾向被复制为前导(左)或滞后(右)链的基因组区域的嘧啶/嘌呤比值(n=6,表示SEM)。在所有六类突变中,均观察到嘧啶(C和T)(嘌呤滞后链(G和A))的诱变作用强富集。滞后DNA链上的嘌呤突变可能是由于易出错的跨损伤合成所致。c在2~10,000 bp的距离范围内,对聚类突变事件的长度进行评估。采用5BP滑动窗估计中位效应大小(黑色)及其95%置信区间(灰色),并对Bonferroni修正的−log 10进行估计。P值)(红色,Wilcoxon符号-秩检验,双面)对不同长度的簇在实际数据(xp-C白血病,n=6)对照模拟(见“方法”一节)。在长度在2~16 bp之间的短簇中,聚类突变的富集程度最高。dXP-C白血病表观遗传标记强度(5分位数)和相对突变负荷(n=6,表示SEM)。转录区、未转录区和基因间区的突变密度与抑制组蛋白标记H3K27me3和H3K9me3呈正相关,与活性染色质标记(H3K27ac、H3K36me3、H3K4me1)呈负相关。在所有三个基因组类别中,大多数表观遗传标记的作用是相似的。同时,嘧啶(或嘌呤、红)非转录链与H3K27me3和H34M36me3的相关性比其他两类更为重要。

最近的报道表明,在dna复制过程中,滞后链上的大量dna损伤更多地转化为突变,这可能是由于跨病变合成(Tls)聚合酶更频繁地出现错误旁路所致。21,23...的确,我们发现了一种很强的复制偏见(XP-C白血病中所有六种突变类的平均1.38倍,Wilcoxon符号秩检验,双面,P=2.91e−11),与嘌呤DNA损伤优先旁路的延迟链上易出错的TLS聚合酶相兼容(图)。4B和补充图。4C)XPC缺陷性肿瘤。

TLS聚合酶被用来绕过一个庞大的病变也可以插入不正确的碱基相对于未损坏的核苷酸在病变附近。24,25。事实上,在所有8个XP-C肿瘤中,我们观察到与随机分布相比,聚集事件在统计学上明显过剩(图1)。4C和补充图。5)。在XP-C白血病二倍体基因组区,0.3%的SBS形成140个短簇,突变距离小于16 bp,平均为7 bp。4C和补充图。5)。此外,在16 bp的距离内发生的6.56倍的突变在相同的序列读取中被共定位,表明聚类突变会影响相同的等位基因,并且可能是相互关联的(Wilcoxon符号秩检验,双面,P=0.031)。这些结果与存在进入S期并被易出错的跨病变dna合成聚合酶绕过的大体积dna损伤的假设是一致的。23在……里面XPC-缺乏细胞XPC-熟练的细胞,大部分这些损伤可以在复制前以无错误的方式修复。

由于gg-ner基因的缺失,我们期望观察到转录链和未转录链之间的突变率有很大的差异,特别是在已知的活跃转录的开放染色质和早期复制区域,而我们预计基因的非转录链和异色区的基因间区域之间没有差异。20。在XP-C白血病中,开放染色质区的突变负荷在早期复制区和具有活性组蛋白标记的区域(H3K27ac(2.83倍)、H3K36me3(8.45倍)、H3K4me1(2.72倍))明显减少。4A,d)。当只分析未转录的基因和基因间区域时,观察到了相似但较弱的趋势(图一)。4A,d和补充图。4A)。突变负荷也富集在未转录的基因链和基因间区,有抑制性组蛋白标记(H3K27me3(1.26-和1.09-倍)、H3K9me3(1.28-和1.25-倍))和与异染色质相关的晚期复制区(图1)。4A,d)。观察到的模式进一步证实了tc-ner对全色区基因转录链的有效性,同时证明了GG-ner在基因间区域和XP-C样本基因组中的非转录链上都是功能失调的。为了评估不同染色质状态区的相对突变率,我们比较了XP-C白血病和散发性髓系肿瘤。与散发性白血病相比,XP-C白血病不同状态的突变负荷更加均匀,异色区相对于基因和调节元件的突变率也较高(补充图1)。4B).

为了进一步验证xpc缺乏症的突变后果,我们比较了xp-C患者和散发性肿瘤的皮肤鳞状细胞癌(Cscc)的突变情况。20。除XP-C突变状态外,所有CSCC肿瘤均呈现典型的紫外线诱导信号(YPC位点C>T突变(Y指C或T),85.6%),补充图。6A),这是由于嘧啶的大量损伤引起的。然而,在XP-C cSCCs中,相对于非编码链和基因间区域,嘧啶在转录链上的突变明显减少,并且在高表达的基因中有更强的转录偏倚(补充图)。6B,c)。此外,XPC-CSCC在基因转录链的突变率与未转录的基因链和基因间区域的突变率之间的差异明显大于散发性CSCC(附图)。6B,c,d)。这些差异在转录活跃的早期复制区域尤为明显(补充图)。6d)。在XP-C内部肿瘤的情况下,观察到的模式与唯一的不同之处在于突变谱与嘌呤的突变是相容的(图五)。3C,f4A).

大多数突变发生在拷贝数改变之前。

为了评估XP-C肿瘤体细胞突变的时机,我们选择了一个等位基因重复的体细胞拷贝数改变(SCNAs)区域。我们量化了SCNA前后发生的突变数量。26根据变异等位基因频率(n=2307个拷贝中性LOH和4个拷贝增益的突变;补充表2和补充图。7)。平均75%的突变发生在SCNAs之前,表明它们可能在肿瘤发生前或肿瘤发生早期就积累在祖细胞中(Wilcoxon符号秩检验,双面检验),P=0.03906;图1。5A)。因此,在XP-C肿瘤基因组中观察到的突变负担和特征可能部分地代表了在正常人体内细胞生命周期中与病变积累相关的突变。5B).

图5:XP-C肿瘤DNA损伤和突变的积累。

aXP-C癌基因组SCNAs前后发生的相对突变数(每个单倍体DNA拷贝数归一化)。大多数事件显示在SCNA之前积累了过多的突变,并且可能发生在肿瘤-祖细胞或癌变的早期阶段。bXP-C细胞DNA损伤积累和诱变模型。在GG-ner功能失调的XP-C细胞中,除了转录的tc-ner基因外,体积较大的病变无法被有效修复,并且在基因组中的任何地方都持续存在。在S期,引导链上的部分大面积病变可以通过无错误模板转换(TS)机制去除,而在滞后链上,它们被更频繁地通过易出错的跨损伤合成(TLS)转化为突变,从而导致细胞分裂和观察到的转录和复制偏向的突变积累。

讨论

这种突变表型可能解释了一般情况下发生内部癌症的风险增加,特别是xp-C患者血液系统恶性肿瘤的风险增加,这可能与较高的造血干细胞分裂率有关。27。我们的结果与最近在人类和小鼠中的报道一致,表明生发水平的nner衰减与淋巴瘤和肉瘤的风险增加有关。28,29.

衍生的xp-C癌症标志“C”与宇宙信号8的相似性最高,它最初是从肉瘤、髓母细胞瘤、淋巴瘤、慢性淋巴细胞白血病和乳腺癌中比例最高(但通常不超过35%)的散发性肿瘤中提取出来的。18。而在某些作品中,则是由于同源修复不足所致。30,31,最近在器官模型中,信号8与核苷酸切除修复缺陷有关。19。XP-C内肿瘤的突变谱和NMF提取的特征“C”与人的突变谱比较XPC老鼠ERCC 1基因敲除显示了它们之间的高度相似性,强调功能失调的NER是他们共同的突变过程的遗传基础。我们的工作提供了证据,宇宙特征8很可能是由主要由NER修复的大面积损伤相关的突变所致,并且可以被认为是衰减的NER功能的标志。

综上所述,我们的结果和先前的报告表明,在不同的组织类型和体外模型中的NER缺陷揭示了一个独特的类似病因的突变过程。XP-C背景下广泛的核苷酸替换和缺失表明体细胞DNA中存在一种或多种基因毒素引起的不同的大面积损伤。研究对象早期被诊断为XPC-C(中位:3岁),在他们的生命中受到了很好的保护,因此,所观察到的突变可能是由内源性基因毒素引起的,这种毒素在XPC熟练的细胞中几乎完全修复了DNA损伤(图1)。5B).

今后关于查明这一突变过程的性质及其与特定基因毒素(例如自由基、醛类、食品诱变剂)之间的联系的研究,可能会导致拟订XP患者的预防措施。除了来自科摩罗群岛的带有IVS 12突变的乳腺肉瘤样本外,我们的数据集主要代表来自北非和单一的xp-c群体。XPC基因突变(DelTG)促使扩大对不同XP群体内肿瘤发生和潜在突变的研究的重要性。

方法

研究样本

研究中的患者早期被诊断为猪干皮病(中位数:3.5年;范围为1.5−,9年)。本实验以未暴露皮肤的成纤维细胞为研究对象,利用uv-c照射后的非程序dna合成,确定了dna修复缺陷。32。利用表达野生型dna修复基因的重组逆转录病毒对xp基因缺陷进行互补分析。33。Westernblots显示缺乏xpc蛋白。34。这个XPC突变由Sanger测序或全外显子测序确定。根据“赫尔辛基宣言”和法国法律,已从病人和/或其父母那里获得知情、签署的同意。这项研究得到了法国生物医学署(法国巴黎)、波尔多大学医院道德委员会(法国波尔多)和大学血液学研究所(IUH:圣路易斯医院,巴黎)机构审查委员会的批准。对于白血病患者(n6)在Fycoll-Hypaca上分离肿瘤骨髓或外周血单核细胞。以培养的皮肤成纤维细胞为非造血细胞DNA对照,对6例患者中的5例作对照。骨髓CD 34+、CD 14+、CD3+细胞采用磁珠法分类,CD 34+CD 14+细胞为白血病细胞,CD3+T淋巴细胞为对照。通过病理检查和解剖,从FFPE块中提取固体肿瘤(SA002T2和SA007T3)的DNA。从含90%以上肿瘤细胞的FFPE中提取肿瘤DNA。从FFPE的非肿瘤部分提取生殖细胞dna(补充表)。1).

基因组测序和数据处理

基因组测序采用BGISEQ-500或Illumina HiSeq 2500(SA008T6)测序仪,按制造商协议进行平均覆盖度分别为肿瘤45×和正常dna 30×(补充表)。1)使用100 bp成对读。使用BWA-MEM(v0.7.12)软件映射读取35到GRCH 37人类参考基因组,然后使用标准GATK最佳实践管道36处理样本并调用体细胞遗传变异。用GATK去除PCR重复序列,对碱基质量评分进行校正。37(v4.0.10.1),MarkDuplits和BaseRecalibrator工具。使用GATK工具Mutect 2、FilterMutectCalls和FilterByOrientationBias调用和过滤躯体SNV和indels,并加上癌基因注释。38(v1.9.9.0)。SCNAs调用是用facet完成的。39(v0.5.14)。FASTQ质量控制与FastQC制图40(v0.11.7),Samtools41(v1.9),GATK HS度表,MASDURD42(v0.2.5)和Multiqc43(v1.5)。所有处理步骤都是在用snakemake建造的管道中进行的。44(5.4.0版)。

郑等人工作的CSCC。20从基因型和表型数据库(DbGaP)下载SRA文件。数据集的处理和过滤方式与XP-C白血病样本相同.

体细胞变异体的筛选

对于骨髓活检中的XP-C白血病样本,我们对PASS变异体进行了额外的筛选,其中包括至少需要在这两条链上读取一条通路(F1R2.Split(‘,’)1>0&F2R1.splation(‘,’)1>0滤波器)和变异等位基因频率(VAF)最小阈值等于0.05。

为了避免FFPE序列伪影对真变体的污染,我们对乳腺肉瘤(SA007T3)和横纹肌肉瘤(SA002T2)采用了更严格的标准,其中每条至少有2条和1条,最小VAF值分别为0.3和0.4,适用于乳腺癌和横纹肌肉瘤。这些阈值是根据经验选择的,同时考虑到样品的高纯度/倍性(补充表)。1)和VAF的FFPE工艺品,可在0.01和0.15之间的变化。45.

此外,所有使用的vcf文件都是根据人类基因组的可比对性图进行过滤的。46来自UCSC浏览器47(Https://genome.ucsc.edu/cgi-bin/hgFileUi?db=hg19&g=wgEncodeMapability当K-mer长度为75 bp(WgEncodeCrgMapabilityAlign75mer)时,筛选出得分<1的重叠区域和UCSC浏览器黑名单区域(Duke和DAC)。

突变特征分析

为了将VCF文件转换成一个突变矩阵目录,我们使用了MutationalPatterns软件v.1.11.048。用SigProfilerMatrixGeneratorv.1.0软件分析indels和双核苷酸替换的突变矩阵49.

为了与xp-c肿瘤进行比较,我们使用了来自icgc pcawg收集的190个组织匹配的完整癌症基因组。50其中包括来自以下项目的癌症:慢性髓样疾病-英国(n=57),急性髓系白血病-KR(n=8),乳腺癌TCGA US(n=91),Sarcoma-TCGA US(n=34)。我们只使用高质量的变异体,并且在人类基因组的低映射和黑名单区域筛选出突变。

为了构造多维标度图(MDS),我们使用MutationalPatterns包计算了所有样本之间的成对余弦相似距离。48然后在R中对prcomp()函数中样本间的距离矩阵进行了处理。

为了进行非负矩阵分解方法和提取新的突变特征,我们使用xp-C样本和PCAWG样本的组织匹配数据集(n=190)在用MutationalPatterns R包实现的NMF框架中48具有500个初始化运行。在对诊断图进行检查后(附图)。2A),我们选择K=7(根据Hatchins等人的数据,RSS处于通货膨胀点)。51)提取突变特征(附图)。2B),然后根据余弦相似性将它们分配给已知的突变签名(如图所示)。2C和补充图。2E)。选择较低的(K=4)或更高的分解秩(K=9)对提取的签名“C”及其在样品中的比例影响不显著。

为了量化nmf衍生突变信号(A−G)在xp-C肿瘤和组织匹配pcawg癌中的贡献,我们使用了基于二次规划的算法。52在SigsPack R包中实现53(无花果)2B)。为了更好地理解和量化xp-C数据集中nmf派生的突变签名的贡献,我们还使用了引导(n=10,000)在替换类上接收每个签名贡献的置信区间(补充图)。二维空间).

转录链偏倚分析

利用突变Patterns软件包对每个样本和6个突变类进行转录链偏倚(TRB)的量化。48。该函数计算了嘧啶(C>A,T,G;T>A,C,G)与嘌呤突变(G>A,C,T;A>C,G,T)之间的差异。嘌呤和嘧啶突变数量的不平等被认为是转录偏差的证据,并通过Poisson检验评估了统计学意义。

为了计算低水平和高水平表达的基因之间的组织特异性trb,我们使用表观遗传路线图项目的rpkm值rna-seq。54(E 028为乳腺肉瘤,E 050为白血病,E 100为横纹肌肉瘤)。在转录或未转录的基因链上分离每个基因突变,按表达水平将基因分成两类(RPKM:0−0.1,0.1−1,1−10,10−20,000,对白血病;0−0.1,0.1−2,000,对于乳腺肉瘤和横纹肌肉瘤)。分别用Poisson试验、双侧(乳腺肉瘤和横纹肌肉瘤的单个标本)或Wilcoxon符号秩检验(白血病,n然后,为了直观起见,每个垃圾桶中基因的总长度对突变的数量进行了归一化处理。

根据大多数突变是由嘌呤DNA损伤引起的假设,我们能够计算转录起始位点(Tsss)周围的链特异性突变密度。将转录和未转录的基因链以及TSS基因间区附近的5‘’分别处理。所有注释基因的tsss(GENECODE V30)55)使用BEDTools v2.29.0检索。56然后,将位于±50 kb的tsss的区域分割成1kb的间隔。去除与其他基因间或基因间隔重叠的1 kb区间(主要表现为重叠或紧密定位的基因)。该方法使237个5‘近端的TSS基因间区和151个基因区。

复制定时

我们使用了来自12个细胞系的复制eq数据。57,58若要计算一致复制时间区域,请执行以下操作。对于每个1kb区域,我们计算了所有细胞株之间的标准差,去除了所有标准差大于15的区域。对于其他不同细胞系一致的区域,我们计算了平均值,并在分析过程中使用了它们。根据基因组的复制时间值,将基因组分为5个回收箱(10−25,25−40,40−55,55−70,70−85),并计算每个垃圾桶的突变密度,调整每个区域的长度。我们独立计算了基因和基因间区域的突变密度对复制时间的依赖关系,该区域将转录链和未转录链上的突变分离开来。

表观遗传标记和突变密度

为了推断各种表观遗传标记(甲基化、H3K27ac、H3K27me3、H3K36me3、H3K4me1、H3K9me3)的突变密度与强度之间的关系,我们下载了路线图表观基因组项目的大型文件54然后把它们转换成假发,然后是床上文件(组织E 050)。用BEDOPS v2.4.37(BEDMAP)软件计算了1 kb非重叠窗口在常染色体上的平均强度。59。我们只使用基因组窗口,具有较高的比对能力(等于1),至少90%的窗口。标记强度标准化为1−100范围。对于每个窗口,我们将标记强度拆分为5个分位数(以R为单位)。60)并计算了基因间区、转录区和非转基因区各标记的相对突变密度。

ChromHMM扩展的18态染色质态模型(E 050)作为床文件下载。54所有对齐度最高的窗口都被过滤掉,其宽度小于90%。然后计算XP-C白血病和散发性髓系肿瘤各样本的相对突变密度和染色质状态。


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297