条文本
摘要
背景通过新一代测序对大肠癌(CRC)基因组进行表征,发现了新的周期性突变基因。然而,基因组数据尚未用于结直肠癌的预测。
客观的确定CRC患者中具有预后意义的复发性体细胞突变。
方法研究人员对22例CRC患者的肿瘤组织进行了外显子组测序,以确定其体细胞突变,随后对另外160例患者进行了靶向捕获测序,验证了187个复发基因和通路相关基因。
结果7个显著突变基因,包括4个报道的(APC,TP53,喀斯特而且SMAD4)和三个新的周期性突变基因(CDH10,FAT4而且DOCK2),在我们的CRC队列中表现出高突变患病率(新癌症基因6-14%)和高于预期的非沉默突变数量。在预测方面,5个基因签名(CDH10,COL6A3,SMAD4,TMEM132D,VCAN),其中这些基因中的一个或多个突变与独立于肿瘤淋巴结转移(TNM)分期的更好的总生存率显著相关。突变组的中位生存时间为80.4个月,而野生型组为42.4个月(p=0.0051)。使用来自癌症基因组图谱研究的数据集成功地验证了这一特征的预后意义。
结论新一代测序技术的应用已经在结直肠癌中发现了三个新的显著突变基因,以及一个突变特征,可以预测独立于TNM分期的结直肠癌患者的生存结局。
- 结肠肿瘤
这是一篇开放获取文章,根据创作共用属性非商业(CC BY-NC 3.0)许可证发布,该许可证允许其他人以非商业方式分发、混音、改编、在此作品的基础上进行构建,并以不同的条款许可其衍生作品,前提是原始作品被正确引用且使用是非商业性的。看到的:http://creativecommons.org/licenses/by-nc/3.0/
数据来自Altmetric.com
本研究的意义
关于这个问题我们已经知道了什么?
通过Sanger和下一代测序进行的大规模突变分析已经在主要来自白种人的结直肠癌(CRC)患者中确定了少数反复突变的基因。
结直肠癌患者的预后主要依赖于肿瘤-淋巴结转移(TNM)分期。
BRAF突变和微卫星稳定状态也可以预测CRC患者的生存。
新的发现是什么?
三种新的周期性突变基因,即CDH10,FAT4而且DOCK2,在亚洲CRC队列中表现出高突变患病率。
五个基因标记的突变状态(CDH10,COL6A3,SMAD4,TMEM132D,VCAN)可以在两个独立的队列中预测与TNM分期无关的CRC患者的生存。
在可预见的未来,它会对临床实践产生怎样的影响?
新的周期性突变基因的鉴定将扩大目前的药物靶点列表,从而促进新的靶向治疗方法的发展。
5个基因签名将有助于对具有不同预测临床结果的早期CRC患者进行分层。
简介
结直肠癌(CRC)是全球第三大常见癌症和第四大癌症相关死亡原因,其发病率在世界一些地区,包括亚洲迅速上升。1,2CRC的分子发病机制的特点是连续获得遗传改变,导致原癌基因的异常激活和肿瘤抑制基因的失活。根据Fearon和Vogelstein提出的散发性结直肠癌经典肿瘤进展模型,APC突变参与了腺瘤的形成,随后是致癌性突变喀斯特这促进了中间腺瘤向癌的转变TP53失活是晚期事件。3.自过去十年以来,研究工作已经从研究单个基因的突变(例如,SMAD4)到癌症基因异常的全基因组鉴定。4,5Sjoblom等和木材等首次使用大规模基于pcr的测序来描绘CRC的基因组景观,其中许多知名的高频突变基因被确定为“基因山”(即APC,喀斯特,TP53 FBXW7)被发现散布着许多低频率突变的“基因丘”。6,7利用下一代测序技术,癌症基因组图谱(TCGA)网络报告了在其他基因中常见的突变,如ARID1A,SOX9而且FAM123B.8这些研究还表明,CRC在人群水平上具有高度的遗传异质性。
体细胞突变的识别是理解CRC分子机制和开发新疗法的关键。由于已知特定基因的突变与肿瘤的不同生物学行为相关,因此还假定基因组数据可用于疾病预测,以对具有不同临床结果的CRC患者进行分层。9虽然辅助治疗被推荐用于III期结直肠癌患者,但这种治疗对于II期患者仍然存在争议,因为其毒性可能超过其益处。10因此,对不同治疗方案预测预后不同的结直肠癌患者进行分层至关重要。迄今为止,结直肠癌患者的预后仍然严重依赖于肿瘤-淋巴结转移(TNM)分期或类似的组织临床系统。11然而,具有相同组织临床分期的患者的临床结果可能是不一致的。人们努力开发新的生物标记来弥补这一不足。为此,由DNA错配修复缺陷引起的微卫星不稳定性(MSI)与更好的预后相关。12BRAF突变也被认为与晚期结直肠癌患者缩短生存期有关。13分子分析,如基因表达模式,也被发现有助于预测结直肠癌的临床结果。14然而,CRC中全基因组水平的体细胞突变模式与临床病理特征(包括患者生存)之间的关系尚未得到深入研究。
在本研究中,我们采用两阶段方法对CRC患者进行基因组发现,以确定潜在的新的复发突变基因和具有预后价值的突变标记/模式。我们首先进行了外显子组测序,以确定22个肿瘤组织中的体细胞突变。然后对160例CRC患者中187个复发和通路相关基因进行靶向捕获测序,并提供详细的临床病理信息,以评估其突变患病率和临床相关性。
方法
样本采集和基因组DNA制备
分别使用QIAamp DNA Mini Kit (Qiagen, Germany)和Gentra Puregene Blood Kit (Gentra Systems, Minneapolis, Minnesota, USA)从原发性CRC组织和匹配的淋巴细胞样本中提取基因组DNA。所有样本均来自术前未接受化疗的原发性结直肠癌患者。术后,所有I期患者均未接受进一步化疗,而III期和部分II期患者接受5-氟尿嘧啶、亚叶酸钙和奥沙利铂(FOLFOX)方案治疗。IV期患者接受FOLFOX或5-氟尿嘧啶-亚叶酸-伊立替康(FOLFIRI)方案,伊立替康联合西妥昔单抗作为二线治疗。
基于Illumina的全外显子组测序和reads比对
我们的生物信息管道显示在图1.来自肿瘤和淋巴细胞的基因组DNA被碎片化并混合到商业上可用的捕获阵列中进行富集。外显子组捕获过程使用安捷伦的SureSelect Human All Exon Kit协议(安捷伦科技)进行。使用Illumina HiSeq 2000上的90 bp对端技术对结果DNA文库进行测序,插入长度平均为200 bp。采用Hiseq Control Software V.1.1.37和Real Time analysis V.1.7.45软件按标准参数进行实时图像分析和基础调用。对象的读取对齐之前智人参考基因组,我们删除了符合以下标准的低质量reads:(1) reads包括测序适配器;(2)歧义碱基与读取长度的比值≥0.1;(3)读的碱基有五个以上不明确。BWA测序结果与参考基因组hg18进行比对v0.5.9(bwa aln -o 1 -e 50 -m 100 000 -t 4 -i 15 -q 10 -i)。15使用SAMtools将sam格式的比对结果转换为bam格式的比对文件,然后使用Genome Analysis Toolkit (GATK IndelRealigner)对局部区域的比对精度进行校准皮卡德标记副本。16,17
体细胞突变和失活的检测
MuTect用于检测发现和验证队列中的体细胞突变,这是一种检测体细胞点突变的敏感工具,解决肿瘤的杂质和异质性问题。18经过人工检查,发现位于“错配”富集区域的突变被丢弃。最小覆盖率设置为10X,突变等位基因分数≥10%,且≥5个支持该突变的reads。这些体细胞突变用ANNOVAR标记。19使用VarScan2检测体细胞索引,通过将肿瘤BAM文件与匹配的正常BAM文件进行比较,参数如下:min-coverage 10;min-coverage-normal 10;min-coverage-tumour 10;min-var-freq 0.1;min-freq-for-hom 0.75;somatic-p-value 0.05;min-avg-qual 0;问0。20.通过人工检查去除假阳性插孔。MutSigCV检测显著突变基因(SMGs)。
显著突变通路(SMPs)的鉴定
SMPs与肿瘤发生有因果关系,因此由于驱动突变所赋予的选择性优势,它们的组成基因表现出高于预期的变异数。Kan报告的一种统计方法等为了计算精度和计算速度,采用了修改方法。21
统计分析
首先从单变量Cox比例风险模型估计与五个基因特征突变和其他预测变量相关的死亡相对风险。还构建了多变量Cox模型来估计5个基因特征突变的HR。通过Kaplan-Meier生存曲线和log-rank检验评估与突变状态相关的总生存期。TCGA研究中随访生存数据超过400天的患者被作为独立队列用于验证五个基因标记的预后意义。所有的分析都是使用开源软件进行的RLinux软件V.2.15 (http://www.r-project.org/).以p < 0.05为有统计学意义。对于驱动基因预测,问其他研究中使用的小于0.1的值被认为具有统计学意义。22,23
结果
通过外显子组测序鉴定22例CRC患者的体细胞突变
为了描述CRC患者的体细胞突变,对21例患者的肿瘤和血液淋巴细胞DNA进行了全外显子组捕获和大规模并行测序。在另一个CRC病例中也进行了全基因组测序,其中外显子区域的体细胞突变有待进一步分析。22例均为微卫星稳定型(MSS)或低MSI。生成72到90个碱基对的猎枪配对末端reads,并对准人类参考基因组(UCSC hg18),结果从22个CRC基因组和22个匹配的淋巴细胞对照中,中位单倍体外显子组覆盖率分别为57倍和49倍(见在线补充图S1)。在50倍的测序深度下,估计可以检测到85%的最小变异等位基因频率为10%的体细胞突变。18作为一项独立平台验证,外显子组测序鉴定的25个体细胞突变中有22个(88.0%)被Sanger测序成功确认。CRC中平均85.7%的外显子区和85.2%的淋巴细胞样本被超过10个reads覆盖,用于变异调用。从肿瘤中获得的变异集与匹配的淋巴细胞DNA和dbSNP132进行比较,以建立每个肿瘤样本中癌症特异性的非种系突变目录。在22例中国结直肠癌患者的外显子区共鉴定出1307个(996个非沉默突变和311个沉默突变)体细胞突变。22例CRC患者的体细胞突变数量从13到109,中位数为52.5(见在线补充表S1),这与TCGA报告的非高突变CRC没有显著差异(即,每个肿瘤58个;Wilcoxon检验,p=0.52)。8图2A显示22例CRC患者中观察到的突变改变以C/G>T/A转移为主(49.1%)。突变数量和核苷酸变化模式与之前的CRC基因组学研究一致。6 - 8这22例CRC患者的突变情况在图2B。
发现队列中反复突变的基因和改变的通路
周期性突变基因的鉴定是发现重要原癌基因和肿瘤抑制基因的关键。接下来,我们编制了一份反复发生体细胞突变的基因列表。在22例CRC患者中共鉴定出996个非沉默突变(分别见在线补充表S2和S3,完整的点突变和小indels列表),覆盖856个基因(见在线补充表S4)。通过这种“复发基因”方法,在发现队列中的两个或更多患者中发现52个基因存在体细胞突变。在这52个周期性突变基因中,有5个(也就是说,APC,TP53,喀斯特,NF1,FBXW7)已在癌症基因普查(cancer Gene普查数据库于2012年3月15日下载)中被记录为癌症基因。我们成功地确认了APC作为我们结肠癌系列中最常突变的基因之一,22例患者中有18例可检测到非沉默突变。另外两个众所周知的结肠癌相关基因的非沉默突变,即,TP53而且喀斯特在22例患者中,也分别有9例和6例检测到。此外,另一个被广泛报道的crc相关基因FBXW7发现6个体细胞突变,即2个错义突变,2个截断和2个移码插入/删除。然而,在已知的CRC驱动程序中没有检测到突变PIK3CA以及新发现的与高突变相关的基因极.利用来自22例患者的856个具有非沉默突变的基因数据集,使用注释、可视化和集成发现数据库进行基因本体分析,结果显示两个经典的crc相关信号通路显著富集,即ErbB信号通路和cadherin/Wnt信号通路(p<0.01,错误发现率(FDR) <5%)。
在160例CRC病例的验证队列中捕获187个基因的测序
为了确定新发现的CRC相关基因的突变流行率和临床相关性,我们通过靶向捕获测序对160例CRC患者的肿瘤和血液淋巴细胞中187个复发突变或通路相关基因的外显子区进行了测序,并提供了详细的临床病理信息(患者信息见在线补充表S5)。对160对CRC基因组和匹配的淋巴细胞对照进行中位深度为126倍的靶区测序(见在线补充图S2)。然后,采用类似于外显子组测序的生物信息学方法对验证队列中这些选定基因的体细胞突变进行编目。在160例患者中捕获的187个基因的突变景观被描绘在图3答:在160例CRC患者中,140例在捕获的基因集中检测到至少一个非沉默突变。在160例CRC患者中,靶向捕获区的非沉默体细胞突变数量从0到432,中位数为5(见在线补充表S6)。以体细胞突变率>12 / Mb为边界,815例CRC患者被认为是高突变肿瘤(见在线补充图S3)。正如所料,APC(56.3%),TP53(41.9%)和喀斯特(32.5%)是160例捕获测序CRC患者中最常见的三个非沉默突变基因。有趣的是,我们在多个基因中观察到高患病率(>5%)的非沉默突变,包括SYNE1(17.5%),FAT4(14.4%),自动取款机(10.6%),USH2A(10.0%),CDH10(8.8%)和MLL3(8.8%)(见网上补充表S7-9)。
CRC中基因和通路发生显著突变
为了识别与肿瘤发生有因果关系并因此在肿瘤发生中被积极选择的突变基因,我们结合外显子组和捕获测序的数据,编制了一份由于MutSigCV的选择优势而表现出高于预期变异数的smg列表。由此分析出7个smg,即APC(59.3%),喀斯特(31.9%),TP53(41.8%),FAT4(14.3%),CDH10(8.2%),DOCK2(7.7%)和SMAD4182例结直肠癌患者(6.0%)(图3B;核反应能量< 0.1)。也就是四种基因APC,TP53,喀斯特而且SMAD4,在之前的CRC基因组研究中已报道,而其余三个基因(CDH10,FAT4而且DOCK2)是新的crc相关基因(图3C).这7个smg通过SIFT和PolyPhen2检测到的潜在蛋白功能改变突变数量见在线补充表S10。Oncodrive是另一种通过评估突变的功能影响来发现smg的方法,24额外的基因,如ACTC1,SMAD3而且PIK3R3(见在线补充表S11)。
不同信号通路组分的突变频率分析表明,CRC中几种经典的CRC相关通路发生了显著突变(图4一个)。图4B为Wnt/β-catenin信号通路、ErbB信号通路、TGF-β信号通路及DNA损伤感知与修复中主要信号成分的突变频率。与之前的发现一致,25APC(59.3%)和CTNNB1(3.8%)突变是Wnt/β-catenin信号的主要遗传异常。大部分CRC患者(53.9%)也在DNA损伤传感和修复系统的一个或多个成分中存在突变,包括TP53(41.8%),自动取款机(9.9%) /ATR(2.7%)(编码DNA损伤传感蛋白),EP300(2.7%)(编码p53共激活子)和乳腺癌易感基因1(2.2%)(编码DNA双链断裂修复酶)。在ErbB级联中,除了优势喀斯特突变(31.9%),我们观察到新的复发突变NF1(4.4%),编码一种假定的肿瘤抑制蛋白,称为神经纤维蛋白,加速鸟苷三磷酸水解,从而使Ras失活。26
tnm分期独立预测的五个基因特征
为了在临床环境中开发一种用于预测的突变标记,我们通过结合与更好的总生存率相关的突变基因构建了一种基因标记。仅纳入突变发生率≥5%的基因,以充分代表特征阳性组和特征阴性组的CRC患者。使用这种方法,我们开发了一个签名组成CDH10,COL6A3,SMAD4,TMEM132D,VCAN其中,大约四分之一的CRC患者发生了一个或多个组成基因的突变。在多变量分析中,这五个基因特征的突变显著预测了CRC患者更好的总生存期,而不依赖于肿瘤分化和TNM分期(表1).该基因标记突变患者的中位总生存期在突变组为80.4个月,而野生型组为42.4个月(p=0.0051;图5A). I+II期患者的亚组分析显示,这种预后突变特征可用于对早期CRC中具有不同生存结局的CRC患者进行分层(p=0.0362;图5 b)。此外,MSS和msi低/高的CRC患者中这5个基因标记的突变患病率和预后意义相似(见在线补充图S4A, B)喀斯特突变本身在我们的队列中没有预后意义,使用我们的5个基因标记来预测生存似乎在野生型CRC患者中更有效喀斯特基因型较突变者高喀斯特(见在线补充图S4C, D)。接下来,我们通过从TCGA研究中提取突变和生存数据,在一个独立队列中验证了我们的预后标志物。8与我们的发现一致的是,在TCGA队列中,这5个基因签名中的一个或多个基因突变与更好的生存率显著相关(p=0.0345;图5C).重要的是,这种相关性在早期(即I+II期)CRC患者中很容易观察到(p=0.0106;图5D)。多变量分析显示,TCGA队列中5个基因标记的突变与较好的总生存期显著相关,与TNM分期和MSI状态无关(见在线补充表S12)。进一步的亚组分析表明,在TCGA队列中排除MSI病例后,仍然可以观察到一致的相关性(p=0.0258;见在线补充图S4E)。通过合并来自两个队列的MSS患者,5个基因标记的突变与更好的生存率显著相关,表明标记突变患者的生存优势并非次要于MSI (p=0.0057;图5E)。
讨论
通过基因组发现的两阶段方法,我们的目标是发现对结直肠癌发病机制重要的基因。22个CRC基因组全外显子组测序,随后通过靶向捕获测序进行大队列验证APC,喀斯特而且TP53在我们的患者队列中,突变是主要的遗传缺陷。我们的研究还确定了一些先前报道的crc相关基因(例如,SMAD4,MLL3,CTNNB1,自动取款机而且DCC),证实了这些基因在结直肠癌发展中的重要性。8,25,27,28突变谱也与以往研究一致,C/G>T/A跃迁是最常见的核苷酸变化。8这种优势归因于几个因素,包括5-甲基胞嘧啶在CpG岛脱氨,非甲基胞嘧啶脱氨到尿嘧啶,以及O6-鸟嘌呤甲基化。29然而,值得注意的是,在我们研究的第一部分,外显子组测序的深度可能相对不理想,肿瘤样本没有被显微解剖,在某些情况下,“污染”正常细胞的比例可能很高。
本研究最显著的发现之一是发现了CRC中未描述的新型smg。特别是,一个SMG(即,FAT4>突变率为10%,2个smg(即DOCK2,CDH10)的突变频率为>7%。所有三个新发现的smg(即,FAT4,CDH10,DOCK2)与肿瘤发生有关。FAT4是人类与果蝇的同源物种之一吗脂肪该蛋白编码钙粘蛋白相关蛋白,抑制肿瘤形成并激活平面细胞极性信号(一种非典型的Wnt信号通路)。30.表观遗传和遗传机制涉及的破坏FAT4在人类癌症中的作用。为此,启动子的超甲基化FAT4在乳腺癌和肺癌中也有报道。31,32FAT4在黑色素瘤和胃癌中也有反复突变。33,34在后者中,FAT4的下调降低了细胞黏附,但强烈诱导细胞迁移和侵袭。34我们的研究首次证明14.3%的结直肠癌患者有港湾FAT4突变。类似于FAT4,CDH10编码钙粘蛋白。钙粘蛋白-10是一种II型经典钙粘蛋白,在细胞-细胞粘附中起作用。先前的一项研究表明,cadherin-10可以与典型Wnt信号的中介β-catenin结合。35与其作为肿瘤抑制因子的假定作用一致,钙粘蛋白-10在其表达极低或无法检测到的前列腺癌中表达下调。36相比之下FAT4而且CDH10,DOCK2可能作为一种致癌基因。DOCK2是一种促进RAC1激活的鸟嘌呤核苷酸交换因子。最近的两项研究表明,异常的RAC1激活可诱导CRC细胞中的核因子-κB和Wnt/β-catenin信号通路。37,38为此,反复发生突变DOCK2以及它的合作伙伴ELMO1在食管腺癌中,多个位点上的RAC1蛋白被认为与它们的自抑制活性的丧失有关,从而增强了RAC1的功能。39这些发现暗示了基因突变的可能性FAT4,CDH10而且DOCK2可以破坏典型和非典型Wnt信号,从而促进CRC。
除了鉴定新的smg和smp外,我们还着手揭示体细胞突变模式与临床病理特征之间的潜在相关性,以设计一种临床适用的预后标志物。在这方面,我们开发了一个由五个基因组成的预后突变标记CDH10,COL6A3,SMAD4,TMEM132D,VCAN.所有这些基因的突变率均≥5%,在我们的队列中,约四分之一的CRC患者至少存在这五个基因的一个突变。这些患者表现出良好的预后独立于其他临床病理参数。在这些基因中,CDH10,TMEM132D而且VCAN显示出相互排他性喀斯特突变(见在线补充表S13)。这些发现表明,这种特征突变的肿瘤可能代表了CRC的一种分子亚型,具有不同的预后和遗传特征。最重要的是,这一特征在TCGA队列中成功验证了预后意义。我们的预后标志物的临床应用可能有助于区分具有不同生存结局的CRC患者,因此可以对预测预后较差的患者给予更积极的辅助化疗。然而,值得注意的是,在我们的生存分析中,异质治疗可能是一个警告。在临床环境中,为了促进我们的预后标志物的应用,还需要开发一种用于靶向捕获的标准试剂盒和新一代测序仪器的可用性。
综上所述,我们成功地在CRC中识别了一些新的smg。与临床实践相关的是,设计了一个5个基因突变特征来预测CRC患者的生存。这些发现是我们对结直肠癌遗传基础认识的重大突破,并实现了利用基因组数据进行预测。
参考文献
补充材料
脚注
JY, WKKW和XL是共同第一作者。
贡献者JY, JJYS, H-FK, HY和JW设计并管理该项目。NZ、JC、SSMN、PBSL、JHT、KFT制备样品。XL、JH、CY、ZG、JY、ML、QW、YLi进行生物信息学分析。X-XL、QL和YP进行实验。JY和WKKW分析数据并撰写论文。NW, YLu, YLi, FKLC和JJYS对论文进行了修订。
资金香港中文大学癌症基因组计划(2009)、深圳市科技研发基金(JCYJ JCYJ20120619152326450)、中国863计划基金(2012AA02A506)、香港研资局主题研究计划(T12-403-11)、中国973计划基金(2013CB531401)和深圳虚拟大学园支持计划资助香港中文大学深圳研究院。研究发起者在研究设计和数据收集、分析和解释中没有发挥任何作用。
相互竞争的利益一个也没有。
病人的同意获得的。
伦理批准该研究方案已获香港中文大学临床研究伦理委员会批准。
出处和同行评审不是委托;外部同行评审。