- 首页 > 全外显子测序
全外显子测序
全外显子测序 (Whole-exome sequencing,WES)是高频应用基因组测序方法。外显子是人基因组的蛋白编码区域,利用序列捕获技术可以将其DNA捕获并且富集。虽然外显子区域仅占全基因组1%左右[1],却包含了85%的致病突变[2]。相比全基因组测序,全外显子测序更加经济、高效。外显子组测序主要用于识别和研究与疾病、种群进化相关的编码区及UTR区域内的变异。结合大量的公共数据库提供的外显子数据,有利于更好地解释所得变异与疾病的关系。
技术优势
- 直接对蛋白编码序列进行测序,找出影响蛋白结构的变异
- 高深度测序,可发现变异频率低于1%的罕见变异
- 仅针对外显子组区域,有效降低测序费用、存储空间和工作量
产品应用
相比于全基因组测序,外显子区域占比小(约1%),因此更容易做到更高深度测序,检测到更多低频和罕见变异,同时也能降低测序费用和存储空间。外显子测序,50M的捕获区域,测序数据量10-12Gb就可以得到100X的有效测序深度。这个特性决定了外显子测序在遗传性疾病和肿瘤研究中的重要作用,特别是做肿瘤异质性研究。由于肿瘤异质性,肿瘤内部有很多亚克隆,有些亚克隆的占比很低,应用外显子高深度测序可以更快、更经济地检测出普通测序深度难以发现的体细胞突变。
图1 外显子测序产品应用
华大基因采用Agilent等液相捕获系统,对人的全外显子组区域的DNA进行高效捕获富集,然后提供基于DNBSEQTM测序技术的捕获测序服务。建库和杂交实验采用官方指定试剂盒,严格使用说明书推荐的试剂和耗材,并参照经过优化的实验流程进行操作。如下为DNBSEQTM外显子测序技术流程。
图2 DNBSEQTM平台外显子建库流程
测序原理
DNBSEQTM平台外显子测序产品 ,采用先进的联合探针锚定聚合技术(cPAS)和改进的DNA纳米球(DNB)核心测序技术,提供一站式、开放性的基因测序全面解决方案,具备精准、简易、快速、灵活、可拓展等优点,既能充分适用临床检测,也能满足更广泛的科研需求。该测序平台产品的外显子数据均一性好、单个碱基质量值高。该平台有五大关键的技术:DNB、Pattern array、cPAS、MDA-PE、sCMOS,保证了该平台测序的准确性。
图3 DNBSEQTM平台优势
首先,单链环状 DNA 分子通过滚环复制,线性扩增2-3个数量级,增强信号。所产生的扩增产物称为DNA纳米球(DNA nanoball, DNB),采用高密度DNA纳米芯片技术,将得到的DNBs加到芯片上的网状小孔内(固定在阵列化的硅芯片上)。通过联合探针锚定聚合技术(cPAS)和多重置换扩增的双末端测序法(MDA-PE)得到读长为100bp/150bp的双末端序列。
图4 DNA 纳米球示意图
MDA-PE的具体原理是:完成第一链(Forward Strand)测序后,在具备链置换功能的高保真聚合酶的作用下,合成第二链(Reverse Strand),并通过DNA分子锚,进行第二链的测序。MDA-PE法具有合成快、准确度高等优点。与其他二代测序技术相比较,DNB测序技术具有以下几个优势:
- DNB通过增加待测DNA的拷贝数而增强了信号强度,从而提高测序准确度。
- 不同于PCR指数扩增,滚环扩增技术的扩增错误不会累积。
- DNB与芯片上的网状小孔大小相同,每个小孔只固定一个DNB,保证信号点之间不产生相互干扰。
- 阵列化测序芯片和DNB测序技术的结合,使得成像系统像素和测序芯片的面积得到充分利用。
信息分析
信息分析从测序的下机数据(raw data)开始,原始下机数据过滤掉接头、低质量碱基、未测出的碱基(以 N 表示)后比对到参考基因组上,进行SNP检测和InDel或者CNV分析,然后通过数据库注释,对变异检测的结果通过基于变异有害性、样本情况和基因功能表型三种分析策略,筛选出于疾病相关的有害性位点或基因。另外, 为了保证高质量的测序数据,在整个分析流程中设置了严格的数据质控体系(QC)。
外显子测序主要适用于肿瘤易感性、致病机理、癌症异质性、转移和复发以及药物疗效研究。其中癌症异质性需要高深度测序,建议200X以上有效深度,FFPE样品建议200-300X对应的数据量,需要尽量全面、准确地检测肿瘤组织发生的所有突变信息,所以测序深度需要尽可能高,以检测低丰度突变位点。ctDNA建议500X及以上有效测序深度,用于检测Somatic 突变以及频率来判断ctDNA的存在和水平,从而反应肿瘤负荷等信息。
图6 肿瘤信息分析内容
产品优势
- 捕获平台:Agilent v6芯片和IDT等多种探针选择
- 测序平台:单链滚环复制,更少PCR扩增错误引入
- 质量卓越:DNBSEQ的变异检测一致性高,对InDel检测灵敏度更高,更适合高深度的肿瘤研究
- 项目经验:发表国内第一篇外显子测序文章,项目经验10年+,平台稳定
- 广泛合作:大学、医院、科研院所、制药公司合作超过6000次,样品总数16万+
参考文献
1. Ng SB1, Turner EH., et al. Targeted capture and massively parallel sequencing of 12 human exomes. Nature.461(7261):272-6.
2. Choi M1,Scholl UI., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing.Proc Natl Acad Sci USA. 106(45):19096-101.
案例一 全外显子组联合转录组和蛋白组,实现多组学分析,揭示子宫内膜样腺癌分子特征
Proteogenomic insights into early-onset endometrioid endometrial carcinoma: predictors for fertility-sparing therapy response
发表期刊:Nature Genetics
影响因子:31.7
发表时间:2024年4月
本文是一篇深入研究早期发病的子宫内膜样腺癌(Early-onset endometrioid endometrial carcinoma, EEEC)的多组学研究,旨在揭示这类癌症的分子特征,并探索其与生育保留治疗反应的预测因子。研究团队通过大规模的多组学分析,对215位患者进行了研究,其中包括81位早期发病的子宫内膜样腺癌患者。子宫内膜癌是女性中第六大常见癌症,特别是在年轻女性中的发病率不断上升。对于40岁以下希望保留生育能力的患者,早期发病的子宫内膜样腺癌(EEEC)的治疗尤为关键。本研究旨在阐明EEEC的分子特征,并确定可能影响生育保留治疗效果的生物标志物。
全外显子组测序(WES)在本研究中扮演了关键角色,它不仅揭示了早期发病子宫内膜样腺癌(EEEC)的深层分子机制,还识别了与疾病发生发展紧密相关的特定基因变异。WES的应用有助于理解环境因素如何通过基因组上的特定突变特征影响肿瘤的产生,同时为发现潜在的治疗靶点和生物标志物提供了重要信息,进而推动个性化医疗的发展。研究团队采用了WES技术对215位子宫内膜癌患者的肿瘤样本进行了深入分析,其中包括81位早期发病的患者。通过严格的数据质量控制和高通量的测序手段,研究者们识别并定量分析了体细胞突变,包括点突变和插入/缺失,同时开发了3D-Sig-Explorer算法来量化特定突变特征对个体突变的贡献,为研究提供了强有力的技术支持。WES的分析结果揭示了与环境暴露相关的突变特征在EEEC中的显著性,尤其是CTNNB1和SIGLEC10基因的热点突变。这些发现不仅加深了对EEEC分子特性的理解,还有助于构建中国人群遗传变异的数据库,为未来的遗传流行病学研究奠定了基础。此外,WES结果还为临床治疗提供了新的视角,尤其是在生育保留治疗的个体化方案设计上,有助于指导未来的治疗策略。
图1 研究流程图
图2 与暴露组相关的突变特征对EECs的早期发病有很大影响
参考文献:Hu Z, Wu Z, Liu W, Ning Y, Liu J, Ding W, Fan J, Cai S, Li Q, Li W, Yang X, Dou Y, Wang W, Peng W, Lu F, Zhuang X, Qin T, Kang X, Feng C, Xu Z, Lv Q, Wang Q, Wang C, Wang X, Wang Z, Wang J, Jiang J, Wang B, Mills GB, Ma D, Gao Q, Li K, Chen G, Chen X, Sun C. Proteogenomic insights into early-onset endometrioid endometrial carcinoma: predictors for fertility-sparing therapy response. Nat Genet 2024; 56: 637–651. [DOI: 10.1038/s41588-024-01703-z]
案例二 全外显子组测序助力基于靶向基因面板的肿瘤突变负担(TMB)评估的质量提升方法
Enhancing the quality of panel-based tumor mutation burden assessment: a comprehensive study of real-world and in-silico outcomes
发表期刊:npj Precision Oncology
影响因子:6.8
发表时间:2024年1月
本研究针对肿瘤突变负担(TMB)的评估质量进行了深入分析。TMB作为预测实体瘤患者对免疫疗法反应的关键生物标志物,其评估的准确性对临床治疗决策至关重要。本研究旨在通过综合实际样本与计算机模拟(in-silico)的结果,提出提高基于面板的TMB评估质量的方法。
全外显子组测序因其高深度、高成本效益的优势,在肿瘤研究中体现出极高的应用价值。WES的应用使得研究者能够识别关键的突变,包括那些对免疫疗法反应预测至关重要的突变,从而为TMB的准确计算奠定了基础。研究中,WES揭示了超过1.04 Mb的外显子区域和至少389个基因是实现基本离散准确性所必需的。此外,WES数据支持了对体细胞突变检测的精度要求,即召回率与精确度的倒数差距需小于0.179,以确保TMB评估的可靠性。WES还强调了在TMB计算中包括同义、无义和热点突变的重要性,以及确定了5%变异等位基因频率(VAF)作为至少20%肿瘤纯度样本的适宜截止值。通过WES,本研究不仅提高了对TMB评估技术因素的理解,而且为临床实验室优化TMB检测方法提供了科学依据。WES的深度覆盖和高分辨率为肿瘤基因组学研究和精准医疗实践提供了宝贵的资源,展现了其在肿瘤研究中不可替代的作用。
图3 研究流程
图4 基于panel的TMB检测工作流程
参考文献:Zhang Y, Wang D, Zhao Z, Peng R, Han Y, Li J, Zhang R. Enhancing the quality of panel-based tumor mutation burden assessment: a comprehensive study of real-world and in-silico outcomes. npj Precis Onc 2024; 8: 1–13. [DOI: 10.1038/s41698-024-00504-1]
案例三 队列分析:外显子和基因分型联合,结合功能研究,找到先天性巨结肠的新致病基因
Molecular Genetic Anatomy and Risk Profile of Hirschsprung’s Disease
发表期刊:New England Journal of Medicine
影响因子:96.2
发表时间:2019年4月
先天性巨结肠是一种肠神经系统发育障碍疾病,是新生儿和婴儿肠梗阻最常见的原因。这类疾病具有80%以上的遗传性,包括一些与肠道神经系统相关的罕见和常见的基因序列变异或者是一些肠神经发育受累及的单基因遗传病或染色体综合征。作者通过对 190 名患者进行了全外显子组测序以及基因分型,从单核苷酸变异、拷贝数变异到核型变异,来寻找先天性巨结肠的分子学机理,通过 WES 的检测,在入组患者中一共发现了7个疾病相关的新致病基因。文章研究策略:较大的患者群+重点通路富集分析+完善的功能研究+统计学分析,得出患者受益的相关患病风险和遗传咨询依据,环环相扣。
图5 文章研究思路
参考文献:Tilghman JM, Ling AY, Turner TN, Sosa MX, Krumm N, Chatterjee S, Kapoor A, Coe BP, Nguyen K-DH, Gupta N, Gabriel S, Eichler EE, Berrios C, Chakravarti A. Molecular Genetic Anatomy and Risk Profile of Hirschsprung’s Disease. N Engl J Med 2019; 380: 1421–1432. [PMID: 30970187 DOI: 10.1056/NEJMoa1706594]
以下是DNBSEQ外显子测序数据的结果展示。
其中标准品为“瓶中基因组(Genome in a Bottle)”的人类样本NA12878,这是目前被世界上认为研究较为透彻的二倍体人类基因组,并发布了高置信变异集,可作为一个重要工具来了解测序仪和检测结果的表现。
下机数据质量高
下图为碱基分布平衡情况。从图中我们可以看到碱基分布平衡性好,N序列也很少。
图1 DNSBEQ 外显子碱基分布
Q 值反映平台的测序准确性。下图是部分商业样品的测试数据,其中 Q20 平均 98.8%,Q30平均 95.6%。数据质量非常高。
图 2 DNBSEQ外显子下机数据质量
对比率高,覆盖度均一
在 100X 左右时,DNBSEQ 平台在 DUP、覆盖度(99.7%)上都有卓越的表现。DNBSEQ平台表现出较好的捕获效率使其数据量平均在 12 G 即可满足深度要求。
表格 1 不同外显子探针在DNBSEQ测序平台上的数据表现
Alignment | Agilent V6_1 | Agilent V6_2 | Agilent V6_3 | Agilent V8_1 | Agilent V8_1 | Agilent V8_1 |
Raw data / Gb | 12.36 | 12.36 | 24.15 | 8.86 | 9.22 | 9.26 |
Capture efficiency (%) | 54.57 | 58.34 | 51.35 | 53.73 | 55.40 | 57.44 |
Mapping rate (%) | 99.77 | 99.82 | 99.94 | 99.92 | 99.91 | 99.92 |
Duplication (%) | 14.34 | 12.09 | 15.91 | 9.23 | 6.52 | 6.49 |
Mismatch rate (%) | 0.45 | 0.45 | 0.30 | 0.31 | 0.31 | 0.31 |
Average depth (X) | 111.55 | 119.25 | 307.82 | 118.08 | 126.81 | 131.95 |
Coverage_1x (%) | 99.73 | 99.72 | 99.20 | 99.68 | 99.69 | 99.69 |
Coverage_4x (%) | 99.63 | 99.62 | 98.78 | 99.48 | 99.54 | 99.55 |
Coverage_10x (%) | 99.31 | 99.30 | 98.53 | 99.01 | 99.25 | 99.30 |
Coverage_20x (%) | 98.15 | 97.98 | 98.18 | 97.8 | 98.66 | 98.82 |
测序重复性高
150X有效深度时,测序平台的SNP的一致性>98%,InDel的一致性>81%。BGISEQ-500平台外显子测序结果的重复性表现非常好,表明该平台测序结果稳定、可靠。
图3 DNBSEQ外显子重复性分析
突变变异检测优异
DNBSEQ平台通过其独特的技术优势,在WES中实现了对SNP和InDel变异的高度敏感检测,并且保持了良好的特异性,为后续的生物信息学分析提供了可靠的基础数据。
图4 DNBSEQ外显子SNP检测的精确度和灵敏度表现
DNBSEQ外显子送样建议
DNA样品 |
组织样品 |
组织样品保存和运输指南 |
无蛋白污染; 无RNA/盐离子污染; 样品无色透明不粘稠的DNA; 1. 样品总量≥1μg; 2. 样品浓度≥12.5ng/μL; 3. 完整性:主峰>20Kb |
新鲜培养的细胞:细胞数≥5×106cell |
液氮速冻法:离心后液氮速冻,-80°保存,干冰寄送 |
新鲜动物组织干重 :≥50mg |
1. 液氮速冻法:分割成50mg小块后,液氮速冻,放入干净的带螺纹旋盖的保存管中。-80°保存,干冰寄送。 2. 商业核酸保护液保护法:严格按照说明书操作,组织厚度保持在5mm左右,活体组织离体后建议3分钟内液氮速冻。 |
|
全血(哺乳动物):≥1 mL |
EDTA抗凝管采集。新鲜采集的用移液器转移至2ml的离心管,足量冰袋或者干冰寄送;冷冻血液,干冰寄送。 |
|
唾液:≥1mL |
商业核酸保护液保护法: 推荐DNA Genotek公司的Oragene.DISCOVER(OGR-500)(For
Research)或Oragene.Dx(OGR-500)(For Diagnostics)
collecton kit |
|
FFPE :≥ 10 片,未染色,100 mm2,5
~ 10μm厚度 |
要求有核细胞数量80%以上,肿瘤细胞含量70%以上,常温保存寄送。 |
HiSeq或Nova测序平台送样建议
当DNA总量<1μg,可以尝试微量建库测序,存在一定风险,请客户谨慎选择。微量建库时:①常规DNA样品(非FFPE样品)需同时满足总量≥200ng,浓度c≥2.5 ng/μL,无降解或轻微降解;如果建库采用Agilent sureselect QXT试剂盒,则要求DNA总量≥50ng,浓度≥25ng/μL。②FFPE DNA样品微量建库的风险要高于非FFPE DNA样品。FFPE DNA需同时满足≥200ng,浓度c≥2.5 ng/μL,主带至少要大于500bp等条件。
Q1:滚环扩增技术的特点是什么?
滚环扩增技术RCA的模板始终是同段序列,扩增错误不会累积,与H平台的PCR指数扩增相比有保真优势。
Q2:外显子测序的优点是什么?
答:外显子测序是全基因重测序的一个较为经济的替代手段,对研究基因的SNP、Indel等具有较大的优势。人的全基因组约3G,外显子占人全部基因序列的1%。重测序一般需要测30X,即90G数据,外显子测序一般测50-100 X,在实现较低成本的前提下对发生突变后有可能影响功能改变的序列进行针对性的研究,相当于抓住了主要矛盾,性价比高。
Q3:外显子组捕获测序中的捕获特异性(capture specificity)及覆盖度(coverage ratio)分别指什么?
答:捕获特异性(capture specificity)指比对到目标区域的有效数据量占总数据量的比例。捕获效率的高低不影响数据质量,只影响数据的有效比例。特异性越高代表所关注的目标数据的利用率也越高。覆盖度(coverage ratio)是目标区域被覆盖到的比率,一般外显子的覆盖度都可以达到95%以上;随着深度的增加,覆盖度也会增加。
Q4:外显子测序里面的有效测序深度是什么含义?
答:由于外显子测序在建库的时候有个杂交的过程,所以存在捕获效率的问题。有效深度是指覆盖到外显子捕获区域的总碱基数和区间大小的比值。有效测序深度和捕获效率、捕获区间之间有一定的联系,即有效测序深度=比对上基因组的有效数据在去除Duplication后*捕获效率/捕获区间。有的公司在提供有效深度的时候没有将PCR重复序列去除计算,且使用的是所有的数据,华大在计算有效深度的时候用的是比对到基因组、去除了重复序列后的有效数据再计算得到的数据。所以在相同的深度下,提供给客户的有效数据会更多。
Q5:Duplication是什么,又是如何产生的呢?
答:在基因组测序中,我们说的duplication是特指的PCR-duplication。也就是在PCR过程中产生的基因重复片段。那么,问题来了,为什么我们会在PCR过程中产生重复片段呢?这个问题,需要从测序的原理说起。为了确保测序效果,我们将加好接头的DNA片段过量扩增,确保每一个孔中都能覆盖到足够多的片段。但是,也是因为过量扩增,同样一个DNA片段会扩增出多份拷贝,而这些拷贝有可能也会进入到孔中被测出来。这就会导致这个DNA位置的覆盖度升高。所以,我们就必须要去重。