- 首页 > 目标区域测序
目标区域测序
目标区域测序(Target Region Sequencing, TRS)是根据感兴趣的基因组区域设计特异性探针,与基因组DNA进行液相杂交,将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序的研究策略。
图1 技术流程
华大可提供以下两种目标区域捕获探针:Agilent SureSelect Target Enrichment System及NimbleGen SeqCap EZ Choice。
1、Agilent捕获系统
Agilent SureSelect Target Enrichment System液相捕获,是基于120mer的RNA寡核苷酸探针或者叫“baits”。Baits上连接的生物素,可以被链霉亲和素标记的磁珠吸附。打断后的基因组片段,与baits进行杂交,捕获目标片段。利用磁珠吸附出带有baits的DNA片段后,进行磁珠洗脱、RNA探针降解,最终获得目标区域DNA片段。
图2 Agilent SureSelect捕获流程
2、NimbleGen捕获系统
与Agilent的捕获原理类似,NimbleGen采用DNA探针,以高密度探针著称,因此价格也相对较高。如下图所示,NimbleGen利用高密度的50-105mer的DNA探针来覆盖目标区域。
图3 NimbleGen探针设计示意图
定制化芯片型号
芯片名称 |
Reactions/kit |
芯片大小 |
Agilent Sureselect XT Custom
Kits |
16, 96 |
1~499Kb,0.5~2.9Mb,3~5.9Mb,6Mb~11.9Mb,12Mb~24Mb |
NimbleGen SeqCap EZ Choice
Kits |
12, 24, 48, 96, 384, 960 |
100kb-7Mb |
NimbleGen
SeqCap EZ Choice XL Kits |
12, 24, 48, 96, 384, 960 |
7Mb-200Mb |
标准信息分析
1. 去除接头污染和低质量数据
2. 数据通过BWA与UCSC hg19数据库进行比对
3. 数据产量统计分析、测序深度分析、覆盖度均一性分析
4. SNP变异信息检测(SAMtools、SOAPsnp、GATK)
5. SNP的RefGene注释
6. SNP数据库分析(与dbSNP、千人基因组数据、ESP外显子组数据库以及炎黄基因组(仅亚太地区)数据进行数据库注释分析)
7. 单样品SNP保守性预测、致病性分析(仅针对人类样本,软件:SIFT、Polyphen-2、Phylop、GERP scores、Mutation assessor、Condel、FATHMM)
8. SNP在各基因功能元件上的分布统计
9. InDel变异信息检测(SAMtools、GATK)
10. InDel的RefGene注释
11. InDel数据库分析(与dbSNP 、千人基因组数据、ESP外显子组数据库、炎黄基因组(仅亚太地区)进行数据库注释分析)
12. InDel在各基因功能元件上的分布统计
注:SIFT、Polyphen-2、Phylop、GERP scores、Mutation assessor、Condel、FATHMM这几个数据库的分析仅针对人类样本。
华大案例1:目标区域测序结合芯片分型发现皮肤色素沉着的遗传结构
An Unexpectedly Complex Architecture for Skin Pigmentation in Africans (Cell. 2017)
案例描述: 人类中大约有15个基因与皮肤色素沉着直接相关,但广泛调研发现皮肤色素相干的基因比想象中的还要复杂,遗传结构随纬度变化。样品选取的非洲南部的KhoeSan人群(包括269个Khomani人群和172个Nama人群),他们的皮肤颜色比近赤道非洲人群更浅。文章采用目标区域测序对分型过的441个非洲南部KhoeSan人群及其定量表型进行分析。目标区域选择了Khomani人群芯片GWAS结果中强相关的区域、之前报道的色素沉着的基因附近有关联信号的区域、其他人群中报道的与色素沉着相关的区域,共计7.1Mb区域。
结论: 皮肤色素沉着具有高度遗传性,但已知相关位点只能解释一小部分的表型。相较于欧亚人种的浅色皮肤,非洲人种的皮肤色素沉着相关基因更多更复杂。利用芯片GWAS和目标区域测序,研究人员发现了一些新的与色素沉着相关的位点,也验证了一些传统的位点。
图1 与色素沉着相关的基因的遗传分歧
遗传分歧用FST衡量,以20kb为移动窗口,步长5kb统计FST分布。(A)代表KhoeSan和欧洲人群的遗传分歧;(B)代表KhoeSan和西非(Bantu)人群的遗传分歧;(C,D)代表经典色素沉着相关基因SLC24A5和OCA2的FST,点代表SNPs,实线代表LOESS拟合曲线,95%的置信区间,虚线代表不同人群比较的FST。
华大案例2:利用目标区域测序在新的胃癌病人群体中验证分子分型及预后意义
Distinct subtypes of gastric cancer defined by molecular characterization include novel mutational signatures with prognostic capability(Cancer Research. 2016)
案例描述:胃癌亚型非常多,二代测序虽然发现了许多新的胃癌driver基因,但运用到临床分子分型和预后的非常少。本文整合之前的544例胃癌基因组数据和临床表型,分析胃癌的突变特征及其与预后的关系。并利用目标区域测序,在新的胃癌队列中进行验证。
结论:
1、544例胃癌数据整合分析:按照突变负荷将胃癌病人划分为常规类型(占比86.6%)和高突变类型(占比13.2%),并在常规类型中鉴定到31个显著突变基因(SMGs)。
2、常规类型胃癌分子分型:根据31个SMGs,将常规胃癌类型进一步分为两种亚型,两种亚型具有不同的突变特征及预后(图8)。并利用目标区域测序,在一个新的cohort中验证了亚型分类及其预后。
图2 常规类型胃癌的突变频谱及分子亚型的预后意义
(A)SMGs的突变频谱,基于31个SMGs将胃癌分为C1和C2两种亚型,星号代表每种亚型中更倾向的突变;(B)C1和C2亚型的Kaplan-Meier生存曲线;(C)单变量和(D)多变量的Cox回归分析,变量包括年龄、性别、TNM分期、Lauren分型(肠型和弥漫型)、队列(Cohort)和分子分型。
3、分析单个基因的预测效果:挑选突变频率>5%的9个SMGs与生存期的关系,结果发现在弥漫型胃癌中发现CDH1突变与生存期短有关。
华大案例3:目标区域测序挖掘罕见的儿童ET病人的分子特征
Distinct molecular abnormalities underlie unique clinical features of essential thrombocythemia in children(Leukemia. 2016)
案例描述:ET(原发性血小板增多症)是在儿童中发病率很低,比成人发生率低约100倍。因此,临床上对儿童ET的诊断和病理分析还不是很清晰。目前只发现JAK2 V617F、MPL、CALR突变与儿童ET发病有关,成人ET中常用的biomarker大部分都不能用来鉴定儿童ET。因此,本文利用目标区域测序,选取髓系血液病相关的55个基因作为目标区域,对25例患儿进行检测,平均测序深度349X,并结合Sanger测序分析JAK2 46/1的单体型,全面分析儿童ET的分子特征。
结论:儿童和成人ET的分子特征不同,儿童ET的特征更为复杂。本研究样本中JAK2 V617F为最高频的体细胞突变,其次为ASXL1。
图3 儿童ET病人中体细胞突变频率
(a)每个突变基因检测到的病人数目和突变频率。(b)25例样本中检测的突变个数占比。(c)同一个体中体细胞突变共发生情况展示。
表1 数据情况统计
Samples | Initial bases on target | Total effective reads | Total effective bases (Mb) | Effective sequences on target (Mb) | Capture specificity (%) | Mapping rate on genome (%) | Duplicate rate on genome (%) | Mismatch rate in target region (%) | Average sequencing depth on target | Fraction of target covered >= 1x (%) | Fraction of target covered >= 4x (%) | Fraction of target covered >= 10x (%) | Fraction of target covered >= 20x (%) |
test1 | 3,674,752 | 12,884,275 | 1,841.78 | 1,156.03 | 62.77 | 99.2 | 24.18 | 1.6 | 314.59 | 99.79 | 99.54 | 99.06 | 98.33 |
test2 | 3,674,752 | 16,533,366 | 2,363.90 | 1,469.07 | 62.15 | 99.22 | 26.45 | 1.58 | 399.77 | 99.81 | 99.59 | 99.18 | 98.57 |
图1 在目标区域上的单碱基测序深度分布
X 轴表示测序深度,Y 轴表示具有对应测序深度的目标区域的比例。
图2 在目标区域上的累计测序深度分布
X 轴表示测序深度,Y 轴表示达到对应测序深度及其以上深度的目标区域的比例。
表1 送样建议和级别判断
样品类型
|
总量
|
浓度
|
完整性(胶图)
|
纯度
|
|
基因组 DNA
|
常规
|
≥1ug
|
≥12.5ng/uL
|
主峰>20Kb
|
无蛋白,RNA/盐离子等污染,样本无色透明不粘稠
|
微量
|
≥200ng
|
≥2.5ng/uL
|
无降解或轻微降解
|
若建库采用Agilent SureSelect QXT试剂盒,则要求DNA总量≥50ng,浓度≥25ng/μL
|
|
FFPE DNA
|
常规
|
≥1ug
|
≥12.5ng/uL
|
主峰>500bp
|
无蛋白,RNA/盐离子等污染,样本无色透明不粘稠
|
微量
|
≥200ng
|
≥2.5ng/uL
|
主峰>500bp
|
-
|
Q1:捕获平台,一般推荐几杂?
多杂基数:或叫杂交数,即一套探针同时做几个样品,例如二杂一,指的是2个样品用一套探针和捕获试剂。
多杂基数与芯片设计的覆盖度、样品数、样品质量、目标区域大小等相关;多杂对捕获均一性、重复序列比例、覆盖度等指标评估可能有影响,需要综合考虑各种因素后作出评定。根据华大经验,Agilent捕获平台的多杂基数建议8杂以下,NimbleGen建议12杂以下。
特殊样品不建议杂交数太多,比如FFPE或ctDNA样品建议2杂1。
Q2:多杂一有何劣势?
多杂可以节约试剂成本,但杂交数目越多,可能会导致每个样品的数据产出不均,片段重复率升高等问题,因此不是杂交越多越好,要综合考虑项目情况、每个包装的rxn数目。
Q3:芯片的订货周期一般是多长?
一般为2个月左右。
Q4:目标区域捕获 kit 的保质期是从申请订购开始还是从到货之后计算,多久?
保质期从到货开始计算为1年。
Q5:捕获效率有哪些困素影响?
捕获效率影响因素有样本本身的质量、区域复杂度(重复序列区、高GC)、探针设计不佳等。由于捕获效率未知,我们无法承诺有效深度;可以根据经验捕获效率做个预估的数据量,人的样品一般按照40%-50%的捕获效率预估,越小区域的捕获效率通常也越低。
预估公式:raw data=目标区域*测序深度/捕获效率/0.9(clean和raw data的比率)
eg.假设目标区域大小500kb,期望测序深度500X,按照40%捕获效率预估,那推荐数据量raw data=500kb*500/0.4/0.9=0.7Gb
Q6:目标区域评估需要提供哪些信息?
客户只需提供要捕获的物种名称,参考的基因组版本和目标区域所在的染色体号、起点位置、终点位置。该区域位置选择需要根据研究目的选择合适的区域如基因的exons,upstream,downstream或者连续的一段区域等。
Q7:目标区域有什么要求?
可以是连续的DNA片段,也可以是分布在同一染色体不同区域或不同染色体上的片段。长度不定,原则上没有限制。但太小(几十K以下)且样本量很少时,建议散样测序;太大且目标区域都位于外显子情况下,成本很高,建议做外显子测序。难点区域:复杂区域,如重复序列较多,GC含量过高或过低,n区等存在探针设计困难。
Q8:目标区域样本数量有要求吗?
理论上对样本数量没有要求,但是芯片都存在起订量,比如Agilent最低起订量是16个反应,往往采取多杂一的方式节省成本,因此如果样品量太少,平均到每个样品的芯片成本会很高,有可能比直接做重测序还高,所以建议样本量大一些。
Q9:捕获效率一般预估多少?
目标区域定制化的捕获效率一般按照40%预估,但在植物捕获方面,捕获效率较差;区域小(几kb-几十kb)的区域捕获效率也会较低。
Q10:目标区域为何不承诺测序深度?
目标区域只承诺raw data,不承诺测序深度。因为目标区域属于定制化,由于不同区域的捕获效率不定(受GC含量、重复序列的影响),因此无法准确预估测序深度与数据量的对应关系。