logo

logo

产品服务

Sequencing services

DNA测序 -
RNA测序+
蛋白质组学+
代谢组学+
单细胞测序+
时空组学+
Dr. Tom系统+
其他服务+
  • 首页目标区域测序

目标区域测序

      目标区域测序(Target Region Sequencing, TRS)是根据感兴趣的基因组区域设计特异性探针,与基因组DNA进行液相杂交,将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序的研究策略。

实验流程

图1 技术流程

华大可提供以下两种目标区域捕获探针:Agilent SureSelect Target Enrichment System及NimbleGen SeqCap EZ Choice。

1、Agilent捕获系统

      Agilent SureSelect Target Enrichment System液相捕获,是基于120mer的RNA寡核苷酸探针或者叫“baits”。Baits上连接的生物素,可以被链霉亲和素标记的磁珠吸附。打断后的基因组片段,与baits进行杂交,捕获目标片段。利用磁珠吸附出带有baits的DNA片段后,进行磁珠洗脱、RNA探针降解,最终获得目标区域DNA片段。

图2

图2 Agilent SureSelect捕获流程

2、NimbleGen捕获系统

      与Agilent的捕获原理类似,NimbleGen采用DNA探针,以高密度探针著称,因此价格也相对较高。如下图所示,NimbleGen利用高密度的50-105mer的DNA探针来覆盖目标区域。

图3

图3 NimbleGen探针设计示意图


定制化芯片型号

芯片名称

Reactions/kit

芯片大小

Agilent Sureselect XT Custom Kits

16, 96

1~499Kb,0.5~2.9Mb,3~5.9Mb,6Mb~11.9Mb,12Mb~24Mb

NimbleGen SeqCap EZ Choice Kits

12, 24, 48, 96, 384, 960

100kb-7Mb

NimbleGen SeqCap EZ Choice XL Kits

12, 24, 48, 96, 384, 960

7Mb-200Mb


标准信息分析

1. 去除接头污染和低质量数据

2. 数据通过BWA与UCSC hg19数据库进行比对

3. 数据产量统计分析、测序深度分析、覆盖度均一性分析

4. SNP变异信息检测(SAMtools、SOAPsnp、GATK)

5. SNP的RefGene注释

6. SNP数据库分析(与dbSNP、千人基因组数据、ESP外显子组数据库以及炎黄基因组(仅亚太地区)数据进行数据库注释分析)

7. 单样品SNP保守性预测、致病性分析(仅针对人类样本,软件:SIFT、Polyphen-2、Phylop、GERP scores、Mutation assessor、Condel、FATHMM)

8. SNP在各基因功能元件上的分布统计

9. InDel变异信息检测(SAMtools、GATK)

10. InDel的RefGene注释

11. InDel数据库分析(与dbSNP 、千人基因组数据、ESP外显子组数据库、炎黄基因组(仅亚太地区)进行数据库注释分析)

12. InDel在各基因功能元件上的分布统计

注:SIFT、Polyphen-2、Phylop、GERP scores、Mutation assessor、Condel、FATHMM这几个数据库的分析仅针对人类样本。


华大案例1:目标区域测序结合芯片分型发现皮肤色素沉着的遗传结构

An Unexpectedly Complex Architecture for Skin Pigmentation in Africans (Cell. 2017)

案例描述: 人类中大约有15个基因与皮肤色素沉着直接相关,但广泛调研发现皮肤色素相干的基因比想象中的还要复杂,遗传结构随纬度变化。样品选取的非洲南部的KhoeSan人群(包括269个Khomani人群和172个Nama人群),他们的皮肤颜色比近赤道非洲人群更浅。文章采用目标区域测序对分型过的441个非洲南部KhoeSan人群及其定量表型进行分析。目标区域选择了Khomani人群芯片GWAS结果中强相关的区域、之前报道的色素沉着的基因附近有关联信号的区域、其他人群中报道的与色素沉着相关的区域,共计7.1Mb区域。

结论: 皮肤色素沉着具有高度遗传性,但已知相关位点只能解释一小部分的表型。相较于欧亚人种的浅色皮肤,非洲人种的皮肤色素沉着相关基因更多更复杂。利用芯片GWAS和目标区域测序,研究人员发现了一些新的与色素沉着相关的位点,也验证了一些传统的位点。

案例图1

图1 与色素沉着相关的基因的遗传分歧

遗传分歧用FST衡量,以20kb为移动窗口,步长5kb统计FST分布。(A)代表KhoeSan和欧洲人群的遗传分歧;(B)代表KhoeSan和西非(Bantu)人群的遗传分歧;(C,D)代表经典色素沉着相关基因SLC24A5和OCA2的FST,点代表SNPs,实线代表LOESS拟合曲线,95%的置信区间,虚线代表不同人群比较的FST。


华大案例2:利用目标区域测序在新的胃癌病人群体中验证分子分型及预后意义

Distinct subtypes of gastric cancer defined by molecular characterization include novel mutational signatures with prognostic capability(Cancer Research. 2016)

案例描述:胃癌亚型非常多,二代测序虽然发现了许多新的胃癌driver基因,但运用到临床分子分型和预后的非常少。本文整合之前的544例胃癌基因组数据和临床表型,分析胃癌的突变特征及其与预后的关系。并利用目标区域测序,在新的胃癌队列中进行验证。

结论

1、544例胃癌数据整合分析:按照突变负荷将胃癌病人划分为常规类型(占比86.6%)和高突变类型(占比13.2%),并在常规类型中鉴定到31个显著突变基因(SMGs)。

2、常规类型胃癌分子分型:根据31个SMGs,将常规胃癌类型进一步分为两种亚型,两种亚型具有不同的突变特征及预后(图8)。并利用目标区域测序,在一个新的cohort中验证了亚型分类及其预后。

案例图2

图2 常规类型胃癌的突变频谱及分子亚型的预后意义

(A)SMGs的突变频谱,基于31个SMGs将胃癌分为C1和C2两种亚型,星号代表每种亚型中更倾向的突变;(B)C1和C2亚型的Kaplan-Meier生存曲线;(C)单变量和(D)多变量的Cox回归分析,变量包括年龄、性别、TNM分期、Lauren分型(肠型和弥漫型)、队列(Cohort)和分子分型。

3、分析单个基因的预测效果:挑选突变频率>5%的9个SMGs与生存期的关系,结果发现在弥漫型胃癌中发现CDH1突变与生存期短有关。


华大案例3:目标区域测序挖掘罕见的儿童ET病人的分子特征

Distinct molecular abnormalities underlie unique clinical features of essential thrombocythemia in children(Leukemia. 2016)

案例描述:ET(原发性血小板增多症)是在儿童中发病率很低,比成人发生率低约100倍。因此,临床上对儿童ET的诊断和病理分析还不是很清晰。目前只发现JAK2 V617F、MPL、CALR突变与儿童ET发病有关,成人ET中常用的biomarker大部分都不能用来鉴定儿童ET。因此,本文利用目标区域测序,选取髓系血液病相关的55个基因作为目标区域,对25例患儿进行检测,平均测序深度349X,并结合Sanger测序分析JAK2 46/1的单体型,全面分析儿童ET的分子特征。

结论:儿童和成人ET的分子特征不同,儿童ET的特征更为复杂。本研究样本中JAK2 V617F为最高频的体细胞突变,其次为ASXL1。

案例图3

图3 儿童ET病人中体细胞突变频率

(a)每个突变基因检测到的病人数目和突变频率。(b)25例样本中检测的突变个数占比。(c)同一个体中体细胞突变共发生情况展示。


表1 数据情况统计

Samples Initial bases on target Total effective reads Total effective bases (Mb) Effective sequences on target (Mb) Capture specificity (%) Mapping rate on genome (%) Duplicate rate on genome (%) Mismatch rate in target region (%) Average sequencing depth on target Fraction of target covered >= 1x (%) Fraction of target covered >= 4x (%) Fraction of target covered >= 10x (%) Fraction of target covered >= 20x (%)
test1 3,674,752 12,884,275 1,841.78 1,156.03 62.77 99.2 24.18 1.6 314.59 99.79 99.54 99.06 98.33
test2 3,674,752 16,533,366 2,363.90 1,469.07 62.15 99.22 26.45 1.58 399.77 99.81 99.59 99.18 98.57

结果展示图1

图1 在目标区域上的单碱基测序深度分布

X 轴表示测序深度,Y 轴表示具有对应测序深度的目标区域的比例。

结果展示图2

图2  在目标区域上的累计测序深度分布

X 轴表示测序深度,Y 轴表示达到对应测序深度及其以上深度的目标区域的比例。


 表1 送样建议和级别判断

样品类型

总量

浓度

完整性(胶图)

纯度

基因组 DNA

常规

≥1ug

≥12.5ng/uL

主峰>20Kb

无蛋白,RNA/盐离子等污染,样本无色透明不粘稠

微量

≥200ng

≥2.5ng/uL

无降解或轻微降解

若建库采用Agilent SureSelect QXT试剂盒,则要求DNA总量≥50ng,浓度≥25ng/μL

FFPE DNA

常规

≥1ug

≥12.5ng/uL

主峰>500bp

无蛋白,RNA/盐离子等污染,样本无色透明不粘稠

微量

≥200ng

≥2.5ng/uL

主峰>500bp

-


Q1:捕获平台,一般推荐几杂?

多杂基数:或叫杂交数,即一套探针同时做几个样品,例如二杂一,指的是2个样品用一套探针和捕获试剂。

多杂基数与芯片设计的覆盖度、样品数、样品质量、目标区域大小等相关;多杂对捕获均一性、重复序列比例、覆盖度等指标评估可能有影响,需要综合考虑各种因素后作出评定。根据华大经验,Agilent捕获平台的多杂基数建议8杂以下,NimbleGen建议12杂以下。

特殊样品不建议杂交数太多,比如FFPE或ctDNA样品建议2杂1。

Q2:多杂一有何劣势?

多杂可以节约试剂成本,但杂交数目越多,可能会导致每个样品的数据产出不均,片段重复率升高等问题,因此不是杂交越多越好,要综合考虑项目情况、每个包装的rxn数目。

Q3:芯片的订货周期一般是多长?

一般为2个月左右。

Q4:目标区域捕获 kit 的保质期是从申请订购开始还是从到货之后计算,多久?

保质期从到货开始计算为1年。

Q5:捕获效率有哪些困素影响?

捕获效率影响因素有样本本身的质量、区域复杂度(重复序列区、高GC)、探针设计不佳等。由于捕获效率未知,我们无法承诺有效深度;可以根据经验捕获效率做个预估的数据量,人的样品一般按照40%-50%的捕获效率预估,越小区域的捕获效率通常也越低。

预估公式:raw data=目标区域*测序深度/捕获效率/0.9(clean和raw data的比率)

eg.假设目标区域大小500kb,期望测序深度500X,按照40%捕获效率预估,那推荐数据量raw data=500kb*500/0.4/0.9=0.7Gb

Q6:目标区域评估需要提供哪些信息?

客户只需提供要捕获的物种名称,参考的基因组版本和目标区域所在的染色体号、起点位置、终点位置。该区域位置选择需要根据研究目的选择合适的区域如基因的exons,upstream,downstream或者连续的一段区域等。

Q7:目标区域有什么要求?

可以是连续的DNA片段,也可以是分布在同一染色体不同区域或不同染色体上的片段。长度不定,原则上没有限制。但太小(几十K以下)且样本量很少时,建议散样测序;太大且目标区域都位于外显子情况下,成本很高,建议做外显子测序。难点区域:复杂区域,如重复序列较多,GC含量过高或过低,n区等存在探针设计困难。

Q8:目标区域样本数量有要求吗?

理论上对样本数量没有要求,但是芯片都存在起订量,比如Agilent最低起订量是16个反应,往往采取多杂一的方式节省成本,因此如果样品量太少,平均到每个样品的芯片成本会很高,有可能比直接做重测序还高,所以建议样本量大一些。

Q9:捕获效率一般预估多少?

目标区域定制化的捕获效率一般按照40%预估,但在植物捕获方面,捕获效率较差;区域小(几kb-几十kb)的区域捕获效率也会较低。

Q10:目标区域为何不承诺测序深度?

目标区域只承诺raw data,不承诺测序深度。因为目标区域属于定制化,由于不同区域的捕获效率不定(受GC含量、重复序列的影响),因此无法准确预估测序深度与数据量的对应关系。

深圳华大科技(总部)

电话:400-706-6615
邮箱:info@genomics.cn

对话图标