- 首页 > 目标区域测序
目标区域测序
目标区域测序,是将感兴趣的基因组区域定制成特异性探针与基因组DNA进行杂交,将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序。这种新的方法与PCR方法相比,通量高,同时能节省大量的时间及成本。目前动植物序列捕获系统有:Agilent SureSelect Target Enrichment System及NimbleGen SeqCap EZ Developer。
1、Agilent捕获系统
Agilent SureSelect Target Enrichment System液相捕获,是基于120 mer的RNA寡核苷酸探针或者叫“baits”。Baits上连接的生物素,可以被链霉亲和素标记的磁珠吸附。基因组片段打断后,与baits进行杂交,捕获目标片段。利用磁珠吸附出带有baits的DNA片段后,进行磁珠洗脱、RNA探针降解,最终获得目标区域DNA片段。
图1 Agilent SureSelect捕获流程
Agilent提供小鼠(All Exon Mouse, 49.6 Mb)、斑马鱼(All Exon Zebrafish, 75Mb)、牛(All Exon Bovine, 54Mb)的外显子捕获芯片,其他物种目标区域都需要进行目标区域定制(定制区域1Kb-24Mb)。
2、NimbleGen捕获系统
与Agilent的捕获原理类似,NimbleGen采用DNA探针,以高密度探针著称,因此价格也相对较高。NimbleGen对指定区域采用advanced repeat masking方法设计探针,将重复序列区封闭起来,保证了很好均一性(uniformity)和覆盖率(coverage)。如下图所示, NimbleGen利用高密度的50-105 mer的DNA探针来覆盖目标区域。
图2 NimbleGen探针设计示意图
NimbleGen SeqCap EZ Developer可以根据客户要求定制目标区域捕获探针,能捕获高达200Mb的目标区域。另外,还有一些设计好的探针。
表1 NimbleGen SeqCap EZ Developer参数
型号 |
区域大小 |
套装(反应/包装) |
SeqCap EZ Developer Library |
Up to 200Mb |
4, 12, 24, 48, 96, 384, 960 |
表2 NimbleGen pre-designed探针
芯片名称 |
物种 |
区域大小 |
Vertebrate Infecting Viruses |
脊椎动物感染病毒 |
207种病毒 |
Switchgrass Exome |
柳枝稷 |
50Mb |
Maise Exome Design |
玉米(B73和Mo17) |
110Mb |
Barley Exome Design |
大麦 |
88.6Mb |
Wheat Exome Design |
小麦 |
106.9Mb |
Soy Exome Desgign |
大豆 |
85.3Mb |
Mouse Exome Design |
小鼠 |
54.3Mb |
Pig Exome Design |
猪 |
22.5Mb |
Canine Exome Design |
犬 |
152Mb |
信息分析内容
■ 对原始数据进行去除接头、污染序列及低质量 reads的处理;
■ 测序评估(数据比对统计,测序饱和度分析,测序随机性的统计分析,reads 在参考基因上的分布分析);
■ SNP、InDel 检测,注释和统计;
■ SNP 保守性预测;
■ SNP、InDel 在各基因功能元件上的分布统计。
群体高级信息分析
■ 群体SNP检测,注释与统计
■ 群体SNP质控(包含base quality,map quality,allele balance,strand bias,mappability,homopolymer,Hardy-Weinberg Equilibrium测试,InDel附近的SNP过滤)
■ 选择分析,可选择方法有:FST,Tajima’s D,θп等
■ GO功能注释分析,KEGG通路富集分析(可选;GO功能注释分析默认做,通路富集分析需要基因集基于通路筛选的可做)
表1 送样建议和级别判断
样品类型 |
总量 |
浓度 |
完整性(胶图) |
纯度 |
|
基因组 DNA |
常规 |
≥1ug |
≥12.5ng/uL |
主峰>20Kb |
无蛋白,RNA/盐离子等污染,样本无色透明不粘稠 |
微量 |
≥200ng |
≥2.5ng/uL |
无降解或轻微降解 |
如果建库采用Agilent SureSelect QXT试剂盒,则要求DNA总量≥50ng,浓度≥25ng/μL |
|
FFPE DNA |
常规 |
≥1ug |
≥12.5ng/uL |
主峰>500bp |
无蛋白,RNA/盐离子等污染,样本无色透明不粘稠 |
微量 |
≥200ng |
≥2.5ng/uL |
主峰>500bp |
- |
Q1:捕获效率的影响因素?
捕获效率影响因素有样本本身的质量、区域复杂度(重复序列区、高GC)、探针设计不佳等。由于捕获效率未知,我们无法承诺有效深度;可以根据经验捕获效率做个预估的数据量,一般按照30%-40%的捕获效率预估,植物的捕获效率较低,越小区域的捕获效率通常也越低。
预估公式:raw data=目标区域*测序深度/捕获效率/0.9(clean和raw data的比率)
eg. 假设某动物目标区域大小500kb,期望测序深度500X,那推荐数据量raw data=500kb*500/0.4/0.9=0.7Gb
Q2:多杂一有何劣势?
多杂可以节约试剂成本,但杂交数目越多,可能会导致每个样品的数据产出不均,片段重复率升高等问题,因此不是杂交越多越好,要综合考虑项目情况、每个包装的rxn数目。
Q3:目标区域捕获 kit 的保质期是从申请订购开始还是从到货之后计算,多久?
保质期从到货开始计算为1年。
Q4:目标区域捕获的多杂基数如何计算?
多杂基数与芯片设计的覆盖度、样品数、样品质量、目标区域大小等相关;多杂对捕获均一性、重复序列比例、覆盖度等指标评估可能有影响,需要综合考虑各种因素后作出评定。Agilent捕获平台的多杂基数通常在8杂以下,NimbleGen通常在12杂以下。
多杂基数:或叫杂交数,即一套探针同时做几个样品,例如二杂一,指的是2个样品用一套探针和捕获试剂。
Q5:目标区域评估需要提供哪些信息?
客户需提供要捕获的物种名称,参考的基因组版本和目标区域所在的染色体号、起点位置、终点位置。该区域位置选择需要根据研究目的选择合适的区域如基因的exons,upstream,downstream或者连续的一段区域等。也可以只提供基因名称,默认按照exon+UTR的区域预估。
Q6:华大提供哪些动植物目标区域捕获?
有参考基因组的物种,提供了目标区域进行评估后,满足定制要求的都可以进行目标区域捕获。对于Agilent在线评估中存在的物种评估免费,其他的物种进行线下评估,Agilent公司会收取一定的线下评估费用。
目前Agilent(16种,可线上设计)和Nimblegen(只提供人的线上设计,其他物种需走线下)。
表1 Agilent可线上设计探针的物种
序号 |
物种/species |
物种 |
版本/build |
1 |
H. sapiens |
人 |
H.
sapiens, hg19, GRCh37, February 2009 |
2 |
M. musculus |
小家鼠 |
M.
musculus, UCSC mm9, NCBI Build 37, July 2007 |
3 |
R. norvegicus |
褐鼠 |
R.
norvegicus, UCSC rn4, HGSC Version 3.4, November 2004 |
4 |
A. thaliana |
拟南芥 |
A.
thaliana, TAIR 10, November 2010 |
5 |
B. taurus |
家牛 |
UCSC
bosTau6, UMD_3.1, November 2009 |
6 |
C. elegans |
秀丽线虫 |
C.
elegans, UCSC ce6, WormBase WS190, May 2008 |
7 | C. familiaris |
狗 |
C.
familiaris, UCSC canFam3, CanFam3.1, Sep 2011 |
8 | C. jacchus |
狨 |
C.
jacchus, UCSC calJac3, WUGSC 3.2, March 2009 |
9 | D. melanogaster |
果蝇 |
D.
melanogaster, UCSC dm3, BDGP Release 5, April 2006 |
10 |
D. rerio |
斑马鱼 |
D.
rerio, UCSC danRer7, Sanger Zv9, July 2010 |
11 | G. gallus |
鸡 |
G.
gallus, UCSC galGal3, WUSTL v2.1, May 2006 |
12 |
M. mulatta |
猕猴 |
M.
mulatta, UCSC rheMac2, Dpse_2.0, January 2006 |
13 |
O. latipes |
青鳉 |
O.
latipes, UCSC oryLat2, NIG/UT MEDAKA1, October 2005 |
14 | O. sativa |
亚洲栽培稻 |
O.
sativa, IRGSP5, June 2008 |
15 |
S. cerevisiae |
面包酵母 |
S.
cerevisiae, UCSC sacCer2, SGD, June 2008 |
16 | S. pombe |
裂殖酵母 |
S. pombe, NCBI Build 1.1, February 2002 |
Q7:目标区域有什么要求?
可以是连续的DNA片段,也可以是分布在同一染色体不同区域或不同染色体上的片段。长度不定,原则上没有限制。但太小(几十K以下)且样本量很少时,建议散样测序;太大且目标区域都位于外显子情况下,成本很高,建议做外显子测序。难点区域:复杂区域,如重复序列较多,GC含量过高或过低,n区等存在探针设计困难。
Q8:目标区域样本数量有要求吗?
理论上对样本数量没有要求,但是芯片都存在起订量,比如Agilent最低起订量是16个反应,往往采取多杂一的方式节省成本,因此如果样品量太少,平均到每个样品的芯片成本会很高,有可能比直接做重测序还高,所以建议样本量大一些。
Q9:捕获效率一般预估多少?
目标区域定制化的捕获效率一般按照40%预估,但在植物捕获方面,捕获效率较差;区域小(几kb-几十kb)的区域捕获效率也会较低。
Q10:目标区域为何不承诺测序深度?
目标区域只承诺raw data,不承诺测序深度。因为目标区域属于定制化,由于不同区域的捕获效率不定(受GC含量、重复序列的影响),因此无法准确预估测序深度与数据量的对应关系。