华大科技

目标区域测序，是将感兴趣的基因组区域定制成特异性探针与基因组DNA进行杂交，将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序。这种新的方法与PCR方法相比，通量高，同时能节省大量的时间及成本。目前动植物序列捕获系统有：Agilent SureSelect Target Enrichment System及NimbleGen SeqCap EZ Developer。

1、Agilent捕获系统

Agilent SureSelect Target Enrichment System液相捕获，是基于120 mer的RNA寡核苷酸探针或者叫“baits”。Baits上连接的生物素，可以被链霉亲和素标记的磁珠吸附。基因组片段打断后，与baits进行杂交，捕获目标片段。利用磁珠吸附出带有baits的DNA片段后，进行磁珠洗脱、RNA探针降解，最终获得目标区域DNA片段。

图1 Agilent SureSelect捕获流程

Agilent提供小鼠（All Exon Mouse, 49.6 Mb）、斑马鱼（All Exon Zebrafish, 75Mb）、牛（All Exon Bovine, 54Mb）的外显子捕获芯片，其他物种目标区域都需要进行目标区域定制（定制区域1Kb-24Mb）。

2、NimbleGen捕获系统

与Agilent的捕获原理类似，NimbleGen采用DNA探针，以高密度探针著称，因此价格也相对较高。NimbleGen对指定区域采用advanced repeat masking方法设计探针，将重复序列区封闭起来，保证了很好均一性（uniformity）和覆盖率（coverage）。如下图所示， NimbleGen利用高密度的50-105 mer的DNA探针来覆盖目标区域。

图2 NimbleGen探针设计示意图

NimbleGen SeqCap EZ Developer可以根据客户要求定制目标区域捕获探针，能捕获高达200Mb的目标区域。另外，还有一些设计好的探针。

表1 NimbleGen SeqCap EZ Developer参数

型号	区域大小	套装（反应/包装）
SeqCap EZ Developer Library	Up to 200Mb	4, 12, 24, 48, 96, 384, 960

表2 NimbleGen pre-designed探针

芯片名称	物种	区域大小
Vertebrate Infecting Viruses	脊椎动物感染病毒	207种病毒
Switchgrass Exome	柳枝稷	50Mb
Maise Exome Design	玉米(B73和Mo17)	110Mb
Barley Exome Design	大麦	88.6Mb
Wheat Exome Design	小麦	106.9Mb
Soy Exome Desgign	大豆	85.3Mb
Mouse Exome Design	小鼠	54.3Mb
Pig Exome Design	猪	22.5Mb
Canine Exome Design	犬	152Mb

信息分析内容

■ 对原始数据进行去除接头、污染序列及低质量 reads的处理；

■ 测序评估（数据比对统计，测序饱和度分析，测序随机性的统计分析，reads 在参考基因上的分布分析）；

■ SNP、InDel 检测，注释和统计；

■ SNP 保守性预测；

■ SNP、InDel 在各基因功能元件上的分布统计。

群体高级信息分析

■ 群体SNP检测，注释与统计

■ 群体SNP质控（包含base quality，map quality，allele balance，strand bias，mappability，homopolymer，Hardy-Weinberg Equilibrium测试，InDel附近的SNP过滤）

■ 选择分析，可选择方法有：FST，Tajima’s D，θп等

■ GO功能注释分析，KEGG通路富集分析（可选；GO功能注释分析默认做，通路富集分析需要基因集基于通路筛选的可做）

表1 送样建议和级别判断

样品类型		总量	浓度	完整性（胶图）	纯度
基因组 DNA	常规	≥1ug	≥12.5ng/uL	主峰＞20Kb	无蛋白，RNA/盐离子等污染，样本无色透明不粘稠
基因组 DNA	微量	≥200ng	≥2.5ng/uL	无降解或轻微降解	如果建库采用Agilent SureSelect QXT试剂盒，则要求DNA总量≥50ng，浓度≥25ng/μL
FFPE DNA	常规	≥1ug	≥12.5ng/uL	主峰＞500bp	无蛋白，RNA/盐离子等污染，样本无色透明不粘稠
FFPE DNA	微量	≥200ng	≥2.5ng/uL	主峰＞500bp	-

Q1：捕获效率的影响因素？

捕获效率影响因素有样本本身的质量、区域复杂度（重复序列区、高GC）、探针设计不佳等。由于捕获效率未知，我们无法承诺有效深度；可以根据经验捕获效率做个预估的数据量，一般按照30%-40%的捕获效率预估，植物的捕获效率较低，越小区域的捕获效率通常也越低。

预估公式：raw data=目标区域*测序深度/捕获效率/0.9(clean和raw data的比率)

eg. 假设某动物目标区域大小500kb，期望测序深度500X，那推荐数据量raw data=500kb*500/0.4/0.9=0.7Gb

Q2：多杂一有何劣势？

多杂可以节约试剂成本，但杂交数目越多，可能会导致每个样品的数据产出不均，片段重复率升高等问题，因此不是杂交越多越好，要综合考虑项目情况、每个包装的rxn数目。

Q3：目标区域捕获 kit 的保质期是从申请订购开始还是从到货之后计算，多久？

保质期从到货开始计算为1年。

Q4：目标区域捕获的多杂基数如何计算？

多杂基数与芯片设计的覆盖度、样品数、样品质量、目标区域大小等相关；多杂对捕获均一性、重复序列比例、覆盖度等指标评估可能有影响，需要综合考虑各种因素后作出评定。Agilent捕获平台的多杂基数通常在8杂以下，NimbleGen通常在12杂以下。

多杂基数：或叫杂交数，即一套探针同时做几个样品，例如二杂一，指的是2个样品用一套探针和捕获试剂。

Q5：目标区域评估需要提供哪些信息？

客户需提供要捕获的物种名称，参考的基因组版本和目标区域所在的染色体号、起点位置、终点位置。该区域位置选择需要根据研究目的选择合适的区域如基因的exons，upstream，downstream或者连续的一段区域等。也可以只提供基因名称，默认按照exon+UTR的区域预估。

Q6：华大提供哪些动植物目标区域捕获？

有参考基因组的物种，提供了目标区域进行评估后，满足定制要求的都可以进行目标区域捕获。对于Agilent在线评估中存在的物种评估免费，其他的物种进行线下评估，Agilent公司会收取一定的线下评估费用。

目前Agilent（16种，可线上设计）和Nimblegen（只提供人的线上设计，其他物种需走线下）。

表1 Agilent可线上设计探针的物种

序号	物种/species	物种	版本/build
1	H. sapiens	人	H. sapiens, hg19, GRCh37, February 2009
2	M. musculus	小家鼠	M. musculus, UCSC mm9, NCBI Build 37, July 2007
3	R. norvegicus	褐鼠	R. norvegicus, UCSC rn4, HGSC Version 3.4, November 2004
4	A. thaliana	拟南芥	A. thaliana, TAIR 10, November 2010
5	B. taurus	家牛	UCSC bosTau6, UMD_3.1, November 2009
6	C. elegans	秀丽线虫	C. elegans, UCSC ce6, WormBase WS190, May 2008
7	C. familiaris	狗	C. familiaris, UCSC canFam3, CanFam3.1, Sep 2011
8	C. jacchus	狨	C. jacchus, UCSC calJac3, WUGSC 3.2, March 2009
9	D. melanogaster	果蝇	D. melanogaster, UCSC dm3, BDGP Release 5, April 2006
10	D. rerio	斑马鱼	D. rerio, UCSC danRer7, Sanger Zv9, July 2010
11	G. gallus	鸡	G. gallus, UCSC galGal3, WUSTL v2.1, May 2006
12	M. mulatta	猕猴	M. mulatta, UCSC rheMac2, Dpse_2.0, January 2006
13	O. latipes	青鳉	O. latipes, UCSC oryLat2, NIG/UT MEDAKA1, October 2005
14	O. sativa	亚洲栽培稻	O. sativa, IRGSP5, June 2008
15	S. cerevisiae	面包酵母	S. cerevisiae, UCSC sacCer2, SGD, June 2008
16	S. pombe	裂殖酵母	S. pombe, NCBI Build 1.1, February 2002

Q7：目标区域有什么要求？

可以是连续的DNA片段，也可以是分布在同一染色体不同区域或不同染色体上的片段。长度不定，原则上没有限制。但太小（几十K以下）且样本量很少时，建议散样测序；太大且目标区域都位于外显子情况下，成本很高，建议做外显子测序。难点区域：复杂区域，如重复序列较多，GC含量过高或过低，n区等存在探针设计困难。

Q8：目标区域样本数量有要求吗？

理论上对样本数量没有要求，但是芯片都存在起订量，比如Agilent最低起订量是16个反应，往往采取多杂一的方式节省成本，因此如果样品量太少，平均到每个样品的芯片成本会很高，有可能比直接做重测序还高，所以建议样本量大一些。

Q9：捕获效率一般预估多少？

目标区域定制化的捕获效率一般按照40%预估，但在植物捕获方面，捕获效率较差；区域小（几kb-几十kb）的区域捕获效率也会较低。

Q10：目标区域为何不承诺测序深度？

目标区域只承诺raw data，不承诺测序深度。因为目标区域属于定制化，由于不同区域的捕获效率不定（受GC含量、重复序列的影响），因此无法准确预估测序深度与数据量的对应关系。

产品服务

Sequencing services

人

动植物

微生物

表观

目标区域测序

深圳华大科技（总部）