logo

logo

产品服务

Sequencing services

  • 首页动植物 de novo 测序

动植物 de novo 测序

       动植物de novo 测序即动植物从头测序,指不需要任何参考序列信息即可对某个物种进行测序,用生物信息学分析方法进行拼接、组装,从而获得该物种的基因组序列图谱。利用全基因组从头测序技术,可以获得动植物的全基因组序列,带动这个物种下游一系列研究的开展,从而推进该物种的研究。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供 DNA 序列信息。


产品优势

测序通量高:10台Sequel测序仪保证超高测序通量,可实现快速交付;

测序质量好:每种测序平台均执行严格质控,保证测序质量优于行业标准;

平台多样化:PacBio/ HiSeq /BioNano/10X/Hi-C 多种平台完美搭配,提供最佳组合方案,达到最佳组装指标;

应用范围广:基因组图谱的完成为后续基因挖掘、物种起源及进化等研究提供大量数据支撑。

项目经验足:分析人员从业时间久、资历深、经验丰富,精通基因组产品相关的各种分析,为项目的顺利交付保驾护航;

结果产出高:华大基因已经成功完成1000多个物种的全基因组从头测序,合作发表顶级期刊文章146篇,均为全球之最;


产品应用

获得物种的参考序列

研究物种起源与进化历史

挖掘功能基因

搭建物种数据库


研究内容

基因组Survey:

1. K-mer分析以及基因组大小估算

2. 杂合率估算

3. 初步组装

4. GC-Depth分布分析

基因组组装:

1. 组装

2. GC-Depth分布分析

3. GC含量分布分析

4. 测序深度分析

5. 常染色体区域覆盖度评估(需要客户提供BAC或者Fosmid序列)

6. 基因区覆盖度评估(需要客户提供EST或者转录组序列)

基因组注释:

1. repeat注释

2. 基因预测

3. 基因功能注释

4. ncRNA 注释

进化分析:

1. 基因聚类分析(也叫基因家族鉴定,动物TreeFam;植物OrthoMCL)

2. 物种系统发育树构建

3. 物种分歧时间估算(需要标定时间信息)

4. 基因组共线性分析

5. 全基因组复制分析(动物WGAC;植物WGD)

定制化信息分析

可结合客户的需求,协商确定定制化信息分析内容。


项目执行周期

标准执行周期 40-120个工作日,与项目的内容和基因组的复杂度有关。


案例一:基于全基因组测序探究中国种茶树基因组和品质相关基因的进化机制(2018)

          茶树属于自交不亲和且高杂合多年生木本植物,基因组组装难度极高。本研究选择杂合度相对低的品种“舒茶早”进行基因组组装。

1. 茶树基因组组装结果

       利用二代测序、PacBio三代测序约125.4G辅助组装,最终组装获得3.1Gb的基因组。利用BAC文库测序数据、其他的DNA序列和ESTs序列对组装的准确度和完整性进行评估,同时与已报道的大叶种基因组进行了比较分析。BACs评估发现CSS基因组覆盖度达到了98.3%而CSA只有84.6%。同时BUSCO保守核心真核基因评估结果显示CSS仅缺失6(2%)个的保守基因,而CSA缺失16(5.2%)个保守基因。来源于GeneBank的茶树EST序列评估结果显示CSS覆盖度为93%,而CSA为89%。CSS组装获得的基因组64%为重复序列,注释获得33,932高可信度基因models。(见表1)

表1 基因组组装、注释及比较分析

表1

2.茶树基因组进化研究

       在茶的两个变种CSS和CSA间进行共线性分析,检测到121个共线block,1,543共线基因。研究发现CSA和CSS在38到154万年前由共同祖先发生进化分歧。两者间DNA和蛋白直系同源基因的平均序列相似性为92.4%和93.9%。CSS与其他10个植物基因组比较基因组学分析,茶基因组中检测到15,224候选基因家族,其中429个是茶特有的。茶特有基因家族属于细胞色素P450、NB-ARC和TFs。 开花植物在进化历史中往往会存在全基因复制事件(WGD),并且这些基因与农艺或植物特异性性状相关。将>32,000基因models比对回葡萄的基因models,检测到2706个葡萄-茶共线性基因blocks,包含>15894茶基因。基因共线性分析发现茶在历史进程中发生了两次WGD,分别发生在90-100Mya和30-40Mya。 (见图1)

 图1

图1 两个茶树品种共线性分析及进化分析

3.与茶滋味相关的次生代谢物

       茶富含约700种活性化合物,这些活性物质不仅使得茶具有丰富的滋味,也是茶重要保健功能的主要原因。其中特征性成分为儿茶素、茶氨酸、咖啡碱和挥发物。儿茶素作为类黄酮的主要成分,约占茶叶干重的12-24%。茶中的儿茶素类物质包括儿茶素(Catechin,C),表儿茶素 (Epicatechin,EC),没食子儿茶素 (Gallocatechin,GC),表没食子儿茶素 Epigallocatechin,EGC),表儿茶素没食子酸酯(Epicatechin-3-gallate,ECG),表没食子儿茶素没食子酸酯 (Epigallocatechin-3-gallate,EGCG)。其中EGCG 是儿茶素中最重要的活性物质,绿茶中富含EGCG,黑茶中儿茶素是茶黄素和茶红素的聚合物,通过发酵导致儿茶素氧化。 本文揭示了茶树的全基因组复制事件对儿茶素通路起着重要的作用,其中一个重要的基因家族是酰基转移酶基因家族(SCPL1A),茶树中22个SCPL1A基因中有4个是由于全基因复制事件产生(约3000-4000万年前),另外有14个是近期物种特异的串联重复产生。转录组和代谢组相关性分析结果表明16个茶树特异的SCPL基因跟EGCG和ECG高度相关(p<0.05)。 (见图2)


图2

图2.茶树及6个其他物种SCPL1A基因的进化。A. 茶,猕猴桃,咖啡,可可,拟南芥,白杨和葡萄中SCPL1A基因的进化树。B. 茶树的22个SCPL1A基因在不同器官中的表达模式。

      对来自茶树不同器官的转录组数据进行分析,结果表明儿茶素通路的关键基因受到多元调控,比如一些跟生物和非生物胁迫相关的转录因子,如WRKY、C2H2、C3H、NAC和ERF等跟儿茶素通路基因有较强相关性。(见图3) 图3

图3 儿茶素通路关键基因的进化及表达模式。A. 儿茶素生物合成途径。B. 儿茶素合成关键基因在不同组织中表达谱及其与不同儿茶素含量的相关关系。C. 儿茶素合成基因的转录调控。

          茶树中茶氨酸占所有游离氨基酸的比例超过50%,在茶树干叶中占1-2%。但茶树中合成茶氨酸的关键酶基因至今未被完全证实。本研究发现并验证了一个参与茶氨酸合成的关键酶——茶氨酸合成酶基因(CsTSI),该基因跟假单胞菌中被广泛设计用于合成茶氨酸的PtGS基因高度同源。进一步的组织表达谱跟成分的相关性分析显示该基因跟茶氨酸成分高度相关(P < 0.001)。该结果也经拟南芥过表达实验进一步确认。 (见图4)

       图4

图4. 茶氨酸合成通路的关键基因。A. 茶氨酸生物合成途径和关键基因在乙胺处理实验中的表达情况。B. 茶树TS、GS基因及来源于原核、真核和植物GS基因的系统进化树。C. 茶树TS基因在拟南芥幼苗中的合成活性分析。

       儿茶素会使茶呈涩感,非蛋白氨基酸茶氨酸则使茶呈甘甜感,使人精神放松,对神经起保护作用。此外,茶树也能合成挥发性萜类化合物。它们的水解产物及制茶过程中释放的脂类和类胡萝卜素氧化产物,让不同种类的茶呈不同的风味。这些发现首次从基因组层面系统解开了茶叶中富含独特的风味物质之谜。


参考文献:

Wei C, Yang H, Wang S, et al. Draft genome sequence of Camellia sinensis, var. sinensis, provides insights into the evolution of the tea genome and tea quality[J]. Proc Natl Acad Sci U S A, 2018.


1. 基因家族鉴定

      用treefam的方法定义基因家族,基因家族是由来至一个祖先基因的一组基因组成。


1-1

图1:A图表示不同物种间直系同源基因的种类及数量; B图表示不同物种间直系同源基因的种类及数量韦恩图;


2. 物种系统发育树构建

      利用直系同源基因的四重兼并位点构建系统发育树;每个分支长度代表中性进化速率;树枝上的数字代表dN/dS。而dN/dS 可以反映出物种所受到的纯化选择压力的大小。

1-2

图2:系统发育树


3. 物种分歧时间估算

       分化时间和替换速率的估算。人和狗的分化年代来至TimeTree database (http://www.timetree.org),用来作为校正的时间。

1-3

图3:绿色的数字代表替换速率,单位是每个位点每年;蓝色的数字表示估算出来的分化年代,单位是百万年。


4. 基因组共线性分析

       全基因组比对结果是比较基因组分析中的一个重要基础,它一般用于识别基因组中的功能元件。例如,通过基因组的多序列比对结果得到的多个远缘物种的同源序列一般暗示着这些序列是保守的,具有一定的生物特性。

1-4

图4:基因组共线性分析


5. 全基因组复制分析

      全基因组SD分布,由circos软件生成。

1-5

图5:全基因组SD分布图


测序平台

文库类型

样品类型

样品浓度

样本量

HiSeq

270/500/800bp

基因组DNA

20ng/ul

1.5ug

2-3Kb

110ng/ul

4ug

5-6Kb

110ng/ul

4ug

8-10Kb

110ng/ul

4ug

PacBio

20Kb

20ng/ul

10ug

BioNano

——

gDNA Agarose Plug (250Kb)/ 组织样本

——

4-6ug/Plug

 

10X Genomics

——

基因组DNA(主带大于 100kbp,最小值 大于 50kb)

20ng/ul

500ng

Hi-C

——

完成甲醛交联的DNA/新鲜血液/活体组织

——

——

注:组织样本需求量依据不同物种及组织样本类型而不同,如有需要请咨询当地销售


Q:怎么查询基因组的大小?

A: 查询植物基因组大小的网站:http://data.kew.org/cvalues/CvalServlet?querytype=2;

查询动物基因组大小的网站:http://www.genomesize.com/search.php。

换算关系:1pg=978Mb。


Q: 基因组从头测序的组装结果好坏如何判断?

A: 一般用contig N50和scaffold N50 来衡量基因组组装结果的好坏。N50是指把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价组装序列的连续性、完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。


Q: PacBio 测序的优势是什么?

A: 最大的优势是测序读长长,平均读长在12K以上,且无GC偏向性;对基因组的组装、大的结构变异检测、转录组全长测序结果均有极大提升。


Q: BioNano 项目对物种有限制吗?哪些物种可以做呢?

A: BioNano 项目只能针对已有初步组装结果的物种来进行辅助组装,因此每个项目进行之前需要对已有的组装序列进行前期信息分析评估并寻找合适的酶。基因组初步组装结果要求不能太碎,大于100kb的scaffold序列要占大部分,N的含量不能太高,基因组杂合率高的话,辅助组装时也有一定的影响;酶的选择是利用软件Label Density Calculator模拟酶切初步组装结果,计算Label Density,范围在8-15/100kb即可。评估合格的物种可以进行BioNano测序。



深圳华大科技(总部)

电话:400-706-6615
邮箱:info@genomics.cn