logo

logo

产品服务

Sequencing services

全长转录组

产品介绍       

       基于二代测序平台的转录组由于读长的限制(PE100/PE150),在转录本组装的过程中存在较多的嵌合体,并且不能准确的得到完整转录本的信息,从而对后面的表达量分析、可变剪接、基因融合等分析造成了较大的影响。基于PacBio的单分子实时测序技术,目前平均读长已经达到10K以上,最长可达40Kb,其长度已经超过一般转录组中典型的基因的长度,所以利用第三代测序平台进行转录组的研究,可以直接得到全长转录本信息,而无需组装,从而最大限度的保证了转录组测序结果的准确性。

研究内容

       全长转录组基于PacBio的单分子实时测序技术,可以直接得到全长转录本信息,无需组装,最大限度的保证了转录组测序结果的准确性,补充已注释基因组的基因注释结果,发现新的基因和转录本,鉴定可变剪接、基因融合现象、APA位点(Alternative polyadenylation,选择性多聚腺苷化位点)等,并改善基因表达定量。

      对于无参考序列的物种,全长转录组测序可以构建高质量的基因集,为后续物种的功能研究奠定基础。

      对于有参考序列的物种,可发现新的转录本,完善参考基因集;并鉴定可变剪接、基因融合等结构变异。

      此外在基因组研究中,全长转录组还可以用于辅助基因组基因注释

产品优势

策略多样:除常规的全长转录组文库外,还可根据需求增建5-10K大片段文库,满足客户对长转录本的研究需求。

通量大:华大基因拥有12台Sequel测序仪,通量大,测序成本低,周期短。

样品起始量低:华大基因全长转录组样本需求仅1ug,远低于同行样本量需求。

信息分析内容全面:实时跟进科学研究前沿,不断升级信息分析内容。

个性化分析:具有丰富个性化分析经验,可根据项目需要选择最适宜的分析软件,只为保障最精准结果。

无需组装:长读长不需要组装,就可以准确的得到全长转录本的序列信息。

精准基因集:借助三代读长的优势获得更精准基因集,可以改善基因表达定量的结果。

更多新发现:可以发现新的基因和转录异构体,并准确的鉴定可变剪接及基因融合现象。

辅助基因注释:可辅助基因组de novo基因注释,获得更好的基因注释结果。

经验丰富:华大基因自2015年推出全长转录组产品以来,已完成800+个全长转录组测序。目前华大基因的Sequel平台运行良好,实验及信息分析人员上机及问题处理经验丰富。


案例一:三代测序研究玉米转录组的复杂性

Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing(Nature communications, 2016).

方案设计:

材料选择:玉米自交系B73不同发育阶段的6个组织(根、花粉、胚芽、胚乳、幼雌穗、幼雄穗),提取RNA;

测序策略:

二代测序:6个组织进行二代RNA-Seq测序,每个样品三个重复;

三代测序:每个样本反转录之前加入特异性barcode,后续进行等量混合,上机测序47cell;

分析方案:检测玉米可变剪接现象;转录因子分析;lncRNA分析;融合基因分析;甲基化分析。

主要结论:

  1. 构建5种不同片段大小的文库,上机测序47cell,总共产生3,716,604条reads,过滤掉低质量的reads,总共获得1,553,692 条全长的转录本序列(FL)。
  2. 和RefGen-V3的isoforms进行长度比较,发现全长转录本预测出来的转录本整体上比V3基因集的要长。在目前的V3基因集中一个基因平均有2.84个isoforms,而全长转录组数据显示,一个基因平均有6.56个isoforms,是前者的两倍多。Isoforms的组织特异性分析显示:花粉有更高的组织特异性,而根的特异性最低。
  3. 在玉米的V3参考基因集中,转录因子数目为2,624,分为57个家族。全长转录组解决方案将转录因子的数据增加到5,423个,几乎是两倍
  4. 鉴定出878个lncRNA,其中11个是以前报道过的,867个是新的lncRNA。 这些lncRNA的平均长度为1.1kb(范围为0.2kb-6.6kb),比之前的认知的lncRNA要长很多(平均400+kb)。花粉拥有最多的特异的lnc(238个),穗是最少的lnc(68)个。
  5. 从Pacbio数据中鉴定出1,430个融合转录本。其中143个被Illumina数据支持。结果表明,融合事件多发生在染色体间。

案例二:三代和二代测序结合研究揭示丹参药用成分合成机理 

Full-length transcriptome sequences and splice variants obtained by a combination of sequencing platforms. (Plant Journal,2015)

方案设计:

研究材料:丹参酮一般认为产生于丹参根部周皮部,研究分别取了根部的周皮(periderm)、韧皮(phloem)、木质(xylem)3种类型的根部组织进行了mRNA测序。

研究方法:3种类型根部样本各设置3个生物学重复,总共9个样本,采用HiSeq2500 PE100进行测序,每个样本产生~5G raw data 。9个样本混合测序,采用PacBio RSII 进行测序,建<1kb、1-2kb、2-3kb、>3kb 四个SMRT bell文库,总共产生~4.8G raw data;

主要结论:

  1. 采用HiSeq2500 数据对PacBio RSII平台所产生的subreads进行了校正,最后得到了16,241个高质量非冗余isoforms。
  2. 基于HiSeq2500产生的mRNA数据的差异表达分析,发现了在根部周皮部特异表达与者高表达丹参酮合成相关基因,SmCPS1、SmKSL1、GGPS、IPI、CYP等;
  3. 最后研究者使用得到的16,241个高质量的Isoforms进行了可变剪接分析,发现了大约有40%检测基因位点发生了可变剪接现象,其中有些基因参与了萜类化合物代谢及类异戊二烯代谢。



RNA样本送样建议

PacBio转录组(Sequel

样本类型

总量

浓度

RIN

28S/18S

基线和5S

纯度

Total RNA

1μg

285ng/μl

RIN8.0

28S/18S1.4

基线平整,5S峰正常

OD260/2801.8

OD260/2301.8


组织样本送样建议

组织类型

送样量(提取RNA

新鲜动物组织干重

50-200mg

新鲜植物组织干重

500-1000mg

新鲜培养细胞

5×107--2×108

全血(哺乳动物)

2-5mL

全血(非哺乳动物)

0.5-2mL

菌体

2×107--2×108

藻类

2×107--2×108个或1-2g



Q1:PacBio平台的测序原理?

A1:PacBio是基于单分子,实时测序Single-Molecule, Real-Time(SMRT)技术:建好的文库放在SMRT Cell上进行测序,Sequel SMRT cell中有100万个ZMW;每个孔下面固定DNA合成酶,当待测DNA分子下降到孔中时会与DNA合成酶结合,同时在该酶的催化下,进行了DNA链的合成。由于使用了带有荧光标记的dNTP,在合成时荧光基团会发出亮光,通过检测亮光来读取碱基。

Q2:PacBio平台转录组产品的优势?

A2:相比于HiSeq平台的转录组产品,PacBio转录组不需要组装,就可以得到全长转录本的信息。而二代测序由于读长的限制,得到的全长转录本的数量、准确度及完整性是大打折扣的。

Q3:PacBio目前能接原核转录组吗?

A3:目前全长转录组主要针对真核转录组,如果需要做原核转录组或LncRNA,可以个性化沟通。

Q4:Sequel转录组还需要建3-4个文库吗?

A4:之前用RSII测序平台时推荐建3-4个文库,主要是因为RSII上机偏向性较大,如果要是构建1个文库,而文库的片段范围是1-10K的话,那上机的时候的数据会有大部分都是小片段的,大片段的转录组所占的比例会非常少,数据量也就很少,因为小片段更利于掉入ZMW小孔中。

Sequel平台在上样偏向性上有较大的提升,不需要构建3-4个文库,构建一个文库(1+0.4X磁珠纯化文库)即可得到和转录本实际分布相符的结果;若物种长转录本较多,也可以增建一个4.5-10k文库。

Q5: PacBio Sequel转录组推荐的测序方案?

A5:建库:0-5kb文库(1+0.4X磁珠纯化文库);测序:1-2个Cell。

转录组0-5K文库也包含5K以上片段,测序结果反映转录本的真实情况。

如果特别关注5K以上的长转录本,也可以增加一个4.5-10K的文库。

Q6:全长转录组结题报告中的数据量怎么看?

A6:关于全长转录组结题报告数据量解读,目前全长转录组结题报告中有下机数据量统计,subreads统计以及reads of insert(CCS)统计。Polymerase, subreads 和reads of insert(CCS)对应关系如图1所示:

Picture1

图1 全长转录组测序结果展示图

表1是下机数据统计,就是我们一般承诺的数据量,这里选择了一个数据量小的项目(或者是截取了一部分数据)做的流程。Total base就是下机数据量。Total reads一般跟P1的比例有关(~1,000,000*P1,1,000,000是Sequel的ZMW孔数)。平均读长代表的酶读长,Sequel一般承诺8K以上,读长越长,CCS序列的准确性越高。

注意:三代下机数据是自动过滤了质量值小于0.8和读长小于50bp的片段后的数据,不需要像二代测序那样再进行数据过滤,所以三代下机的都是有效数据,没有clean data和raw data的概念。

表1 聚合酶读取(Polymerase Reads)情况汇总

Sample

Library

Cell Number

Total Reads

Total Base(GB)

MaxLength (bp)

MeanLength (bp)

N50 Length(bp)

1

A

1

494927

8.78

113085

17737.35

35855

表2是subreads数据统计,代表原始下机数据去了接头以后的数据。一条polymerase去接头以后会生成多条subreads,所以这里的total reads数比较多。总数据量和去接头前没有大的差别。平均长度跟插入片段长度有关。这个平均长度比表3的平均长度短,可能是受一些不完整片段的长度影响。

表2 Subreads情况汇总

Sample

Library

Cell Number

Total Reads

Total Base(GB)

MaxLength (bp)

MeanLength (bp)

N50 Length(bp)

1

A

1

3836208

8.78

72300

2288.38

4661

 

表3 测序情况汇总

Sample

Library

Cell Number

Reads of Insert

Read Bases of Insert(bp)

Mean Read Length of Insert(bp)

Mean Read Quality of Insert

Mean Number of Passes

1

A

1

484946

1,758,449,481

3626

0.9

6

表3是CCS数据统计,就是之前结题报告中提供的数据。对表2中每条序列的多个subreads进行自纠错,得到一条read of insert,read of insert的数量是和表7的total reads数基本一致的(略偏少)。平均长度跟转录本的平均长度接近。


深圳华大科技(总部)

电话:400-706-6615
邮箱:info@genomics.cn