logo

logo

产品服务

Sequencing services

DNA测序+
RNA测序 -
蛋白质组学+
代谢组学+
单细胞测序+
时空组学+
Dr. Tom系统+
其他服务+

全长转录组

产品介绍       

       基于短读长测序平台的转录组由于读长的限制(PE100/PE150),在转录本组装的过程中存在较多的嵌合体,并且不能准确的得到完整转录本的信息,从而对后面的表达量分析、可变剪接、基因融合等分析造成了较大的影响。基于PacBio的单分子实时测序技术,目前平均读长可达到80Kb,其长度已经超过一般转录组中典型的基因的长度,所以利用长读长测序平台进行转录组的研究,可以直接得到全长转录本信息,而无需组装,从而更大限度的保证了转录组测序结果的准确性。

研究内容

       全长转录组基于PacBio的单分子实时测序技术,可以直接得到全长转录本信息,无需组装,更大限度的保证了转录组测序结果的准确性,补充已注释基因组的基因注释结果,发现新的基因和转录本,鉴定可变剪接、基因融合现象、APA位点(Alternative polyadenylation,选择性多聚腺苷化位点)等,并改善基因表达定量。

      对于无参考序列的物种,全长转录组测序可以构建高质量的基因集,为后续物种的功能研究奠定基础。

      对于有参考序列的物种,可发现新的转录本,完善参考基因集;并鉴定可变剪接、基因融合等结构变异。

      此外在基因组研究中,全长转录组还可以用于辅助基因组基因注释

产品优势

华大特有技术:多倍体通量全长转录组和polyA全长转录组是华大特有技术。利用UMI技术可以实现准确定量;多倍通量相同数据量可以获得3-5倍的有效reads,检测转录本数量翻倍;polyA全长转录组可以获得全长polyA尾的长度,可研究其生物学功能。

策略多样:除常规的全长转录组文库外,还可根据需求增建5-10K大片段文库,满足客户对长转录本的研究需求。

通量大:华大基因拥有12台Sequel测序仪,通量大,测序成本低,周期短。

样品起始量低:华大基因全长转录组样本需求仅1ug。

信息分析内容全面:实时跟进科学研究前沿,不断升级信息分析内容。

个性化分析:具有丰富个性化分析经验,可根据项目需要选择更适宜的分析软件,只为保障更精准结果。

无需组装:长读长不需要组装,就可以准确的得到全长转录本的序列信息。

精准基因集:借助长读长测序平台的优势获得更精准基因集,可以改善基因表达定量的结果。

更多新发现:可以发现新的基因和转录异构体,并准确的鉴定可变剪接及基因融合现象。

辅助基因注释:可辅助基因组de novo基因注释,获得更好的基因注释结果。

经验丰富:华大基因自2015年推出全长转录组产品以来,已完成上千个全长转录组测序。目前华大基因的Sequel平台运行良好,实验及信息分析人员上机及问题处理经验丰富。


案例一:三代测序研究玉米转录组的复杂性

Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing(Nature communications, 2016).

方案设计:

材料选择:玉米自交系B73不同发育阶段的6个组织(根、花粉、胚芽、胚乳、幼雌穗、幼雄穗),提取RNA;

测序策略:

二代测序:6个组织进行二代RNA-Seq测序,每个样品三个重复;

三代测序:每个样本反转录之前加入特异性barcode,后续进行等量混合,上机测序47cell;

分析方案:检测玉米可变剪接现象;转录因子分析;lncRNA分析;融合基因分析;甲基化分析。

主要结论:

  1. 构建5种不同片段大小的文库,上机测序47cell,总共产生3,716,604条reads,过滤掉低质量的reads,总共获得1,553,692 条全长的转录本序列(FL)。
  2. 和RefGen-V3的isoforms进行长度比较,发现全长转录本预测出来的转录本整体上比V3基因集的要长。在目前的V3基因集中一个基因平均有2.84个isoforms,而全长转录组数据显示,一个基因平均有6.56个isoforms,是前者的两倍多。Isoforms的组织特异性分析显示:花粉有更高的组织特异性,而根的特异性最低。
  3. 在玉米的V3参考基因集中,转录因子数目为2,624,分为57个家族。全长转录组解决方案将转录因子的数据增加到5,423个,几乎是两倍
  4. 鉴定出878个lncRNA,其中11个是以前报道过的,867个是新的lncRNA。 这些lncRNA的平均长度为1.1kb(范围为0.2kb-6.6kb),比之前的认知的lncRNA要长很多(平均400+kb)。花粉拥有最多的特异的lnc(238个),穗是最少的lnc(68)个。
  5. 从Pacbio数据中鉴定出1,430个融合转录本。其中143个被Illumina数据支持。结果表明,融合事件多发生在染色体间。

案例二:三代和二代测序结合研究揭示丹参药用成分合成机理 

Full-length transcriptome sequences and splice variants obtained by a combination of sequencing platforms. (Plant Journal,2015)

方案设计:

研究材料:丹参酮一般认为产生于丹参根部周皮部,研究分别取了根部的周皮(periderm)、韧皮(phloem)、木质(xylem)3种类型的根部组织进行了mRNA测序。

研究方法:3种类型根部样本各设置3个生物学重复,总共9个样本,采用HiSeq2500 PE100进行测序,每个样本产生~5G raw data 。9个样本混合测序,采用PacBio RSII 进行测序,建<1kb、1-2kb、2-3kb、>3kb 四个SMRT bell文库,总共产生~4.8G raw data;

主要结论:

  1. 采用HiSeq2500 数据对PacBio RSII平台所产生的subreads进行了校正,最后得到了16,241个高质量非冗余isoforms。
  2. 基于HiSeq2500产生的mRNA数据的差异表达分析,发现了在根部周皮部特异表达与者高表达丹参酮合成相关基因,SmCPS1、SmKSL1、GGPS、IPI、CYP等;
  3. 最后研究者使用得到的16,241个高质量的Isoforms进行了可变剪接分析,发现了大约有40%检测基因位点发生了可变剪接现象,其中有些基因参与了萜类化合物代谢及类异戊二烯代谢。

多倍通量全长转录组 

为了充分利用sequel测序越来越多的数据,华大基因Dr.Tom主导研发了多倍通量全长转录组产品,在建库过程中将多个转录本首尾相连构建sequel文库;通过CCS测序,一条CCS read可得到多条转录本,大幅提升sequel测序全长reads的获得率。

1

图1 多倍通量全长转录组建库示意图

 

多倍通量全长转录组可将单个Sequel cell测序得到的全长reads数提升3-5倍以上;检测到的基因和转录本数目都有明显提升,并结合UMI可实现准确的基因或转录本定量。

1) 全长reads数提升可达3-5倍以上

同样的测序数据量,多倍体通量全长转录组产品测序一个cell检测到的reads数是常规sequel检测方法的3-5倍,最高可达7倍以上。

2

图2 Reads数统计。排除原始数据产量的影响,多倍通量全长转录组测序得到的全长reads数可高达常规文库的7倍以上。

2) 转录本检测数目可提升1倍以上

多倍通量全长转录组产品1个sequel cell检测到的基因和转录本数目远高于常规文库,转录本数目检测数目可提升1倍以上。

3

图3 转录本检测数目。多倍通量全长转录组产品测序1个cell检测到转录本数目可提升1倍以上。

 

3) 基因定量结果更准确

多倍通量全长转录组产品将UMI(Unique molecular identifier,特异性分子标识符)和数据量提升完美结合,全长转录组也可以做基因定量。如下图所示,多倍通量全长转录组基因定量结果和短读长测序(PE测序)定量结果一致性好。


图4 基因定量一致性(spearman系数)

4)选择多倍通量全长转录组产品,大部分物种测20G数据就可满足研究需求

有了多倍通量全长转录组产品,对于转录本复杂度不是太高的物种,一般测20G数据就可满足研究需求。


polyA全长转录组

大多数真核生物的mRNA 3’末端都有由几十个到几百个不等的A碱基组成的Poly(A)尾巴。在目前的mRNA测序中,它们的信息一直被忽略。事实上,它们对于mRNA的稳定性和蛋白翻译非常重要,一些常见生理生化途径可能都会受到Poly(A)长度的调控作用。常规的转录组测序中,Poly(A)只是作为反转录引物结合位点,反转录后只保留约20个Poly(A)碱基,Poly(A)本身的信息一直是被忽略的。利用polyA全长转录组测序可以获得全长polyA尾序列,基于此可以进行polyA长度相关的研究。

 

图5 polyA全长转录组建库方法示意图

1)polyA长度分布:PolyA长度从几十个碱基到几百个碱基不等。细胞不同发育时期,转录本polyA长度不同

000

 图6 polyA长度分布

 

2)polyA中其他碱基含量:polyA主要是由A碱基组成,也会包含一些其他的非A碱基,如C, G, U等。这些非A碱基可能会影响polyA相关的功能。

0

图7 polyA中其他碱基含量

3)polyA 长度与可变剪接及转录本表达量关系

00

图8 polyA 长度与可变剪接及转录本表达量的关系


RNA样本送样建议

PacBio转录组(Sequel)
样本类型 总量 浓度 RIN 28S/18S 基线和5S 纯度
Total RNA 1μg 285ng/μl RIN≥8.0 28S/18S≥1.4 基线平整,5S峰正常 OD260/280≥1.8
OD260/230≥1.8

组织样本送样建议

组织类型

送样量(提取RNA

新鲜动物组织干重

50-200mg

新鲜植物组织干重

500-1000mg

新鲜培养细胞

5×107--2×108

全血(哺乳动物)

2-5mL

全血(非哺乳动物)

0.5-2mL

菌体

2×107--2×108

藻类

2×107--2×108个或1-2g

Q1:PacBio平台的测序原理?

A1:PacBio是基于单分子,实时测序Single-Molecule, Real-Time(SMRT)技术:建好的文库放在SMRT Cell上进行测序,Sequel SMRT cell中有100万个ZMW;每个孔下面固定DNA合成酶,当待测DNA分子下降到孔中时会与DNA合成酶结合,同时在该酶的催化下,进行了DNA链的合成。由于使用了带有荧光标记的dNTP,在合成时荧光基团会发出亮光,通过检测亮光来读取碱基。

Q2:PacBio平台转录组产品的优势?

A2:相比于HiSeq平台的转录组产品,PacBio转录组不需要组装,就可以得到全长转录本的信息。而二代测序由于读长的限制,得到的全长转录本的数量、准确度及完整性是大打折扣的。

Q3:PacBio目前能接原核转录组吗?

A3:目前全长转录组主要针对真核转录组,如果需要做原核转录组或LncRNA,可以个性化沟通。

Q4:Sequel转录组还需要建3-4个文库吗?

A4:之前用RSII测序平台时推荐建3-4个文库,主要是因为RSII上机偏向性较大,如果要是构建1个文库,而文库的片段范围是1-10K的话,那上机的时候的数据会有大部分都是小片段的,大片段的转录组所占的比例会非常少,数据量也就很少,因为小片段更利于掉入ZMW小孔中。

Sequel平台在上样偏向性上有较大的提升,不需要构建3-4个文库,构建一个文库(1+0.4X磁珠纯化文库)即可得到和转录本实际分布相符的结果;若物种长转录本较多,也可以增建一个4.5-10k文库。

Q5: PacBio Sequel转录组推荐的测序方案?

A5:建库:0-5kb文库(1+0.4X磁珠纯化文库);测序:1-2个Cell。

转录组0-5K文库也包含5K以上片段,测序结果反映转录本的真实情况。

如果特别关注5K以上的长转录本,也可以增加一个4.5-10K的文库。

Q6:全长转录组结题报告中的数据量怎么看?

A6:关于全长转录组结题报告数据量解读,目前全长转录组结题报告中有下机数据量统计,subreads统计以及reads of insert(CCS)统计。Polymerase, subreads 和reads of insert(CCS)对应关系如图1所示:

Picture1

图1 全长转录组测序结果展示图

表1是下机数据统计,就是我们一般承诺的数据量,这里选择了一个数据量小的项目(或者是截取了一部分数据)做的流程。Total base就是下机数据量。Total reads一般跟P1的比例有关(~1,000,000*P1,1,000,000是Sequel的ZMW孔数)。平均读长代表的酶读长,Sequel一般承诺8K以上,读长越长,CCS序列的准确性越高。

注意:三代下机数据是自动过滤了质量值小于0.8和读长小于50bp的片段后的数据,不需要像二代测序那样再进行数据过滤,所以三代下机的都是有效数据,没有clean data和raw data的概念。

表1 聚合酶读取(Polymerase Reads)情况汇总

Sample

Library

Cell Number

Total Reads

Total Base(GB)

MaxLength (bp)

MeanLength (bp)

N50 Length(bp)

1

A

1

494927

8.78

113085

17737.35

35855

表2是subreads数据统计,代表原始下机数据去了接头以后的数据。一条polymerase去接头以后会生成多条subreads,所以这里的total reads数比较多。总数据量和去接头前没有大的差别。平均长度跟插入片段长度有关。这个平均长度比表3的平均长度短,可能是受一些不完整片段的长度影响。

表2 Subreads情况汇总

Sample

Library

Cell Number

Total Reads

Total Base(GB)

MaxLength (bp)

MeanLength (bp)

N50 Length(bp)

1

A

1

3836208

8.78

72300

2288.38

4661

 

表3 测序情况汇总

Sample

Library

Cell Number

Reads of Insert

Read Bases of Insert(bp)

Mean Read Length of Insert(bp)

Mean Read Quality of Insert

Mean Number of Passes

1

A

1

484946

1,758,449,481

3626

0.9

6

表3是CCS数据统计,就是之前结题报告中提供的数据。对表2中每条序列的多个subreads进行自纠错,得到一条read of insert,read of insert的数量是和表7的total reads数基本一致的(略偏少)。平均长度跟转录本的平均长度接近。


深圳华大科技(总部)

电话:400-706-6615
邮箱:info@genomics.cn

对话图标