华大科技

动植物 de novo 测序即动植物从头测序，指不需要任何参考序列信息即可对某个物种进行测序，用生物信息学分析方法进行拼接、组装，从而获得该物种的基因组序列图谱。利用全基因组从头测序技术，可以获得动植物的全基因组序列，带动这个物种下游一系列研究的开展，从而推进该物种的研究。全基因组序列图谱完成后，可以构建该物种的基因组数据库，为该物种的后基因组学研究搭建一个高效的平台，为后续的基因挖掘、功能验证提供DNA序列信息。

产品优势

领先专业能力，提供全方位服务：依托专业的技术平台，实验和生信分析能力，提供 T2T 基因组、泛基因组以及种质资源数字化一站式解决方案；
强大提取能力，高质量测序结果：提取经验丰富，从样本提取、建库到测序，严格质控，层层把关；
高水平组装质量，分析结果可靠：超过 6000 次 De novo 组装经验，已完成 1200 多个重要物种的基因组构建专业分析流程确保组装结果的准确性和可靠性；
标杆级别文章成果，项目经验丰富：合作发表顶级期刊文章500余篇，其中封面文章34篇，成果卓越。

产品应用

获得物种的参考序列
研究物种起源与进化历史
挖掘功能基因
搭建物种数据库

研究内容

基因组Survey:

1.通过多个Kmer 估计基因组大小和基因组杂合率，重复水平（软件 Jellyfish+ genomeScope）

基因组组装：

1.数据纠错

2.组装

3.组装结果长读长纠错

4.组装结果短读长纠错

5.BUSCO 评价

Hi-C 辅助组装：

1.文库评估

2.Hi-C分析

3.手工矫正，获得染色体

4.近缘物种比较，染色体定名（提供近源物种信息）

基因组注释:

1.repeat 注释

2.基因结构注释（建议提供同源物种5-6个以及转录组数据）

3.基因功能注释

进化分析:

提供已发表物种和近缘物种（选择10个物种以内）

1.基因家族聚类；

2.共有特有基因家族分析;

3.物种系统进化分析;

4.物种分歧时间分析；

5.基因家族扩张收缩分析；

6.共线性分析;

定制化信息分析

可结合客户的需求，协商确定定制化信息分析内容。

案例一 Nature发表“生命之树”猴面包树的演化历史[1]

2024年5月15日，中国科学院武汉植物园/中国科学院中-非联合研究中心、英国伦敦玛丽女王大学、英国皇家植物园、华大科技等国内外研究团队，在国际顶级学术期刊《自然》（Nature） 杂志上发布了猴面包树的演化历史及保护研究论文 “The rise of baobab trees in Madagascar”。

主要结论

01. 猴面包树的基因组序列全景图

该研究利用 PacBio 长读长测序技术结合短读长 DNBSEQ 及 Hi-C 数据对猴面包树的所有八个物种进行测序及组装。组装的基因组大小为 616 Mb-735 Mb；对基因组序列进行注释获得重复序列的比例为 47%-60%，基因数目在 4 万左右。

02. 猴面包树的系统发育关系

利用 SCN 基因并联建树，以及共线性块建树，CNV 获得进化树则与形态学一致，因此认为这一拓扑结构可能更能反映真实的演化历史。

图1. 猴面包树的系统发育关系

03. 遗传多样性及种群历史动态

研究了猴面包树基因组的全基因组杂合度（GWH）和连续纯合片段（ROH），还使用PSMC 模型估计了猴面包树有效种群大小（Ne）的动态变化历史。不同猴面包树物种的 GWH 和 ROH 出现了明显差异。

图2. 马达加斯加猴面包树种群历史动态及其生态驱动因素

04. 地质和环境的影响分析

生态位分化的环境驱动因素的主成分分析表明，马达加斯加的温度、海拔和降水的空间异质性可能是导致猴面包树当前分布的主要环境因素，其中 A. madagascariensis 和 A. rubrostipa 主要受温度和海拔的影响，而其它物种则受降水和海拔的影响。

05. 马达加斯起源假说

马达加斯加谱系与其它两种猴面包树谱系之间的地理隔离是在马达加斯加猴面包树分化之后开始的，这使得所有猴面包树之间能够产生基因流。这种情况与在马达加斯加猴面包树和 A. gregorii/A. digitata 之间检测到的基因流动相吻合。此外，“马达加斯加起源”假说还解释了支持马达加斯加谱系并非单系而是与其它两个谱系混合的基因树比例异常高的现象（基于基因进化树中为 81.2%，基于共线性进化树中为 68.1% ）。

图3. 猴面包树的演化历史

参考文献：[1] Wan, JN., Wang, SW., Leitch, A.R. et al. The rise of baobab trees in Madagascar. Nature 629, 1091–1099 (2024). https://doi.org/10.1038/s41586-024-07447-4

1. 基因家族鉴定

通过同源基因的鉴定及基因家族的聚类分析，得到保守的单拷贝基因家族和多拷贝基因家族，以及物种特有的基因和家族，它们可能和物种的特异性有关，可以为物种特性的研究提供基础。通过Orthofinder软件对蛋白基因集进行聚类得到基因家族信息。

1-1

图1：A图表示不同物种间直系同源基因的种类及数量； B图表示不同物种间直系同源基因的种类及数量韦恩图；

2. 系统发育分析

利用单拷贝基因家族构建物种发育树。根据基因家族聚类的结果，使用单拷贝直系同源基因利用MUSCLE 、Gblocks 0.91b、RaxML软件进行多序列比对，提取保守区域，构建进化树，并使用FigTree进行定根。

1-2

图2：系统发育树

3. 物种分化时间估算

通过每个单拷贝基因家族中的简并位点、系统发育中的定根树及已知物种的分化时间，使用PAML软件估算分子钟和物种间的分化时间。

1-3

图3 物种分化时间。每个分枝长度代表中性进化速率，树形结构节点处数字表示支持率

4. 基因家族扩张与收缩分析

通过基因家族的信息、计算得到的系统发育树和物种分化时间来进行基因家族的扩张与收缩分析。

图4 扩张与收缩的基因家族GO功能富集

5. 基因组共线性分析

共线性片段指同一个物种内部或者两个物种之间，由于复制（基因组复制、染色体复制或者大片段复制）或者物种分化而产生的大片段的同源性现象。在共线性片段中的基因在物种进化过程中保持了高度的保守性。现在常采用 MCScan、MCScanX或JCVI软件进行分析。

图5 自身共线性分析

图6 物种间共线性分析

6、全基因组复制分析（ks）

Ks分析物种在进化史中是否发生全基因组复制事件、以及通过它与其它植物分化时间的比较区分发生全基因组复制相对时间的早晚。将筛选到的共线性基因及其比对结果利用PAML软件对每个基因对进行Ks计算，推断物种分化时间节点或者全基因组复制时间。

各平台基因组DNA送样要求

DNA要求无蛋白，RNA及盐离子等污染，样本无色透明不粘稠

平台	文库类型	样本量	浓度	OD值	完整性(胶图)
CycloneSEQ	Normal long标准文库	m≥12 µL	90 ng/μL	OD260/280：1.8-2.0 OD260/230：2.0-2.2	无降解或轻微降解
DNBSEQ	350 bp library	≥0.2 μg (推荐0.4 μg)	8 ng/μL	-	无降解或轻微降解，主峰≥20 kb
Nanopore	20 kb-50 kb Normal long library	≥2 μg	50 ng/μL	OD260/280:1.8-2.0 OD260/230:≥1.5	无降解或轻微降解
Nanopore	Ultra long library	≥10 μg	50 ng/μL	OD260/280:1.8-2.0 OD260/230:≥1.5	无降解或轻微降解
PacBio Revio	15kb-20kb HiFi library	≥14 μg	80 ng/μL	OD260/280:1.6-2.2 OD260/230: 1.6-2.5	主带集中，无降解或轻微降解，主带≥40 kb，弥散不低于20 kb.

组织样本送样建议

组织类型	Nanopore/PacBio	DNBSEQ	Hi-C
新鲜植物组织（富含多糖多酚等）	建议≥6 g，最低≥4 g （可分装为0.5/1 g每管）	≥200 mg	1 g 建议准备一管备份
新鲜植物组织（少含多糖多酚等）	建议≥4 g，最低≥2 g （可分装为0.5/1 g每管）	≥200 mg	1 g 建议准备一管备份
新鲜动物组织-常见脊椎动物（含哺乳动物、鸟类等）	建议≥2 g，最低1 g （可分装为0.5 g每管）	≥25 mg	≥0.5 g 建议准备1管备份
新鲜动物组织-节肢动物（含蜂类、蚁类、蛹类等）	建议≥3 g，最低2 g （可分装为0.5 g每管）
新鲜动物组织-海洋动物（虾、蟹、海参等）	建议≥3 g，最低2 g （可分装为0.5 g每管）
新鲜培养细胞	建议≥5×10⁸个，最低≥1×10⁸个	≥5×10⁶cell	1×10⁶至10×10⁶个
全血(哺乳动物)	建议6 mL，最低4 mL	≥0.6 mL	≥3 mL
全血(非哺乳动物)	建议≥400 µL，最低≥200 µL	≥0.1 mL	≥1 mL
藻类	建议≥4 g，最低≥2 g	≥1 g	——

Q1：怎么查询基因组的大小？

A1：查询植物基因组大小的网站：http://data.kew.org/cvalues/CvalServlet?querytype=2；

查询动物基因组大小的网站：http://www.genomesize.com/search.php。

换算关系：1pg=978Mb。

Q2：基因组从头测序的组装结果好坏如何判断？

A2：一般用contig N50和scaffold N50 来衡量基因组组装结果的好坏。N50 是指把组装出的 contigs 或 scaffolds 从大到小排列，当其累计长度刚刚超过全部组装序列总长度 50% 时，最后一个 contig 或 scaffold 的大小即为N50的大小，N50 对评价组装序列的连续性、完整性有重要意义；N70 和 N90 的计算方法与N50类似，只是百分数变为 70% 或 90%。

Q3：如何判断简单基因组和复杂基因组?

A3：通常可以通过已测序的近缘种来判断物种复杂程度,如一般鸟类和哺乳类动物都是简单基因组,如果没有近缘物种供参考,可以先做基因组 Survey 评估。

简单基因组及复杂基因组定义
基因组分类	普通基因组	复杂基因组
基因组大小	≤3 Gb	＞3 Gb
染色体倍性	单倍体或纯合二倍体	杂合二倍体或多倍体
杂合率	<1.5%	≥1.5%
重复序列含量	<70%	≥70%
GC 含量	35-65%	<35% 或 >65%
备注	满足所有条件为普通基因组	符合任一条件即为复杂基因组

Q4：进行基因组组装有哪些测序策略推荐？

提供不同平台的测序组装策略服务，利用 DNBSEQ 短读长测序平台进行基因组 Survey，利用 PacBio /Nanopore/CycloneSEQ等高质量长读长测序数据进行组装。组装获得的 Contig 能辅以 Hi-C 数据锚定到染色体水平。

仪器图片

图1 多平台支持

动植物De novo各个平台的测序策略推荐，如下：

表1 动植物De novo各个平台的测序策略

测序平台	文库大小	测序读长	推荐测序深度	主要用途
DNBSEQ	350 bp Library	PE150	≥100X	Survey/纠错
DNBSEQ	Hi-C Library	PE150	≥100X	锚定染色体
Nanopore	Ultra long library (N50: 100 K)	Read length ≥50 kb	40-100X	组装
PacBio Revio	15 kb-20 kb CCS（HiFi）文库	Read length N50≥100 kb	≥30-60X	组装

产品服务

Sequencing services

人

动植物

微生物

表观

动植物de novo测序

产品优势

产品应用

研究内容

案例一 Nature发表“生命之树”猴面包树的演化历史[1]

深圳华大科技（总部）