- 首页 > 蛋白质组+转录组关联分析
蛋白质组+转录组关联分析
生命体是一个多层次、多功能的复杂结构体系,涉及一套精细的表达调控机制,如转录调控、转录后调控、翻译调控和翻译后调控等。仅用单一组学数据很难对复杂性状的遗传特性和生物网络调控进行解释。
基于多组学的整合分析至关重要,能够弥补单一组学数据缺失、噪音干扰等因素带来的问题。其次,多组学数据之间相互验证,能减少单一组学分析带来的假阳性。重要的是,多组学数据联合分析更有利于对生物学模型进行表型和遗传过程调控机制的深入研究。
转录组和蛋白质组是基因组在RNA和蛋白质两个层面的表达产物,对其进行多组学整合分析有利于研究基因表达过程的多级调控,能获得基因表达的全景图,为医学研究、药物研发、农业发展等各领域提供更全面的信息。
技术优势
- 高质量的自主测序平台
滚环扩增构建DNB测序文库,PCR扩增错误不累积,无index hopping之忧,低dup rate无需人为干预。
- 全面丰富的质谱研究平台
拥有高精度质谱仪50余台,包括timsTOF Pro、Orbitrap Exploris 480、Orbitrap Eclipse、Orbitrap Fusion Lumos、Q Exactive HFX、Q Exactive HF、Q Exactive 等,满足全球科研用户全方位需求。
- 关联分析研究经验丰富
具有丰富的蛋白质组和转录组的项目执行经验,10余年行业积累;
转录组和定量蛋白质组产品已实现Dr. Tom云平台交付,科研用户可自主进行多组学关联;
具有丰富的关联分析研究经验,在Nature等顶级期刊上自主发表多篇文献。
产品应用
- 疾病早期诊断
- 疾病进展监测
- 指导分子靶向治疗
- 药物作用评价
- 分子分型研究
- 动植物生长发育研究
- 植物抗逆性研究
技术路线
1、Cell绘制人体定量蛋白质组图谱
A Quantitative Proteome Map of the Human Body. Cell. 2020.
背景:
确定每个组织中的蛋白质水平及其与RNA水平的比较,对了解人类生物学和疾病以及控制蛋白质水平的调节过程具有重要意义。
实验设计:
采用TMT蛋白质定量技术对GTEx项目(Genotype-Tissue Expression Project,该项目从948例死后供者的54个组织中收集样本,对其转录组进行了鉴定)中的32个正常人体组织进行研究。
主要结果:
1)对GTEx项目中32个正常人体组织约12,000个蛋白质进行了定量分析。研究鉴定了组织特异性蛋白质,并与转录组数据进行比较,发现许多普遍存在的转录本编码组织特异性蛋白。
2)RNA和蛋白质富集的不一致揭示了潜在的合成和分泌蛋白的作用位点。蛋白质的组织特异性分布也提供了对复杂生物学事件的深入认知,这些事件需要多个组织的相互作用。
3)研究表明蛋白质组织富集信息可以解释遗传疾病的表型,而仅靠转录本信息是无法获得的,蛋白质水平可以为调控、分泌、代谢和人类疾病提供见解。
图1 组织间和组织内蛋白质和RNA的相关性和一致性分析结果
2、光滑念珠菌碳代谢重排机制研究
Transcriptomic and proteomic profiling revealed reprogramming of carbon metabolism in acetate-grown human pathogen Candida glabrata. Journal of biomedical science. 2021
背景:
光滑念珠菌能引发侵袭性念珠菌病,此病发病率和死亡率均很高。该菌在人体内引发疾病,需要有一套高效的代谢调控方案。研究表明在缺少葡萄糖的情况下,光滑念珠菌对碳代谢途径进行了重编排以适应人体环境进而引发疾病,但具体机制尚不清楚。
实验设计:
涉及两个组别,葡萄糖培养的光滑念珠菌(对照组)和替代碳源醋酸盐培养的光滑念珠菌(处理组),利用label-free蛋白定量(每组2例生物学重复,每例技术重复3次)、RNA-Seq(每组3例生物学重复)和qRT-PCR(验证)技术研究光滑念珠菌在生理相关替代碳源存在下的基因调控、分子机制和细胞过程。
主要结果:
1)转录组和蛋白质组数据显示,光滑念珠菌的替代碳调控类似于其他真菌病原体,如白色念珠菌和新型隐球菌,上调了许多来自乙醛酸循环和糖异生的蛋白质和转录本。
2)在缺少葡萄糖的情况下,光滑念珠菌的代谢由葡萄糖的分解代谢转变为葡萄糖中间体的合成代谢。即光滑念珠菌主要依赖乙醛酸循环和糖异生生长来补充葡萄糖中间产物并从醋酸盐中产生能量,进而提高其在寄主内的存活和持久性。
3)本案例采用的方案,后续可用在临床菌株及其他可替代碳源的相关研究中,更深入地了解光滑念珠菌的发病机制,为疾病的防治奠定基础。
图 醋酸盐培养下光滑念珠菌的乙醛酸循环和糖异生作用机制
主要关联分析结果展示
1、样品选择
推荐分组:
对照组、处理组;
对照组、不同时期处理组;
对照组、模型组、处理组;
以上基础上根据实际项目情况增加其他分组,如不同治疗方法/时期、疾病不同阶段等。
推荐生物学重复:
对于以人或动物模型为样本的疾病领域研究,推荐每组生物学重复30例,至少3例;
对于动植物抗性、育种等领域研究,推荐每组生物学重复10例,至少3例;
以上生物学重复为推荐数目,具体请综合实际项目情况确定。
2、样品要求
疾病类研究:
各组尽量在性别、年龄、BMI等各方面匹配(其他指标根据研究的具体疾病而定),即各组样品的性别比例、BMI没有统计学差异,尽可能减少变量;
患者诊断明确,患者疾病状态和阶段要有详细记录;
需采集各样本个体的临床信息,包括性别/年龄/疾病等各项诊断指标;
采集人群需无药物滥用史,需记录与疾病相关的药物或治疗方式;
需获得知情同意书;
样品需干冰运输邮寄。
其他研究(非疾病类研究,如动植物生长发育研究、抗逆性研究等等):
如样品有特殊处理需提前告知,样品需干冰运输邮寄。
送样量,运输及其他注意事项:
蛋白质组和转录组均详见官网对应产品送样建议。
3、数据类型
要求用于关联分析的两组学的样本数据一一对应(即用于关联分析的两组学的样本来自于相同的生物学重复个体),转录组数据可以为转录组/RNA-seq/全长转录组,蛋白质组数据可以为标记蛋白定量/Label-free蛋白定量/DIA蛋白定量。
Q1:蛋白质组+转录组关联分析对用于采集数据的样本有限制吗?
A1:没有限制。此关联分析针对蛋白质组+转录组数据,满足条件的数据即可进行相应的关联分析,根据解读关联分析的结果进行数据挖掘,因此要求在前期设计实验时就要考虑到后面用于关联分析的两组学数据的样本来源在生物学上的相关性(一般建议用于关联分析的两组学数据来源于相同的生物学重复的个体),单纯的数据分析本身只讨论统计学的相关性。
Q2:非模式物种没有高质量的参考基因集,该怎么做关联分析?
A2:理论上我们并不需要参考基因集。我们是根据中心法则决定的编码序列一致性来确定蛋白质与转录本的对应关系。具体方法是对蛋白质序列和转录本序列进行blast比对,高于设定阈值参数的比对结果定义为关联上。当存在高质量的参考基因集并且已有的两个组学数据分析结果采用了相同的geneID集合时,我们直接通过geneID匹配来确定关联。
Q3:将蛋白质组和转录组进行关联分析时,为什么没有采用统一GeneID进行匹配关联?
A3:本项目首先用蛋白质组和转录组数据的geneID进行匹配关联,如果没有对应的geneID匹配,则用blast比对进行关联。在进行转录本重构时,新发现的转录本在mRNA参考数据集中是没有对应的geneID号。如果采用geneID进行关联,新发现的转录本无法与数据库中蛋白的geneID进行关联。而采用blast进行同源比对,只要蛋白序列和转录本序列比对结果通过设定阈值,则认为蛋白和转录本关联上。
Q4:什么是Spearman相关系数?Spearman系数与Pearson系数有何区别?
A4:Spearman和Pearson相关性系数反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。Pearson系数是协方差与标准差的比值,它对数据是有比较高的要求,第一,由于我们在求pearson相关性系数后,通常会用t检验之类的方法进行检验,而t检验是基于数据呈正态分布的假设的。所以进行pearson相关性分析时,实验数据通常假设是成对的来自于正态分布的总体。第二,因为pearson相关性系数受异常值的影响比较大,所以实验数据之间的差距不能太大。Spearman相关性系数,通常也叫Spearman秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求pearson相关性系数时那些限制。