任务驱使,直接看代码不明白是在干嘛。所以找了基因课的WGCNA课程来看,链接:http://genek.tv/,本文是该课程的学习记录。
文章下载链接:
Transcriptome analysis of an apple (Malus × domestica) yellow fruit somatic mutation identifies a gene network module highly associated with anthocyanin and epigenetic regulation
https://www.researchgate.net/publication/282287679_Transcriptome_analysis_of_an_apple_Malus_domestica_yellow_fruit_somatic_mutation_identifies_a_gene_network_module_highly_associated_with_anthocyanin_and_epigenetic_regulation
概念补充
基因共表达网络
寻找协同表达的基因模块(module),探索基因网络与研究的性状之间的联系。
加权基因共表达网络
Weighted Gene Co-expression Network Analysis 即WGCNA--构建基因表达网络的典型系统生物学算法,适用于芯片、RNA-seq,需要至少15个样本。
实验设计
实验材料是两个品种的苹果,一种是红苹果KID,另一种是黄苹果BLO,4个生长阶段(S1-S4)各取样一组(3个重复),每种取4组样本,分别对这8组24个样品进行转录组测序和花青素含量测定。
差异分析
ABCD分别以韦恩图展示了:不同时期两类苹果的差异基因(A);同一类苹果不同时期的差异基因(B、C);两类苹果各个时期共有的差异基因和两类苹果S1与S4的差异基因(D);
WGCNA分析
step1模块划分
按基因表达模式进行基因聚类,自动将表达模式相似的基因划分为一个模块,同一模块的基因在功能上可能具有相关性。
step2:模块与花青素含量的相关性分析
对3299个差异基因划分为9个主要模块,其中Pink与花青素的相关系数达到0.95,该模块的34条基因是研究重点。
step3:对相关性最高的模块的所有基因进行可视化展示
step4:从相关性最高的模块中筛选最重要的基因
pink模块种的基因与花青素含量进行相关性分析,计算Gene significance(GS)值。
GS最高的两个基因是MdMYB10和MdGST。对GS较高的几个基因进行qPCR验证。MdGST是花青素存储和运输过程中的重要基因,MdMYB10是一个MYB类型的转录因子。
step5:qPCR验证表达量差异
表达量差异只是现象,对差异背后的原因进行筛选:
原因一:DNA变异
未发现DNA序列变异
原因二:表观修饰
使用McrBC-PCR方法鉴定MDMYB10启动子区域的甲基化水平
1.MdGST未发现甲基化水平差异
2.MdMYB10的MR3和MR7区域存在差异甲基化,甲基化水平黄苹果高于红苹果,表达量黄苹果显著低于红苹果。
原因三:转录调控
MdGST上有19个MYB类型转录因子的结合位点,可能有转录因子调控。
结论
黄苹果中,MdMYB10基因上游的甲基化抑制了该基因的表达,而该基因是一个转录因子,转录因子的低表达导致了MdGST的低表达,MdGST是花青素存储和运输的关键基因,因此导致了花青素含量降低,导致苹果颜色差异。
WGCNA分析步骤
输入数据:表达矩阵
构建共表达网络
将表达模式相近的基因划分为一个模块
模块与性状之间的关联分析,找到与目标性状相关性最高的模块
(模块之间的关联分析)
模块中核心基因的鉴定
WGCNA的核心理念
关心模块与性状之间的关系,而非单个基因与性状的关系