基因组遗传变异按照变异的长度可分为:单核苷酸变异(single nucleotide polymorphism, SNP)、短的插入和缺失(InDel, 长度小于50 bp)、结构变异(structural variation, SV, 长度≥50 bp)。自人类基因组计划和各物种线性参考基因组组装完成后,在相当一段时间内,大多研究都聚焦在SNP和InDel。随着长读长测序技术及相关计算方法的进步,SV已成为当前研究物种适应性演化重点关注的遗传变异类型,特别是在图结构泛基因组的框架下。SV根据变异的类型和剂量变化可被归为包括缺失,插入,重复在内的拷贝数变异、倒位、移位、及一些嵌套的复杂结构变化。
接下来,借用一篇2024年2月发表的“Pan-genome analysis highlights the role of structural variation in the evolution and environmental adaptation of Asian honeybees ”看看SV的研究价值。
不同类型SV示意图[1]
发表杂志:Mol Ecol Resour.
发表年份:2024.2
摘要
东方蜜蜂 (Apis cerana,在我国分布的种群俗称为“中华蜜蜂”或“中蜂”)是我国本土重要的蜜蜂资源和关键的传粉昆虫。绘制其基因组遗传变异图谱是了解种群遗传多样性、群体历史动态和应对环境变化潜在能力的关键。研究人员采用长读长测序技术为中华蜜蜂的祖先群体生成了染色体水平的高质量参考基因组。将其与525个二代短读长重测序数据集联合,构建了中华蜜蜂的第一个泛基因组。基于构建的泛基因组,系统描绘了SV的相关特征,并发现SV与SNP分布没有密切联系;利用SV进行系统进化分析,发现了一个新的中华蜜蜂生态群,而仅通过基因组SNP数据无法复原该生态群。通过环境关联分析,共有44个SVs可能与环境适应相关。其中一个SV(Atpalpha基因中330 bp缺失)可能通过改变其靶基因表达来促进中华蜜蜂对寒冷的适应性。
结论
1、中华蜜蜂染色体水平参考基因组
在这项研究中,采用PacBio HiFi测序和高通量染色体构象捕获(Hi-C)技术,为中华蜜蜂的祖先群(命名为HB,样本来自中国湖北省)生成了染色体水平的参考基因组(图1)。最终的基因组大小和scaffold N50分别为217.7 Mb和4.15 Mb。BUSCO分析表明,该基因组组装具有较高的完整性(98.5%)。
同时还对中华蜜蜂的4个外围群体(分别命名为AB、JL、JX和HN,样本分别来自四川阿坝、吉林、江西和海南)进行了基因组组装,BUSCO完整性范围为97.70% -98.80%(图1d,e)。与以往常用的中华蜜蜂参考基因组ACSNU-2.0相比(注:目前NCBI数据库中新公布的中华蜜蜂参考基因组GCF_029169275.1的contig N50为13.4 Mb),所有5个基因组组合都显示出更高的基因组连续性、基因完整性和重复序列含量。
图1中华蜜蜂基因组组装和泛基因组构建
2、中华蜜蜂泛基因组的特征
对525个中华蜜蜂个体进行迭代组装,最终得到全长345.2 Mb的中华蜜蜂泛基因组(图1e、f)。在本研究中生成的中华蜜蜂泛基因组比任何单个染色体水平的参考基因组更具代表性。该泛基因组共注释到16,587个蛋白质编码基因,其中8,544个为核心基因,在所有个体中都存在。
GO分析结果显示,核心基因在生命基本代谢过程中富集,而可变基因在“应激反应”和“刺激反应”等生物过程中富集,表明它们可能参与了蜜蜂的适应过程(图2e)。
图2中华蜜蜂泛基因组特征
3、结构变异与转座元件密切相关
将525个中华蜜蜂个体的全基因组数据映射到中华蜜蜂参考基因组(HB)的祖先群,共鉴定出19,955个非冗余SVs(图3a)。最常见的SV类型是缺失型(DEL),且88.17%的SV长度短于500 bp(小编认为这个结果可能与本研究分析策略相关,再加上更多的短读长重测序数据,很多长的变异和插入变异未被鉴定到)(图3b)。
图3 中华蜜蜂SVs的数量、长度和分布特征
通过研究中华蜜蜂参考基因组中SVs的分布,发现78.29%的SVs位于基因间区(图4a)。从重复区域的细节来看,SVs优先选择DNA转座子(DNA-TE),其中最富集的转座子是MITE/DTM (图4d)。与重复区域相比,受选择的基因区域和基因区的SVs明显减少(图4c)。基于SV断点进一步分析SV产生的机制,发现转座元件(TE)是SV产生的主要机制。此外,可变数目串联重复序列(VNTR)和非等位基因间的同源重组(NAHR)也是SV形成的重要机制(图4d)。
图4 SVs在基因组上的分布特征及潜在的形成机制
4、SVs为中华蜜蜂种群结构提供了深入见解
首先,将525份中华蜜蜂样本的WGS数据映射到本研究生成的参考基因组(HB),约96万个SNP被用于推断种群结构。在最优K值为9时,得到了8个不同的种群,包括阿坝 (AB)、波密 (BM)、中心 (CT,中心祖先群)、海南 (HN)、东北 (NE)、青海 (QH)、台湾 (TW)和一个称为Malay (ML)的亚种群(图5a)。该种群结构与先前使用SNP数据的结果一致,即使使用的是不同的参考基因组。与基于SNP数据的结果相比,在k=10时,基于SV的群体结构分析揭示了一个新的谱系DN(滇南的群体)(图5a-d)。
图5 利用SNP和SV数据进行种群结构分析
5、SVs是SNP和Indels无法完全捕获的遗传变异
令人惊讶的是,只有13.24%的SVs与附近的SNPs表现出高度连锁不平衡(LD)(图6a),这比其他物种的要低。也发现SVs和Indels之间存在类似的关系,这表明SVs是SNP和Indels无法完全捕获的遗传变异(图6a)。基于遗传分化系数(FST)分析,研究确定了260个群体间显著分化的SVs (top 1%)(图6b),其中大部分位于非编码区。其中,约60%的群体间显著分化SVs位于基因区,79个与附近的SNPs表现出中高连锁。
图6 不同中华蜜蜂种群间显著分化的SVs
6、SVs与中华蜜蜂环境适应性的相关性
在与环境因素相关的基因中,钠/钾转运ATP酶亚基α基因(Atpalpha;LOC107997582)的内含子区域检测到一个330 bp的缺失,该缺失与气候因子平均日差(BIO2)有关,且仅存在于中华蜜蜂的AB群体中。利用PCR技术证实该缺失变异仅存在于AB群体中(图7),表明该SV是AB群体独立演化的结果。
利用同一AB群体的6个工蜂的头部和胸部组织进行转录组测序,结果表明该SV可以抑制Atpalpha基因的表达,从而降低其产物Na+/K+ ATPase的活性,揭示了AB群体耐寒的潜在分子机制(图7)。
图7 AB群体中Atpalpha基因内SV的功能分析
SV的重要性
1) SV是SNP和Indels无法完全捕获的遗传变异。
2) SV与生物表型密切相关,可能对表型性状、疾病易感性和适应能力产生重要影响。
技能介绍:图结构泛基因组研究策略介绍
1)样本选择:不同亚种的材料(研究物种的起源及演化);野生种和栽培种等不同特性的种质资源(发掘重要性状相关的遗传基础、辅助育种);不同生态地理类型的种质资源(物种的适应性进化、分子生态学)。
2)样本数量:推荐具有一定代表性20个以上样本进行测序。
3)测序策略:WGS(建议80X);Hi-C(建议100X);Nanopore(超长文库建议≥30X),PacBio (HIFI模式建议50X)。
4)分析内容:基因集的泛基因组构建和基因组的泛基因组构建;包括基因家族聚类,核心基因家族和非必需基因家族分析,全基因组比对,变异分析,核心基因组和非必需基因组,还有富集分析等等。
原文链接:https://pubmed.ncbi.nlm.nih.gov/37996991/
[1] Romagnoli S, Bartalucci N, Vannucchi AM. Resolving complex structural variants via nanopore sequencing. Front Genet. 2023 Aug 16;14:1213917. doi: 10.3389/fgene.2023.1213917. PMID: 37674481;PMCID: PMC10479017.