Genome biology | 华南农业大学夏瑞团队发表基因结构注释矫正工具——SynGAP
时间:2024-08-30 阅读量:132
当前,大多数生物的基因组测序和高质量组装已较易实现,但基因组注释中核心步骤之一,基因结构注释(gene structure annotation, GSA),仍存在着明显不完善。如图1,多数物种的基因结构注释BUSCO值明显偏低。
基因结构注释是指确定基因在基因组序列中的位置,并准确定义基因外显子和内含子。准确的GSA对基因组学和遗传学研究至关重要,而低质量的GSA会极大地阻碍下游研究,导致生物信息学分析和功能基因组学研究出现错误。尽管使用Apollo和IGV-GSAman等工具手动校正GSA是改善基因结构注释的有效方法,但该方式依赖于全面的转录组或蛋白质组数据,耗时耗力。现在仍缺少可对现存基因组GSA进行矫正优化的自动化流程或工具。
近日,华南农业大学夏瑞团队在国际知名期刊Genome Biology (IF: 10.1) 发表了题为SynGAP: a synteny-based toolkit for gene structure annotation polishing 的研究论文。该研究开发了一种基于基因共线性进行物种基因组基因结构注释矫正的工具SynGAP(Synteny-based Gene structure Annotation Polisher)。该工具基于近缘物种基因共线性,鉴定并矫正原始基因结构注释中的潜在错漏,实现基因结构注释的优化。
图1 有胚植物和脊椎动物基因组基因结构注释和组装的BUSCO完整度(基因组数据来源:Ensembl数据库)
(a-b)已发表的108种有胚植物(a)和307种脊椎动物(b)基因组基因结构注释的BUSCO完整性。(c-d)已发表的108种有胚植物(c)和307种脊椎动物(d)基因组组装的BUSCO完整性。
SynGAP的主要设计思想和流程
演化过程中,在具有共同祖先的近缘物种之间,染色体上同源基因存在保守排列的现象,被称为基因共线性(gene synteny)。近缘物种的基因共线性区块中,部分基因丢失了与其对应的共线性基因,进而在区块内形成共线性对的间隔(gap,图2a)。共线性基因的缺失,可能由基因组序列的变化引起的,同时还有可能是错误注释或缺失的基因模型(mis-annotated or absent gene models,MAGs)导致的(图2a)。基于后一种可能性,可以通过gap内的基因同源比对预测,去鉴定并矫正原始GSA中的潜在遗漏和错误。
具体流程如图2a所示:以SynGAP dual为例,通过两物种的共线性分析,检测出共线性区块中共线性对的空缺位置(gap区域)。随后进行双向的同源比对以实现对gap内潜在注释错漏的初步鉴定与矫正。再通过去冗余、可靠性指标(R value)计算筛选、参考注释质量分级等步骤对初步矫正结果进行质控,最终获得两物种的高质量矫正注释,并且实现对gap的填补。
图2 SynGAP基因结构注释矫正的设计逻辑与流程
(a)SynGAP dual 运行流程。灰色区域代表由基因模型注释错误或缺失(MAGs)引起的共线性空缺(gap)。蓝色实线代表共线性基因对,蓝色方块代表共线性基因。浅红色方块代表缺失共线性的基因,白底黑框方块和灰底黑框方块分别代表可能缺失注释或注释错误的基因。红底黑框方块代表经过矫正的基因结构注释,而红线实线表示由SynGAP寻回的共线性基因对。(b)SynGAP master 运行流程。(c)SynGAP triple 运行流程。
SynGAP基因结构注释矫正效果评估
通过多个植物、动物物种组合的测试与统计,明确SynGAP dual 可以对被测试基因组GSA进行优化——增加优质新基因注释以及共线性基因对,同时提高了BUSCO完整度(图3a-b,d-e)。使用SynGAP triple 可以进一步提升优化效果(图3c,f)。对于原始基因组GSA质量较差的物种,如红毛丹(Nephelium lappaceum,Nla)和红腹锦鸡(Chrysolophus pictus,Cpi),优化效果尤为显著。因此,SynGAP可以应用于动植物基因组的GSA矫正优化。即便是对于模式动植物,例如拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)、番茄(Solanum lycopersicum)、猪(Sus scrofa)等,SynGAP都能矫正得到具有潜在重要生物学功能(如抗病、生殖发育调控等)的GSA(图4)。
图3 SynGAP基因结构注释矫正效果评价
(a, d)用于SynGAP效果评估的物种系统发育树(a:植物;d:动物)。(b, e)不同物种组合中SynGAP dual 矫正得到的基因结构注释和同源基因对数量以及BUSCO完整度(b:植物;e:动物)。物种对后面深浅不同的红色背景表示物种组合的亲缘远近,较深的颜色表示亲缘较近。(c, f)不同物种组合中SynGAP triple 矫正得到的基因结构注释数量以及BUSCO完整度(c:植物;f:动物)。
图4 SynGAP基因结构注释矫正实例
(a)拟南芥(Arabidopsis thaliana)。(b)水稻(Oryza sativa)。(c)番茄(Solanum lycopersicum)。(d)辣椒(Capsicum annuum)。(e)猪(Sus scrofa)。(f)牛(Bos taurus)。红色基因模型是由SynGAP矫正得到。蓝色基因模型和蓝色虚线框分别表示错误的原基因模型和缺失的基因模型。
SynGAP支持跨物种基因差异表达分析
除了基因结构注释矫正功能模块外,SynGAP还包含了一套基因物种比较转录组分析流程(包含genepair 和evi 模块,图5a)。通过该流程可实现近缘物种间的准确基因配对,并结合转录组数据完成跨物种时序性转录组分析,高效地筛选鉴定候选关键差异表达基因。其中设计了EVI(Expression Variation Index)这一基因差异表达指标,可同时体现物种间对应基因的表达水平差异、表达量倍数差异以及表达模式变化差异(图5b)。
图5 SynGAP跨物种基因差异表达分析流程
(a)SynGAP genepair 和evi 的分析流程。(b)EVI 计算公式。expA 和expB 表示跨物种基因对(基因A和基因B)的时序性表达水平。expA和expB 和是基因A和基因B在时序中的平均表达水平(低于0.1的表达值设置为0)。ML、FC 和PCC 分别代表基因对的最大表达水平、表达倍数变化和表达模式相关性。系数a、b 和c 默认设置为1、1和4。
基因对的EVI 值越高,两个同源基因的差异表达就越显著。经测试,EVI 可以作为鉴定控制特定性状或发育过程(如花色素苷合成、辣椒素合成、内果皮木质化和大脑体积增大)的候选关键基因的有效指标(图6)。
图6 SynGAP跨物种基因差异表达分析实例
(a, c, e, g)对基因对的EVI进行排序。红色虚线表示SynGAP自动生成的阈值,EVI 超过阈值的基因对被认为表现出显著的差异表达。a:KID (Malus domestica c.v. Kidd's D-8)与BLO(M. domestica c.v. Blondee);c:Can(C. annuum)与Sly(S. lycopersicum);e:Ppe(Prunus persica)与Mdo(M. domestica);g:Hsa(Homo sapiens)与Ggo(Gorilla gorilla)。(b, d, f, h)基于EVI的GSEA富集分析。b:KID 与BLO;d:Can与Sly;f:Ppe与Mdo;h:Hsa与Ggo。
SynGAP为跨平台命令行软件,可以在多个操作系统下运行。本软件可在https://github.com/yanyew/SynGAP免费查看以及下载。详细的使用手册可在https://www.yuque.com/yanyew/gc786d进行查阅。
本论文以华南农业大学为第一完成单位,华南农业大学园艺学院夏瑞教授、陈程杰博士(现中国热带农业科学院品资所)为共同通讯作者。博士研究生吴锋琦为该论文第一作者。博士研究生麦迎晓参与了该论文的软件功能设计。该研究得到“十四五”广东省农业科技创新十大主攻方向“揭榜挂帅”项目、国家自然科学基金、广东省重点研发项目等资助。