[iMeta] 华南农大夏瑞课题组—陈程杰、夏瑞等发布TBtools构造Circos图的简单方法
时间:2022-07-06 阅读量:1563
●2022年7月4日,华南农业大学夏瑞团队在iMeta在线发表了题为“A painless way to customize Circos plot: From data preparation to visualization using TBtools”的文章。
● 在该文章中,作者在TBtools中开发了“Advanced Circos”功能,提供构造Circos图的简单方法。“Advanced Circos”功能提供了一个用户友好界面,用于定制参数设置,并可用于可视化各种基因组水平数据,如基因组关联信息、比对数据、基因密度和QTL位置。
● 第一作者:陈程杰
● 通讯作者:夏瑞 (rxia@scau.edu.cn)
● 合作作者:吴亚
摘 要
Circos图使科学家能够轻松地在全基因组尺度上探索生物大数据,但繁琐的输入数据准备和复杂的参数配置限制了其应用。我们在TBtools中开发了“Advanced Circos”功能,提供构造Circos图的简单方法。作为一个开箱即用的软件,TBtools集成了系列便于输入数据准备的功能。“Advanced Circos”功能提供了一个用户友好界面,用于定制参数设置,并可用于可视化各种基因组水平数据,如基因组关联信息、比对数据、基因密度和QTL位置。本文介绍了“Advance Circos”的主要特点和上游数据准备方法,旨在让更多用户能够使用Circos图进行基因组大数据探索。
关键词:Circos, TBtools, 全基因组水平, 数据可视化
亮 点
● 全基因组尺度数据可视化的开箱即用解决方案
● Circos图绘制与参数定制的手把手教程
● 可重现的项目管理
视频教程
文章底部附原文链接(含视频教程)
全文解读
开发动机
随着测序技术的快速发展和数据分析技术的进步,越来越多的生物基因组序列被解码。随之而来,生物学研究进入了后基因组时代。这要求我们从全基因组范围内更频繁地探索大型生物数据。2009年,Krzywinski提出了Circos图可视化模式。这是一种可视化基因组大数据的强大方法[1]。自那时以来,Circos已被用于许多比较基因组学分析,但由于其在绘制配置和程序使用方面的复杂性,其效用尚未完全释放。虽然目前已有几种用于快速绘制Circos图的工具[1-7],但其间仍有地方值得优化:(1)多数Circos绘制工具的安装复杂,或需要在命令行环境下工作,要求用户具备较高水平的计算机技能,如Perl-Circos;(2)Circos图绘制往往需要用户使用其他各类软件或自行编写脚本整理数据;(3)绘制图稿不支持交互式编辑、直接重绘和中间工程文件的协作共享能力有限。
因此,我们在TBtools [8]中开发了“Advanced Circos”功能,旨在提供创建Circos图的最简单、最方便的方法。用户需要做的是按照TBtools图形界面中的简单提示来组织以制表符分隔的输入文件。所有绘图参数可以交互调整,Circos图可以立即生成和刷新。用户可以保存工作项目以供进一步修改、复制和共享。此外,TBtools作为一个多功能工具包,具有一系列文本处理和数据整理功能,帮助用户轻松快速地准备输入数据,为Circos绘图创建提供一站式解决方案。
数据类别
TBtools中的“Advanced Circos”功能支持可视化多组连续或离散数据。通常,这些数据类型可分为四大类,如图1所示:
图1. 不同数据类型在TBtools的“Advanced Circos”的可视化模式
(A)染色体骨架;(B)热图;(C)条形图;(D)折线图;(E)点图;(F)三角形;(G)箭头;(H)bézier曲线;(I)区块;(J)文本标签。与每个标签字符相邻的是其相应输入数据格式示例。灰色背景的文本表示相应的列是可选的。
第一类是染色体骨架(图1A),呈现特定染色体或其他基因组序列(如支架或重叠群)。它是Circos图的主干,是必需的输入数据。默认输入数据由两个必填列,一个是染色体ID,另一个是染色体长度信息。用户也可以在第三列增加可选RGB代码,以指定染色体骨架的颜色。
第二类是特定染色体区域的标记数据(图1J),可用于标记特定区间,如基因或QTL(数量性状基因座)位置。相应的输入是一个以制表符分隔的文件,其中包含四个必填列和一个可选列:染色体ID、区域标记标签、起始坐标、结束坐标和RGB代码(可选)。
第三类显示染色体区域的关联信息(图1H),通常用于显示同源区域或染色体相互作用关系等。这类数据通常放在Circos图的最内层。输入文件由六个必填列和一个可选列组成,以制表符分隔,分别是染色体ID、起始坐标、终止坐标、染色体ID、起始坐标、终止坐标和RGB代码(可选)。
第四类是染色体区域统计数据(图1B-G,1I),可以以各种方式显示,包括连续数据(以热图、条形图、折线图或点图显示)和离散数据(以三角形、箭头或平铺/矩形显示)。对于连续数据,输入文件的格式为“染色体ID、起始坐标、结束坐标和以数字标示的值”(图1B-E);对于离散数据,输入文件格式为“染色体ID、起始坐标、结束坐标和RGB代码”(图1F、1G、1I)。对于箭头符号(图1G),当起始坐标大于结束坐标时,其方向相反。通过调整绘图跨度,可以堆叠Circos绘图上的不同轨迹,以实现各种可视化类型组合,如图1I和图6所示。矩形/平铺轨迹用于突出显示染色体部分区域。
图形界面
● 主界面
打开TBtools->“Graphics”->“Advanced Circos”,在弹出的界面(图2A-E)中,有三个输入文件字段和两个功能按钮。
1、Chr长度文件(必填);
2、基因组特征信息(可选);
3、关联区域信息(可选);
4. “Load Project…” 按钮加载预先存在的Circos项目;
5、“Show My Circos Plot!” 按钮生成基因组骨架图。
图2. Advanced Circos的主界面和参数面板
(A)-(C)输入文件面板;(D)现有项目恢复按钮;(E)按钮点击生成基因组骨架图;(F)Cirocs绘图的全局参数设置;(G)用于导出绘图或保存项目的按钮;(H)每个染色体区域统计可视化的参数设置。
● 高级参数设置
通过单击“Show Control Dialog”按钮,可以打开高级Circos控制面板。参数设置面板可分为三个主要部分(图2F-G)。
1、位于界面底部的保存按钮(图2G)。“Save Graph”按钮用于导出当前绘图,支持位图和矢量格式;“Save Curr. Project”按钮可用于保存正在进行的项目,该项目可通过上述“Load Project…”恢复,也可以直接与其他用户共享或直接在其他设备上复现;
2、位于界面左侧的全局参数设置(图2F)。这些设置用于控制总体绘图细节,详细分为几个部分:图形设置、颜色栏、颜色标签、颜色记号、关联信息、特征标签、热图颜色比例。而顶部的“Refresh Graph”按钮用于应用调整后的参数并刷新当前绘图。
3、位于界面右侧的单道图形控制参数(图2H)。它们用于控制染色体区域统计信息的可视化细节,染色体区域统计信息也分为几个部分,包括BIN设置、颜色设置、Bar设置和线条设置。单击“添加”按钮,将生成图形轨道。对于每个参数的详细效果,建议用户使用示例数据自行探索(见支持数据1)。
● 案例演示
Advanced Circos是TBtools的内置功能之一,它与一系列可用于输入数据准备的功能集成在一起。在本节中,我们将逐步演示如何使用TBtools的Advanced Circos功能从常见的生物大数据出发,到Circos图生成。
(a) 染色体骨架文件制备
染色体骨架是Circos图的主干。可以使用TBtools中的“Fasta Stat”功能从基因组序列文件中获取有关基因组的信息(图S1)。
功能位置:“Sequence Toolkit”->“Fasta Tools”->“Fasta Stats”;
输入文件:“Arabidopsis_ thaliana.genome.fna”
输出文件:“Arabidopsis_ thaliana.genome.fna.ChrLen.txt”
操作步骤:
1、转到“Fasta Stats”;
2、设置输入文件和输出文件;
3、勾选“仅保留序列长度”;
4、点击“开始”按钮,所需信息将保存到输出文件
(“Arabidopsis_thaliana.genome.fna.ChrLen.txt”)。
注:演示数据的文件名为斜体
输出文件(“Arabidopsis_thaliana.genome.fna.ChrLen.txt”)包含每个染色体的序列长度信息。用户可以手动编辑。例如,我们在这里删除了两条质粒染色体的长度信息。
Chr1 30427671
Chr2 19698289
Chr3 23459830
Chr4 18585056
Chr5 26975502
ChrM 366924
ChrC 154478
只需将染色体长度信息的结果文件拖放到Advanced Circos(图2A)的第一个字段中,按“Show My Circos Plot!”按钮,立即生成染色体骨架的Circos图(图3A)。
图3:Advanced Circos的染色体骨架、区域标记和区域关联数据可视化
(A)基本染色体骨架;(B)不同颜色着色的染色体骨架;(C)染色体骨架上的基因位置可视化;(D)染色体间的染色体区域关联信息可视化。
通过向每行染色体长度信息添加RGB颜色代码,可以对每个染色体进行不同着色。用户还可以使用“Discrete Color Scheme Generator”自动生成一系列颜色(图S2)
功能位置:“图形”->“调色板”->“离散配色方案生成器”;
输入文件:“Arabidopsis_thaliana.genome.fna.ChrLen.txt”
输出文件:“Arabidopsis_thaliana.genome.fna.ChrLen.withColor.txt”
操作步骤:
1、切换到“离散颜色方案生成器”;
2、设置输入文件和输出文件;
3、点击“开始”按钮,RGB色码将添加到输出文件(“Arabidopsis_thaliana.genome.fna.ChrLen.withColor.txt”)。
输出文件中的内容如下所示:
Chr1 30427671 11,249,4
Chr2 19698289 241,193,242
Chr3 23459830 208,201,119
Chr4 18585056 152,162,81
Chr5 26975502 212,178,129
在Advanced Circos中用该文件替换染色体骨架信息,将生成彩色骨架图(图3B)。
(b) 添加基因组标签信息
在许多情况下,我们希望在染色体上标记某些基因组特征,例如基因、QTL和TAD(拓扑关联域)。例如,要突出显示某些基因,用户需要首先获得每个基因的位置信息。TBtools的“GXF基因位置和信息提取”功能可用于获得特定基因的相应基因组区域(图S3)。
功能位置:“Sequence Toolkit” -> “GFF3/GTF Manipulate” -> “GXF Gene Position & Info Extract”
输入文件:Arabidopsis_thaliana.genome.gff3
输出文件:Arabidopsis_thaliana.genome.gff3.CDS.Info.xls
操作步骤:
1、设置输入、输出文件
2、点击“Start”按钮
输出文件包含拟南芥所有CDS的位置信息。用户可以使用Excel或其他文本编辑软件从该表中选择感兴趣的基因信息。在这里,我们使用TBtools中的“Table Row Manipulate”功能,挑出了拟南芥中ARF家族的基因(必须提前准备ARF基因的ID列表)。
功能位置:“Others” -> “Table/Text File Manipulator” -> “Table Row Manipulate”
输入文件: Arabidopsis_thaliana.genome.gff3.CDS.Info.xls
输入ID列表: ARF.Family.IDs.txt
输出文件: Arabidopsis_thaliana.genome.ARF.Pos.Info.xls
操作步骤:
1、设置输入文件,选择第一列进行处理;
2、设置输入AtARF ID列表;
3、设置输出文件;
4、点击“Start”按钮。
可以对结果文件进行简单修改,即只保留前四列,具体文件信息如下:
Chr1 AT1G19220.1 6628068 6633087
Chr1 AT1G19850.1 6886879 6891374
Chr1 AT1G30330.1 10685822 10690838
...
此文件可直接用于Advanced Circos可视化。用户还可以为每个基因附加RGB代码,以呈现不同的文本颜色。如果特征标签在绘图中重叠,可以调整“全局参数设置”中“特征标签”下的“重叠权重”值,如设置为“-4”或更大的数字,进而优化文本间距(图3C).
(c) 基因组区域关联图
染色体序列在内部或染色体间是相互关联的,例如序列同源、染色体相互作用以及基因相互调节。Circos图通常用于显示全基因组复制、大片段易位和串联重复的基因组特征。用户只需使用TBtools中的几个函数,即可准备相关的输入文件,例如,“One Step MCScanX”[9](图S3)。
功能位置:“Graphics” -> “Comparative Genomics” -> “One Step MCScanX”
输入的基因组序列信息:Arabidopsis_thaliana.genome.fna
输入的基因结构注释信息: Arabidopsis_thaliana.genome.gff3
输出文件夹: Synteny Result
在输出目录中,将生成一个后缀为“*.geneLinkedRegion.tab.xls”的文件。它可以用于Advanced Circos可视化。该文件的最后一列(第8列)包含有关同源基因对的信息,Advanced Circos将忽略这些信息。尽管如此,用户可以选择感兴趣的关联间隔,调整RGB代码,并将这些行移动到输入文件的头部以突出显示这些区域。示例文件,如下所示。结果图将类似于图3D。
Chr2 19105112 19108331 Chr3 22887889 22891435 255,0,0 AT2G46530.3.match.AT3G61830.1
Chr2 19105112 19108331 Chr4 12451277 12455014 255,0,0 AT2G46530.3.match.AT4G23980.1
Chr3 22887889 22891435 Chr4 12451277 12455014 255,0,0 AT3G61830.1.match.AT4G23980.1
……
(d) 基因组数据可视化
GC含量 / GCskew / 未知碱基
核酸组成是基因组的一个基本特征。例如,GC含量与编码基因和功能DNA元素的密度相关;GC-skew是一种度量鸟嘌呤和胞嘧啶链偏好的指数,可以帮助检测细菌环形染色体中的DNA复制起始位点。未知碱基(N)分布可从一定程度上显示基因组组装质量。TBtools中的“Fasta Window Stat”功能可用于快速将基因组序列文件中的GC含量、GC偏斜和N比率制成表格。
功能位置:“Sequence Toolkit”->“Fasta Tools”->“Fasta Window Stat”
输入基因组序列文件:Arabidopsis_thaliana.genome.fna
输出文件前缀:Arabidopsis_thaliana.genome.Window.Stat
将生成三个前缀相同的文件。他们是
“Arabidopsis_thaliana.genome.Window.Stat.GCratio”, “Arabidopsis_thaliana.genome.Window.Stat.GCskew”, “Arabidopsis_thaliana.genome.Window.Stat.Nratio”
这三个输出文件都适用于Advanced Circos可视化。这里,我们使用N比率统计文件作为第一个示例(图4A)。
1、手动删除N比为0的行(可选);
2、如上所述加载染色体骨架信息后,点击“Start”进行可视化;
3、进入参数控制界面(“Show Control Dialog”),点击右侧的“Add”按钮,添加新的轨道;
4、设置N比率文件的输入文件;
5、选择轨道类型作为点,然后单击“Refresh Graph”(图4B)。
请注意,我们已经使用了滑动窗口方法来计算N比率,因此“BIN Mode”可以设置为“None”。
图4:使用不同的轨道类型查看连续数据
(A)轨道参数面板;(B)在点图中查看的N比率情况;(C)GC偏斜度;(D)热图中的基因密度;(E)条形图中的排序覆盖率。
类似地,我们可以使用线条图来可视化GC偏斜。GC偏移的计算以0为界,因此我们在右侧的行设置中将“Sep Line Value”设置为0,以实现正负偏移值的不同着色(图4C)。
基因密度
基因组范围内的基因密度分布通常通过Circos图进行可视化。TBtools有一个方便的功能——“Gene Density Profile”,它允许用户从基因结构注释文件中计算基因密度,通常为GFF3和GTF格式。
功能位置: “Sequence Toolkits” -> “GFF3/GTF Manipulate” -> “Gene Density Profile”
输入文件: Arabidopsis_thaliana.genome.gff3
输出文件: GeneDensity.profile
在“Control Dialog”面板中,单击“Add”以获得附加轨道,拖放基因密度信息文件(“GeneDensity.profile”),选择热图模式,然后刷新绘图(图4D)。如果基因密度分布明显有偏差,用户可以在左下角面板的“Heat Color Scale”菜单中尝试不同的颜色缩放模式,以获得更好的视图。每个热图轨道都会自动触发绘制颜色方案图例,并且这些图例可以轻松移动。
测序数据覆盖度分布
在许多情况下,除了基因组序列本身的特征外,我们还对查看实际NGS数据在基因组上的分布感兴趣,例如,深度测序数据的覆盖范围。TBtools中的“SAM/BAM/CRAM BIN Cov”功能可用于根据映射工具生成的原始对齐文件(通常为SAM、BAM或CRAM格式)准备输入文件。
功能位置: “Others” -> “HTS Data” -> “SAM/BAM/CRAM BIN Cov”
输入文件: SRR17382349_1.bam
输出文件: SRR17382349_1.bam.BINStat.tab.xls
这里,我们选择了条形图来可视化覆盖率数据。勾选“Color by Chr”,使条形图的颜色与染色体的颜色一致。“Bar Fill”选项控制轨道的背景色,此处设置为灰色(图4E)。
基因组变异数据
与比对文件(用于序列覆盖)类似,在TBtools中,用户还能够处理基因组变异的数据,例如,包含基因组序列变异信息的VCF文件。“VCF BIN Cov”功能可用于输入准备。
功能位置: “Others” -> “HTS Data” -> “VCF BIN Cov”
输入文件: Est-1.qual50.filtered.direct.vcf.gz
输出文件: Est-1.qual50.filtered.direct.vcf.BINCount.tab.xls
使用热图模式,可以全面查看染色体上序列变异的热点区域。总体模式在很大程度上与上述基因密度分布互补。
QTLs/Arrow/TAD
上面使用的所有演示数据都是连续的基因组数据,“Advanced Circos”还提供了显示离散数据的各种模式。我们可以参考上述Tile track的格式要求组织QTL信息,例如:
Chr3 7842037 11192039 56,108,176,0.7 Blue Light
Chr5 2899846 8562462 56,108,176,0.7 Blue Light
Chr1 19672910 24443023 227,26,28,0.7 Red Light
Chr1 592464 24581765 255,255,179,0.7 White Light
Chr5 1507102 5275918 255,255,179,0.7 White Light
使用此数据作为输入,并选择“Tile”模式以显示它(图5A)。请注意,最后一列是可选的,它的存在将自动触发图例生成。所有图例都可以轻松移动。此外,“Advanced Circos”还可用于可视化TAD(使用“三角形”模式)或带方向基因区间(使用“箭头”模式)(图1)。
图5: 用不同轨道类型表示的离散数据
(A)QTL的平铺图;(B)修改平铺图以突出感兴趣的基因组间隔。
(e) 其他自定义选项
区间高亮
通过调整Tile轨道的绘制范围(“平铺”轨迹的“Start Pos”和“End Pos”),可以实现高亮区域功能。从图5A开始,将“Start Pos”设置为90,“Bar Border”设置为“null”,并刷新图像,我们将得到如图5B所示的图。
轨道重叠
按照区域突出显示功能的相同逻辑,可以将不同的轨迹合并为一个,这也可以通过调整每个轨迹的“Start Pos”和“End Pos”来实现。通过简单地合并上述轨道,我们可以得到如图6A。
图6:Circos的重叠轨道
(A)从Circos图的内部到外部分别是:基因组区域关联的Bézier曲面;N-比率分布的点图;GCskew的线图;基因密度分布的热图与GC比率变化的线图重叠;测序覆盖率条形图;倒置的条形图;基因家族的标签;(B)捋值的Circos
直线型还是环型?
Advanced Circos是基于我们一直在开发的TBtools强大的交互式绘图引擎“JIGplot”开发的。因此,“Advanced Circos”具有坐标切换(笛卡尔坐标和极坐标之间)和交互式分析的功能。通过取消选中“Circulized”复选框,我们将获得捋值了的Circos图,即“Straight”模式(图6B)。此外,用户可以轻松编辑绘图中的每个元素,例如,旋转元素和更改文本字体和颜色。
保存、共享和重新加载项目
在主绘图面板中,单击“Save Curr. Project”,将当前绘图数据和状态保存到指定目录。用户可以随时直接从Advanced Circos主界面重现保存的项目,做进一步调整。此外,用户只需打包目录并将其发送给同事共享他们的Circos项目,或直接从其他设备工作。
结论
繁琐的数据准备、复杂的配置和大量的文本整理操作限制了Circos图在科学研究中的使用。本文简要介绍了TBtools中“Advanced Circos”绘图功能和相应参数接口,并详细阐述了如何从常见的NGS数据出发,使用“Advanced Circos”制作信息丰富的Circos图。几乎所有步骤都可以在TBtools中通过简单的点击轻松完成。我们预计,本文中TBtools的“Advanced Circos”将使更多的研究人员能够享受Circos图在探索大型生物数据方面的优势。
致谢
本研究由岭南现代农业广东实验室(项目编号:NZ2021007)、国家自然科学基金(32102320)和广东省专项支持计划(2019TX05N193)资助。我们感谢华西医院的于浩鹏博士和中国热带农业科学院的冯筠庭博士就改进TBtools的Advanced Circos功能提出的建设性建议。我们非常感谢40000多名TBtools用户,尤其是30多名高级用户的良好建议。
利益冲突
作者声明没有相互竞争的利益
作者贡献
Chengjie Chen和Rui Xia构思了该项目;Chengjie Chen和Rui Xia设计了工具箱的功能;Chengjie Chen执行了所有Java编码。Ya Wu测试了这些功能,并帮助编写了教程手册和图表。Chengjie Chen和Rui Xia设计了这些图形并撰写了手稿。所有作者都阅读并通过了最终手稿。
数据可用性
所有演示数据和TBtools的相应版本可在https://tbtools.cowtransfer.com/s/c60a5cfec3274f.补充材料(图、表、脚本、图形摘要、幻灯片、视频、中文翻译版和更新材料)可在在线DOI或iMeta Science中找到http://www.imeta.science/。
引文
Chen, Chengjie, Ya Wu, and Rui Xia. 2022. “A painless way to customize Circos plot: From data preparation to visualization using TBtools.” iMeta. e35. https://doi.org/10.1002/imt2.35
陈程杰(第一作者)
●华南农业大学园艺学院教师,生信工具TBtools作者
●现已在Molecular Plant、Nature Communications、New Phytologist、Horticulture Research等国际知名杂志发表论文10余篇
夏瑞(通讯作者)
●博导,华南农业大学园艺学院教授
● 目前是亚热带农业生物资源保护与利用国家重点实验室和农业部华南地区园艺作物生物学与种质创制重点实验室的学术骨干和青年学科带头人。2019年获得广东省特支计划科技创新领军人才项目支持。长期致力于园艺植物基因组和小分子RNA相关研究,已取得了国际领先的研究成果,在Nature Genetics, Nature Communication, Molecular Plant和The Plant Cell等学术刊物发表SCI论文50多篇,累计引用>5000次。目前主要利用生物信息学、基因组学及分子生物学等手段,围绕无患子科植物花性别分化机制以及南方主要水果花果发育调控机理等生物学问题开展研究。并已开发一系列生物信息数据分析工具数据库,如TBtools和sRNAanno(www.plantsRNAs.org)等。
论文链接:
https://doi.org/10.1002/imt2.35
原文链接(附视频教程):
https://mp.weixin.qq.com/s/D1YiDv6rufVxIk5ECEzMsw