
- 帮助文档
- FAQ
1.工具概述:
BUSCO(Benchmarking Universal Single-Copy Orthologs, http://busco.ezlab.org),是一款使用python语言编写的利用单拷贝直系同源基因,对转录组和基因组组装质量进行评估的软件。在相近的物种之间总有一些保守的序列,而BUSCO就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。基因组组装需要与BUSCO的一致序列进行tBLASTn比对,然后再用Augustus对基因结构进行预测,最后使HMMER3比对;转录组组装需要先寻找转录本的ORF编码框,然后进行HMMER3比对。
BUSCO软件根据OrthoDB数据库(https://www.orthodb.org/),构建了几个大的进化分支的单拷贝基因集。将转录本拼接结果与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。
分析的时候需要选择评估的组装物种对应的类群,OrthoDB数据库包括以下6个大类:Metazoa(后生动物);Fungi(真菌);Bacteria(细菌);Embryophyta(植物);Protists_ensembl(原生物);Eukaryota(真核生物)。
2.操作方法:
①任务名称:对本次小工具运行任务进行命名,方便后续任务查找及分析结果查看。
②组装序列文件:输入组装的序列文件,文件夹内文件为fa格式,可同时对多个组装序列文件进行BUSCO评估分析。
示例文件:assemble.fasta
③OrthoDB数据库分类:分析的时候需要选择评估的组装物种对应的类群,OrthoDB数据库包括以下6个大类:Metazoa(后生动物);Fungi(真菌);Bacteria(细菌);Embryophyta(植物);Protists_ensembl(原生生物);Eukaryota(真核生物)。
④二级分类:当OrthoDB数据库分类选择后,会相应联动对应的二级分类数据库,选择对应的数据库即可点击运行分析。
3.结果解读:
缩写 | 全称 | 说明 | 关系 |
C | Complete | 多少个BUSCO测试基因被覆盖 | C=S+D |
S | Single-copy | 多少个基因经过比对发现是单拷贝 | - |
D | Duplicated | 多少个基因经过比对发现包含多拷贝 | - |
F | Fragmented | 多少个基因经过比对覆盖不完全,只是部分比对上 | - |
M | Missing | 没有得到比对结果的基因数 | - |
Total | Total | 总共测试的基因条目数 | Total=C+F+M |
不同指标的含义:
Complete:完整性,在被评估的基因组中BUSCO基因的预测分数以及比对上的长度达到了要求;
Complete and single-copy:完整且在该基因组中只有一个拷贝的数目,该指标越高说明组装效果越好;
Complete and duplicated:完整且在该基因组中有多个拷贝的数目,由于BUSCO基因集中的基因都是单拷贝的基因,因此如果出现了多个拷贝,就说明在单体型组装过程中出现了错误,因此该指标越高说明组装效果越差;
Fragmented:Fragmented的基因虽然达到了预测分数,但是长度并没达到要求。有可能基因组组装过程中没有将该片段组装出来,也有可能是基因预测的时候由于基因结构的特殊性没能完整地将该基因预测出来。该指标越低越好。
Missing:Fragmented的基因在基因组中完全没有找到,或者预测分数低于要求。有可能基因组组装过程中没有将该片段组装出来,也有可能是基因预测的时候由于基因结构的特殊性没能完整地将该基因预测出来。该指标越低越好。
4.参考文献:
[1] Simão, F. A., et al. (2015). “BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs.” Bioinformatics 31(19): 3210-3212.
[2] Waterhouse, R. M., et al. (2018). “BUSCO Applications from Quality Assessments to Gene Prediction and Phylogenomics.” Molecular Biology and Evolution 35(3): 543-548.
[3] Korlach, J., et al. (2017). “De novo PacBio long-read and phased avian genome assemblies correct and add to reference genes generated with intermediate and short reads.” GigaScience 6(10): 1-16.
Q1:文件如何上传和删除?
①通过云工具页面上的选择文件按钮可以上传本地文件到云工具文件夹中,上传成功后可以直接选择目的文件进行分析。
②可以在项目中心——工具数据——我的云工具文档 文件夹中查看、上传和删除云工具文件。
Q2:运行成功的任务在哪里查看结果?
投递运行的任务可以在项目中心——我的工具任务 中查看运行状态和结果,点击“结果”可查看页面运行结果,点击“文件”可查看结果文件夹,如果运行失败可以点击“排查”查看报错原因。部分工具没有结果按钮只有文件按钮。
Q3:云工具任务如何删除?
运行失败或不需要的任务可以在项目中心——我的工具任务中勾选后删除,删除的文件会在回收站保存30天,期间可随时复原。