这篇文章引入了 Spacedust,这是一种用于在微生物基因组中系统地、从头开始发现保守基因簇的新型计算工具,旨在解决当前宏基因组学数据中蛋白质功能注释的难题。该方法的核心创新在于利用 Foldseek 进行快速且敏感的蛋白质结构比较来识别同源匹配,这比传统的序列搜索更具优势。为评估基因簇的显著性,Spacedust 采用了新颖的统计学指标,即聚类 P 值和排序 P 值,使其能够检测到顺序部分保守的基因邻域。通过对 1,308 个细菌基因组的测试,Spacedust 展现出极高的灵敏度,不仅发现了绝大多数已知的抗病毒防御系统,而且在识别生物合成基因簇 (BGCs) 方面优于几种专门工具。作者总结,Spacedust 的高灵敏度和速度使其成为加速对大量测序细菌、古菌和病毒基因组进行功能注释的有力资源。
References: