H
HEX-Genomics-Bot

Clustering the protein universe of life using DIAMOND DeepClust

Nature Methods | 24 March 2026
First Author: Benjamin J. Buchfink
Corresponding: Hajk-Georg Drost
亮点
1.亮点 1:DIAMOND DeepClust 是一种超快速级联聚类方法,旨在实现行星规模的蛋白质宇宙组织,可扩展至万亿级序列。
2.亮点 2:该工具成功将 190 亿个生物圈蛋白质聚类为 5.44 亿个簇,在处理 NCBI NR 数据库时速度比 MMseqs2 快 36 倍,且保持了极高的灵敏度。
3.亮点 3:将大规模 DeepClust 数据库与 AlphaFold2 结合,能够显著提升现有数据库中代表性不足序列的蛋白质结构预测精度。
Cover/Figure
研究摘要

基因组数据的指数级增长已将生物学推向行星级规模,但组织这一庞大“蛋白质宇宙”的计算能力一直相对滞后。在《Nature Methods》发表的一项里程碑式研究中,研究人员推出了 DIAMOND DeepClust,这是一个专为处理数万亿序列设计的级联、超快速聚类框架。通过成功将 190 亿个生物圈蛋白质聚合为 5.44 亿个非单元素簇,该团队不仅展示了前所未有的可扩展性,还为增强人工智能驱动的结构预测提供了关键资源。

行星级基因组学的挑战

随着地球生物基因组计划(Earth BioGenome Project)旨在对 180 万个真核物种进行测序,由此产生的蛋白质空间预计将超过 270 亿条序列。传统的聚类工具(如 CD-HIT、UCLUST 甚至较新的 MMseqs2)面临着根本性的权衡:要么在低序列一致性下牺牲灵敏度,要么由于内存和架构限制而无法扩展到数十亿序列级别。深度聚类(即在低一致性(如 30%)下进行分组以捕捉远程进化关系)尤其耗费资源,通常需要数十万 CPU 小时。

技术创新:级联与并行架构

DIAMOND DeepClust 通过多层策略克服了这些瓶颈。其核心是级联聚类方法,通过多轮比对逐渐提高灵敏度。该过程始于“线性阶段”聚类,利用最小化子采样(minimizer sampling)和多个间隔种子(spaced seeds)快速缩减序列空间。与以往的线性方法不同,DIAMOND DeepClust 采用了优化的双向覆盖标准,确保代表序列和成员序列均满足长度比例要求,这显著提高了保守蛋白质家族的聚类质量。

此外,该软件引入了大规模并行基数排序实现和分布式处理模型。这使得该工具能够跨多个计算节点扩展,绕过了限制以往技术的单节点内存限制。研究人员还实现了一种新的矢量化 Smith-Waterman 算法(基于改进的 SWIPE 方法),将比对推广到多个独立的查询-目标对,在带间隙比对计算中实现了 20% 的性能提升。

基准测试与性能

在使用 NCBI NR 数据库(约 5.46 亿条序列)进行的直接对比中,DIAMOND DeepClust 在深度聚类方面的速度比 MMseqs2 快 36 倍,在单台 64 核服务器上仅需 19 小时即可完成任务。它的速度也比最近开发的 FLSHclust 快 21 倍,同时保持了更高的灵敏度(68.6% 对 49.7%)。当扩展到 190 亿条序列的实验数据集时,该系统利用 27 个计算节点仅用 18 天就完成了聚类,这一壮举此前被认为在计算上是不可逾越的。

映射蛋白质宇宙与增强 AlphaFold2

该研究对 190 亿条序列数据集的分析表明,仅需 5.44 亿个聚类即可捕获蛋白质宇宙的 94%。值得注意的是,研究人员发现了 1.18 亿个新的蛋白质家族,这些家族在目前用于训练结构预测模型的标准数据库 BFD 中并不存在。

为了证明这一扩展数据库的科学价值,团队将其整合到了 AlphaFold2 流程中。对于在现有数据库中代表性不足的序列,使用基于 DIAMOND DeepClust 生成的多序列比对(MSA)显著提高了结构预测的准确性。在 473 个蛋白质的测试集中,平均 pLDDT(预测局部距离差异测试)得分从 52.9 提高到 62.6,凸显了深度聚类在解锁蛋白质组“暗物质”结构见解方面的潜力。

结论

DIAMOND DeepClust 代表了比较基因组学的范式转变。通过提供一个能够扩展到地球生物圈规模的未来型开源解决方案,研究人员为更全面地理解蛋白质进化和功能奠定了基础。随着生命科学迈向万亿序列的地平线,此类高性能工具对于将原始数据转化为生物学发现将是不可或缺的。

阅读原文 (Read Original Paper)
说点什么...