Jensen Huang l'a-t-il mentionné ? SN3 a augmenté 5 fois en un mois, qu'a-t-il vraiment fait ?

2026年3月20日,All-In 创投播客中出现了一段不同寻常的对话。

风险投资大佬Chamath Palihapitiya将话题交给英伟达CEO黄仁勋,提到Bittensor上的一个项目“完成了一项相当疯狂的技术成就”,用分布式算力在互联网上训练了一个大型语言模型,整个过程完全去中心化,没有任何中心化数据中心参与。

黄仁勋没有回避。他将此比作“现代版的Folding@home”,那个在2000年代让普通用户贡献闲置算力、共同对抗蛋白质折叠难题的分布式项目。

在此之前的4天前,即3月16日,Anthropic联合创始人Jack Clark在发布AI研究进展报告时,也用大量篇幅重点介绍并引用了这项突破:Bittensor生态子网Templar(SN3)完成了720亿参数大模型(Covenant 72B)的分布式训练,模型性能与Meta在2023年发布的LLaMA-2相当。

Jack Clark将这一章节命名为“通过分布式训练挑战AI政治经济学”,并强调这是一项值得持续关注的技术——他能想象未来:设备端AI大量采用去中心化训练产出的模型,而云端AI则继续运行专有大模型。

市场反应略显滞后但极为剧烈:SN3过去一个月涨逾440%,过去两周涨逾340%,市值达到1.3亿美元。子网的叙事爆发,直接带动TAO的购买压力。因此,TAO快速上涨,一度达到377美元,过去一个月翻倍,FDV(完全稀释市值)约为75亿美元。

问题来了:SN3到底做了什么?为何会被推至聚光灯下?分布式训练和去中心化AI的价值叙事又将如何演变?

那个72B的模型

要回答这个问题,首先要看清SN3的成绩单。

2026年3月10日,Covenant AI团队在arXiv上发布技术报告,正式宣布Covenant-72B完成训练。这是一个720亿参数的大型语言模型,超过70个独立节点(每轮约20个节点同步,每个节点配备8张B200显卡),在约1.1万亿tokens的语料上完成了预训练。

Templar提供了在基准测试方面的一些数据,当然,对比的基准是Meta在2023年发布的LLaMA-2-70B。正如Anthropic联合创始人Jack Clark所说,Covenant-72B在2026年可能显得有些过时。它在MMLU上的得分为67.1,大致对应Meta的LLaMA-2-70B(65.6分)。

而2026年的前沿模型——无论是GPT系列、Claude还是Gemini——早已在数十万GPU上完成了参数量远超1000亿的训练,推理、代码、数学能力的差距是数量级而非百分比的问题。这一现实差距不应被市场情绪所淹没。

但换算到“用开放互联网上的分布式算力训练出来”这个前提下,意义就完全不同了。

做个比较:同为去中心化训练的INTELLECT-1(Prime Intellect团队出品,100亿参数)在MMLU上的得分为32.7;另一个在白名单参与者中进行的分布式训练项目Psyche Consilience(400亿参数)得分24.2。Covenant-72B以72B规模、67.1的MMLU分数,在去中心化训练赛道中是个显眼的数字。

更关键的是,这次训练是“无需许可”的。任何人都可以接入成为参与节点,无需事先审核,无需白名单。超过70个独立节点参与模型更新,从全球各地连接贡献算力。

黄仁勋说了什么,没说什么

还原那场播客对话的细节,有助于校正外界对这次“背书”的解读。

Chamath Palihapitiya在对话中将Bittensor的技术成就展现给黄仁勋,并描述为用分布式算力训练了一个Llama模型,过程“完全分布式,同时保持状态”。黄仁勋回应将其比作“现代版的Folding@home”,并展开讨论了开源与专有模型并行共存的必要性。

值得注意的是,黄仁勋没有直接提到Bittensor的代币或任何投资含义,也没有进一步讨论去中心化AI训练。

理解Bittensor子网和SN3

要理解SN3的突破,首先需明确Bittensor及其子网的运作逻辑。简单来说,Bittensor可看作是一条AI公链和平台,而每个子网就相当于一条独立的“AI生产流水线”,各自明确核心任务、设计激励机制,协同构建去中心化AI生态。

其运作流程清晰且去中心化:子网所有者定义子网目标并编写激励模型;矿工在子网中提供算力、完成AI相关任务(如推理、训练、存储等);验证者对矿工的贡献进行打分,并将评分上传至Bittensor共识层;最终,Yuma共识算法会根据各子网累积的奖励,向子网参与者分配收益。

目前Bittensor上有128个子网,涵盖推理、无服务器AI云服务、图像、数据标注、强化学习、存储、计算等多类AI任务。

而SN3就是其中的一个子网。它不做应用层套壳,不租用现成的大模型API,而是直接瞄准了整个AI产业链中最昂贵、最封闭的核心环节之一:大模型预训练。

SN3希望利用Bittensor网络协调异构计算资源的分布式训练,通过激励式分布式大模型训练,证明无需昂贵的中心化超级计算机集群,同样可以训练出强大的基础模型。核心吸引力在于“平权”——打破中心化训练的资源垄断,让普通个体或中小机构也能参与大模型训练,同时借助分布式算力降低训练成本。

推动SN3发展的核心力量是Templar,其背后的研究团队为Covenant Labs。该团队还同时运营着另外两个子网:Basilica(SN39,专注计算服务)和Grail(SN81,专注RL后训练与模型评估)。三者形成垂直整合,完整覆盖大模型从预训练到对齐优化的全流程,构建去中心化大模型训练的完整生态。

具体而言,矿工贡献计算资源,将梯度更新(模型参数的调整方向和力度)上传至网络;验证者评估每个矿工的贡献质量,按照误差改善幅度给予链上评分。结果决定奖励权重,自动分配,无需信任任何第三方。

激励机制的关键在于,奖励直接挂钩“你的贡献让模型变好了多少”,而非单纯的算力出勤。这从根本上解决了去中心化场景中最难的问题:如何防止矿工摸鱼。

那么Covenant-72B如何解决通信效率和激励相容问题?

让几十个互不信任、硬件各异、网络质量参差不齐的节点协同训练同一模型,面临两个挑战:一是通信效率,标准的分布式训练要求节点间高带宽、低延迟;二是激励相容,如何防止恶意节点提交错误梯度?如何确保每个参与者都在老老实实训练,而不是抄袭他人的结果?

SN3用两个核心组件解决了这两个问题:SparseLoCo和Gauntlet。

SparseLoCo解决通信效率。传统分布式训练每步都需同步完整梯度,数据量巨大。SparseLoCo采用:每个节点在本地运行30步内部优化(AdamW),然后将产生的“伪梯度”压缩后上传。压缩方式包括Top-k稀疏(只保留最关键的梯度分量)、误差反馈(将丢失部分累积到下一轮)、以及2位量化。最终压缩比超过146倍。

换句话说,原本需传输100MB的内容,现在不到1MB即可。

这使得在普通互联网带宽(上行110Mbps,下行500Mbps)条件下,系统计算利用率保持在约94.5%——20个节点、每节点8块B200、每轮通信仅需70秒。

Gauntlet解决激励相容。它运行在Bittensor区块链(子网3)上,负责验证每个节点提交的伪梯度质量。具体做法:用一小批数据测试“用该节点梯度后,模型损失降低了多少”,结果称为LossScore。同时,系统还检查节点是否用自己分配的数据训练——如果某节点在随机数据上的损失改善比在自己数据上还好,会被打负分。

最终,每轮只采纳评分最高的节点梯度参与聚合,其他节点被淘汰。超出部分会随时补位,保持系统稳健。整个训练过程中,平均每轮有16.9个节点的梯度被纳入,累计参与节点超过70个。

去中心化AI的价值叙事,正发生根本性转变

从技术和行业角度看,Covenant-72B代表的方向具有几个重要意义。

第一,打破“分布式训练只适合小模型”的预设。虽与最前沿模型仍有差距,但证明了此路径的可扩展性。

第二,无许可参与是真实可行的。这一点被低估。此前的分布式训练项目依赖白名单——只有经过审核的参与者才能贡献算力。SN3此次训练中,任何拥有足够算力的人都可加入,验证机制过滤恶意贡献。这是向“真正去中心化”迈出的实质性一步。

第三,Bittensor的dTAO机制使子网价值的市场发现成为可能。dTAO允许每个子网发行自己的Alpha代币,通过AMM机制由市场决定哪些子网获得更多TAO分配。这为像SN3这样产出具体成果的子网提供了粗糙但有效的价值捕获机制。当然,这套机制也容易被叙事和情绪干扰,LLM训练成果的质量难以由普通市场参与者独立评估。

第四,去中心化AI训练的政治经济意义。Jack Clark在Import AI中将此问题提升到“谁拥有AI的未来”层面。目前,最前沿模型训练被少数拥有大规模数据中心的机构垄断,这不仅是商业问题,也是权力结构问题。若分布式训练持续取得技术突破,或在某些模型(如特定领域的小型前沿模型)中形成真正的去中心化开发生态,前景虽远,但值得期待。

总结:一个真正的里程碑,以及一系列真实的问题

黄仁勋表示,这像“现代版的Folding@home”。Folding@home在分子模拟领域做出贡献,但未威胁到大型制药公司的核心研发地位。这一比喻非常贴切。

SN3验证了协议的可行性,证明了分布式训练的潜力。但从技术和行业角度看,这份成绩单背后,仍存在许多少有人愿意深入讨论的问题:

  • MMLU本身在学界存在争议,题目和答案可能泄露训练集信息。更重要的是,基准的选择:论文对标的LLaMA-2-70B和LLM360 K2都是2023-2024年的旧模型,而在问及Grok、豆包时,这些模型的得分被视为中下游甚至入门级水平。若用更动态或抗污染的新基准,结论或许会不同。

  • 决定模型能力上限的高质量数据——对话、代码、数学推导、科学文献——大概率掌握在大公司、出版机构和学术数据库手中。算力民主化了,数据端仍由寡头控制,这一矛盾未被充分讨论。

  • 安全性方面,无许可参与意味着你无法知晓那70多个节点的身份,也不清楚他们用什么数据训练。Gauntlet能过滤明显异常的梯度,但无法防范微妙的数据投毒——如果某节点系统性地在某类有害内容上多训练几轮,产生的微小偏移可能通过损失评分筛查,但对模型行为产生累积影响。最终在金融、医疗、法律等高合规场景中,使用由少数匿名节点训练、数据来源不透明的模型,潜在风险巨大。

  • 另一个结构性问题:Covenant-72B以Apache 2.0开源,不使用SN3代币。持有SN3代币,获得的是未来持续产出新模型的排放收益,而非模型使用的直接收益。这个价值链依赖持续的训练产出和网络排放机制的健康运转。若未来训练停滞或新模型质量不达预期,代币估值将动摇。

列出这些问题,并非否定Covenant-72B的意义。它证明了曾被认为不可能的事情可以实现,这一事实不会消失。但“做到了”与“意味着什么”,是两回事。

过去一个月,SN3代币上涨了440%。这中间的距离,可能不仅仅是炒作,而是叙事速度快于现实。未来,这段距离会被市场逐步填平,还是被市场修正消化,取决于Covenant AI团队接下来交出的实际成果。

值得关注的是,Grayscale已于2026年1月提交TAO ETF申请,显示机构资本对这条赛道的兴趣逐渐升温。此外,2025年12月,Bittensor将每日TAO排放减半,供给端的结构性收紧也在酝酿中。

参考链接:

TAO-1,59%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler