英伟达的双塔革命 Nemotron 如何打破大模型自回归的吞吐量魔咒

通过将扩散模型与自回归架构巧妙解耦，英伟达成功在保持文本生成质量的同时，实现了超过两倍的吞吐量跃升，为大规模合成数据生产撕开了一道性能裂口。

串行之痛困在逐字生成里的算力瓶颈

在如今的大语言模型领域，自回归（Autoregressive）架构几乎是一统天下的存在。无一例外，这些主流模型都在玩着“看前文、猜下一个词”的概率游戏。这种机制虽然能够保证极高的文本连贯性与语义逻辑的严密性，但却存在一个从物理层面上难以绕开的硬伤。

技术痛点　它是绝对串行计算的。哪怕你拥有一台插满了最新款加速卡的顶级计算节点，也无法让模型“一口气同时吐出十个词”。必须等前一个词生成完毕，下一个词才能开始推理过程。在处理大规模合成数据或高并发推理请求时，这种逐字蹦出的模式极大地限制了集群吞吐率。为了解决这个问题，学术界曾尝试引入扩散模型（Diffusion）来并行生成文本，但传统方案往往将理解上下文和降噪生成两个任务揉在同一个网络里，导致模型左右互搏，生成质量出现断崖式下跌。

图源备注图片由AI生成

双塔解耦上下文冻结与并行降噪的奇招

英伟达此次开源的 Nemotron-Labs-TwoTower 扩散语言模型，犹如在乱局中砍出了一记精准的手刀。它的架构创新在于极具工程美感的“双塔”设计，强行将大模型的两种核心能力剥离开来，使其各司其职。

底层架构　第一座塔被称为“上下文塔”，它的唯一任务就是理解人类的提示词和已确定的历史信息。这座塔被巧妙地“冻结”了，不参与任何新一轮的参数更新，从而完美保留了预训练基座对庞大语言规则的深刻理解。第二座塔则是专门被训练出来的“降噪塔”。它借助并行运算的优势，不再一个词一个词地猜，而是直接抛出一个包含大量噪点的“文本块”，然后通过与上下文塔的交叉注意力机制，快速进行双向迭代降噪，最终并行输出一整块干净的文本序列。

未来预判　测试数据显示，这种解耦让该模型在保留了原有自回归基线模型近 98.7% 质量的前提下，榨取出了高达 2.42 倍的实际生成吞吐量。TwoTower 的出现解决的不仅仅是速度问题，更是在算力日益昂贵的当下，为下游开发者提供了一种全新的推理优化路径。可以预见，在未来极短的时间内，这种混合分工架构将成为多模态数据合成以及超长文本生成领域的标配，彻底终结长久以来的文本大模型算力闲置浪费问题。