英伟达双塔架构开源 破解大模型逐字生成的算力瓶颈

匿名作者
2026-07-04 02:059

英伟达最新开源的 Nemotron-Labs-TwoTower 模型通过读写解耦架构,成功将文本生成速度提升 2.42 倍且画质与逻辑保留率高达 98.7%。这一突破彻底终结了传统大模型“挤牙膏”式的推理困境,标志着生成式 AI 底层架构从串行向并行的关键跃迁。

告别挤牙膏式的文本输出

在过去很长一段时间里,大语言模型的推理过程就像是老式打字机,只能在一个时间维度上逐个预测下一个词汇(Token)。这种被称为“自回归”的机制虽然保证了上下文逻辑的严密性,但也带来了致命的技术痛点 算力利用率极低且生成等待时间漫长。当你输入一段复杂的提示词时,庞大的计算集群往往只能处于一种“走走停停”的低效状态,等待上一个词生成完毕才能启动下一次计算。

业界此前尝试过文本扩散模型,试图让大模型像画画一样“一次性”铺满所有文字然后逐步清晰。但这种做法往往导致模型在双向纠错与单向理解之间产生严重冲突,最终的代价是其常识认知能力的大幅倒退。英伟达此次推出的离散文本扩散架构 Nemotron-Labs-TwoTower,正是为了在不牺牲认知能力的前提下,彻底斩断逐字生成的算力枷锁。

12.jpg

图源备注 图片由AI生成

解剖双塔 读写分离的架构创新

英伟达交出的答卷是优雅而极客的“双塔解耦”设计。可以将其通俗地理解为大脑的分工合作 左脑专门负责理解,右脑专门负责动笔。

在这个总计 60B 参数的双塔架构中,第一座塔是“只读上下文塔”。英伟达直接冻结了一个已经预训练好的自回归大模型权重,这座塔的唯一任务就是全盘吸收并理解用户的输入,保留完整的推理与常识能力。第二座塔则是单独训练的“去噪写字塔”。这座塔不需要从头去学习人类世界的复杂逻辑,而是通过层级别的交叉注意力机制,源源不断地从第一座塔中读取上下文信息,专注于在全局范围内同时生成所有目标文本。

这种将庞大复杂任务物理隔离的架构创新,使得模型无需再兼顾理解与生成的矛盾。最重要的是,该模型直接复用了现有的骨干网预训练权重,避免了从零开始训练的巨大算力开销,是一次极具性价比的底层重构。

13.jpg

图源备注 图片由AI生成

对下游生态的涟漪效应

2.42 倍的提速不仅是一个跑分数据,更是下游开发者生态的红利。对于极度依赖实时交互的 AI Agent 或是需要超长文本瞬间输出的复杂业务场景而言,推理延迟的减半意味着交互体验的质变。

更关键的是,英伟达选择将这一模型权重在 Huggingface 平台全面开源。在各大云巨头纷纷筑起闭源高墙的今天,这一举动无疑是在为开源社区递送弹药。当开发者可以直接利用这套双塔骨干网微调自己的垂直大模型时,过去因推理速度慢而无法落地的端侧应用、高频交易分析以及实时代码生成等场景,都将迎来真正的爆发。大模型架构的进化正在从拼参数规模,正式转向拼算力转化效率的新阶段。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译