月之暗面重构大模型底层基石 算力效率跃升获硅谷极客力挺

匿名作者
2026-03-19 10:3416

月之暗面提出全新注意力残差架构,打破了沿用近十年的传统等权相加模式。该技术在不增加算力消耗的前提下大幅提升模型效能,标志着国产大模型在底层基础理论创新上迈出关键一步。

撼动祖传架构 破解深层网络无效运算痛点

同样的算力与数据 凭什么有的模型效果更胜一筹 月之暗面给出了一个直击深度学习底层逻辑的硬核答案。3月16日,Kimi正式发布重磅技术报告《Attention Residuals》。该项研究针对自2015年以来几乎从未被变动过的大模型基石 残差连接 进行了大刀阔斧的彻底重构。

传统的残差连接虽然在历史上成功解决了深层神经网络难以训练的梯度消失问题,但其等权相加的粗暴方式正日益暴露出局限性。随着网络层数不断加深,每一层贡献的新特征极易被庞大的累积历史信息所淹没,导致大量中间层实际上沦为不产生有效增益的无效干活节点。

42.png

图源备注:图片由AI生成

深度维度的优雅旋转 引入查询向量机制

面对这一行业顽疾 Kimi研发团队展现了极高的数学直觉。团队敏锐地发现 深度网络在纵向维度上的信息稀释与传统RNN在时间维度上的遗忘现象 在数学结构上具有高度的一致性。基于此 团队进行了一次堪称优雅的旋转 将原本用于处理文字序列的注意力机制横向转动90度 创造性地应用到了纵向的网络深度维度上。

通过这种全新的注意力残差机制 每一层网络不再是被动地接受叠加信息 而是通过一个轻量级的查询向量 主动且有选择性地决定从前面哪些层提取多少历史信息。为了解决大规模训练中不可避免的内存开销激增问题 团队进一步提出了Block AttnRes分块方案 将庞大的网络划分为若干区块 在确保性能大幅跃升的同时 成功将推理延迟增量死死控制在2%以内。

43.png

图源备注:图片由AI生成

突破缩放定律瓶颈 开启深度学习新纪元

严格的实验数据印证了这一底层创新的巨大威力。在保持相同算力消耗的情况下 新方法训练出的模型效果 竟等同于基线模型花费1.25倍算力才能达成的水平。在极具挑战的GPQA-Diamond科学推理任务上 该架构实现了7.5%的惊人飞跃 在数学与代码生成任务上也分别斩获了3.6%和3.1%的显著增益。

44.png

图源备注:图片由AI生成

这一突破性进展迅速引爆了硅谷AI圈。知名科技巨头与众多业内技术泰斗纷纷在社交媒体上表达赞誉。OpenAI o1模型核心研发成员将其称作深度学习2.0的开端 而前OpenAI联合创始人也感慨行业对注意力机制的潜力挖掘仍大有可为。当前 整个AI行业正逐渐遭遇算力扩张的物理瓶颈 当绝大多数企业还在进行应用层的精装修时 月之暗面选择下沉到最深处 用一记重锤精准敲开了下一代深度学习架构的大门。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译