IBM开源Granite 4.1全系基础模型凭极致效能重塑企业AI工作流

IBM正式开源Granite 4.1基础模型矩阵。新系列聚焦极简架构与极致效能，凭低成本与低延迟优势全面重构企业级AI生产链路。

语言模型跨越式进阶小参数撬动大效能

在本次更新中，基于仅解码器架构的语言模型是Granite 4.1的核心，提供3B、8B和30B三种参数规模的基座与指令微调版本。与前代相比，新模型实现了越级打击。数据显示，全新的8B指令模型在性能上不仅稳定持平甚至超越了前代32B的混合专家模型(MoE)，同时凭借更精简的架构为下游任务微调提供了极大的灵活性。

在当下的商业应用场景中，响应速度与Token成本往往比单纯的复杂推理能力更具决定性。IBM研发团队精准捕捉了这一痛点，并未盲目跟风大算力推理模型，而是针对工具调用与指令遵循进行了定向极致优化。在禁用思考链的情况下，Granite 4.1的表现在同级别开源模型中依然具备强大的企业级落地竞争力。

核心突破源于独特的训练哲学数据质量与阶段性精细调优远大于单纯的规模堆砌。模型经过多达15万亿Token的多阶段预训练，语料分布从通用数据逐步向高质量的技术、科学与数学领域收敛。此外，最后几个训练阶段将上下文长度大幅拓展至512K，确保在处理超长商业文档时依然游刃有余。

图源备注：图片由AI生成

多模态能力矩阵重构深度解析视觉与语音演进

企业真实的业务流远不止于纯文本交互，Granite 4.1在视觉与语音两大高频模态上同样带来了大幅升级。

专为文档理解打造的Granite Vision 4.1视觉语言模型，将发力点瞄准了表格、图表以及键值对的信息提取，这正是处理发票、合同等结构化业务数据的基础。该模型引入了先进的特征注入机制，将视觉信息无缝融入大型语言模型的多个层级中，完美兼顾了宏观语义与空间细节。结合全新构建的百万级高质量图表理解数据集，该模型能以极低的算力成本替代前沿巨型模型，实现大规模自动化信息提取。

语音领域同样迎来了突破，Granite Speech 4.1推出了面向边缘计算场景的多语言语音识别与翻译模型。其中2B版本实现了极低的词错率，并创造性地加入了非自回归变体。不同于传统的逐个生成机制，非自回归模型能够一次性并行生成完整序列，从而显著提升GPU利用率并带来翻倍的吞吐效率。此类高鲁棒性模型此前已被部署于医疗救援等强噪音环境，展现出极强的工业级抗干扰能力。