阿里开源科学大模型LOGOS 以统一语法重构生物计算范式

匿名作者
2026-06-20 01:4015

阿里联合开源的LOGOS模型抛弃了传统复杂的3D几何坐标,用纯序列建模完成了对跨领域科学对象的统一编码,仅凭1B参数量便实现了对微软等超大参数模型的技术降维打击。

告别3D坐标迷宫 语言模型的降维突破

在过去几年的人工智能驱动科学(AI for Science)浪潮中,研究人员陷入了一个思维定势 如果要让机器理解蛋白质的折叠或小分子的结合,就必须喂给它极其复杂的3D空间坐标,并依赖庞大且耗时的几何神经网络来处理。这种基于几何空间的显式计算,不仅消耗了惊人的算力,更让不同模态的科学对象之间形成了“生殖隔离”。

阿里ATH-Token Foundry联合中国人民大学高瓴人工智能学院开源的LOGOS(Language Of Generative Objects in Science),给出了一种极具极客精神的解法。它完全抛弃了3D坐标输入,发明了一套共享词表的“文字描述法”。无论是蛋白质序列、抗体还是小分子材料,全部被强行“拍扁”,编码成统一的离散Token序列。这就好比将原本需要用三维全息投影才能看懂的建筑图纸,翻译成了一本盲人也能摸读的盲文书籍。大模型只需在同一个生成空间中“自回归”地阅读这些序列,就能在计算的内隐空间中重构出复杂的3D互作规律。

12.png

图源备注 图片由AI生成

消除学用脱节 1B参数逆袭的核心逻辑

这种架构上的重塑,直接带来了算力分配逻辑的革命。过去,模型在预训练时学习的知识,和它在下游实际应用时面对的任务存在严重的“目标偏差”。换一个研究环节,往往就需要重新微调甚至更换模型架构,导致沉没成本极高。

LOGOS的精妙之处在于实现了形式与目标的绝对对齐。预训练数据的序列形式完全等同于下游任务的输入输出,模型在预训练时预测下一个词(Next-token prediction)的动作,就是它在下游进行条件生成时的动作。这种底层知识共享机制,让科学对象之间实现了语言相通。当模型阅读氨基酸序列时,能够直接关联并生成对应的小分子结构。

技术红利直接体现在了参数效率上。参数规模仅为1B的LOGOS,在面对微软采用混合专家架构且参数量庞大得多(8x7B)的NatureLM时,不仅在六大代表性科学任务上毫不逊色,甚至在多项指标上实现了超越。这证明了在科学大模型的赛道上,寻找正确的数据表征语法,比盲目堆砌算力规模要有效得多。

13.png

图源备注 图片由AI生成

开源生态的涟漪效应预判

LOGOS毫无保留地开源模型权重与推理代码,将对整个AI制药与材料科学领域的下游开发者产生深远影响。过去,中小规模的实验室想要进行大分子互作研究,往往会被几何大模型高昂的推理成本劝退。如今,仅需几分之一的算力成本,就能在普通显卡上运行这一纯序列生成的科学基础模型。它不仅降低了计算生物学的入门门槛,更预示着未来所有的多模态科学难题,都可能被大语言模型这把万能钥匙统一拆解。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译