谷歌Gemini 3深度思考版进化 甚至通过了人类最后考试

匿名作者
2026-02-13 11:0813

大模型正在从聊天助手蜕变为具备严密逻辑的科学家。谷歌最新升级的 Gemini 3 Deep Think 模型,通过与顶尖科学家的深度共创,在奥数、物理竞赛及工程建模等“地狱级”难度领域展现了逼近人类极限的推理能力。

专攻无标准答案的复杂推理

新版 Deep Think 的核心使命是解决真实世界中那些“脏”问题。与传统大模型依赖海量数据背诵不同,这款模型是谷歌开发团队与全球顶尖科学家合作的结晶。

它专门针对那些边界模糊、缺乏唯一标准答案、且数据往往杂乱不全的复杂科研环境进行了深度优化。这意味着 AI 不再仅仅是检索知识,而是开始具备了类似人类科学家的“假设-验证-推理”链条。自2月12日起,Google AI Ultra 用户已可率先体验这一能力,谷歌更首次向企业级用户开放了API早期访问权限,意在加速科研落地的进程。

Generated Image February 13, 2026 - 11_03AM (3).png

图源备注:图片由AI生成

统治奥赛与硬核基准测试

在多项公认的高难度基准测试中,Gemini 3 Deep Think 展现了令人咋舌的统治力:

  • 学术竞赛:在2025年国际数学奥林匹克(IMO)中达到金牌选手水平,并在物理与化学奥赛笔试中同样斩获金牌级评价。
  • 极限挑战:在被称为“人类最后考试”(Humanity's Last Exam)的超高难度测试中,取得了 48.4% 的成绩,这一分数在AI领域具有里程碑意义。
  • 算法编程:在 Codeforces 竞赛编程平台上,其 Elo 分值达到 3455,触及了算法与工程建模的行业天花板。

从跑分机器到实验室合伙人

谷歌明确强调,刷新榜单数据并非终极目标,Deep Think 的归宿是实验室与工程现场。目前,该模型已开始协助工程师通过代码对复杂的物理系统进行高精度建模,并帮助科研人员从庞大且零散的实验数据中挖掘潜在规律。随着 Gemini 3 Deep Think 的全面介入,AI 正正式从单纯的效率工具转型为科研创新的核心“合伙人”。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译