每日AI资讯1121:GPT-5.1-Codex-Max震撼发布,谷歌Gemini 3与Nano Banana Pro强势回击

匿名作者
2025-11-21 10:3370

导语:本期资讯我们要点聚焦:OpenAI发布针对软件工程优化的GPT-5.1新模型并与富士康达成硬件制造合作;谷歌阵营同样动作频频,不仅推出了基于Gemini 3技术的Nano Banana Pro图像模型,还在地图、反诈及内容识别领域全面植入AI能力。此外,Sora陷入商标侵权官司,复旦MOSS团队开源端到端语音模型也引发了业界的广泛关注。

谷歌Gemini 3首秀 Nano Banana Pro重新定义4K图像生成

谷歌正式发布了基于最新Gemini 3技术的图像生成模型——Nano Banana Pro。这款新工具在技术规格上实现了质的飞跃,不仅原生支持4K超高分辨率输出,还在保持人物与物体身份一致性方面取得了显著进步。

功能方面,Nano Banana Pro新增了实时联网搜索能力,允许模型在生成过程中获取最新信息辅助创作。同时,为了应对版权和伦理挑战,模型内置了双重水印技术及C2PA验证标准。不过,性能的提升也带来了成本的增加,其定价相较于前代产品大幅上涨了3至6倍。

image.png

编程能力天花板 GPT-5.1-Codex-Max强势登场

OpenAI再次刷新了AI编程辅助的高度,推出了专为复杂软件工程设计的GPT-5.1-Codex-Max模型。该模型最大的亮点在于引入了全新的“上下文压缩机制”,有效解决了长会话中信息丢失的痛点,同时大幅降低了令牌消耗。

在权威的SWE-bench测试中,GPT-5.1-Codex-Max的准确率飙升至77.9%,展现了其在处理超大代码上下文生成任务时的卓越能力。这标志着AI在辅助大型项目开发和复杂逻辑编写方面迈出了关键一步。

Sora商标撞车 数字图书馆OverDrive正式起诉OpenAI

备受瞩目的视频生成工具Sora近期惹上了法律麻烦。知名数字图书馆OverDrive向法院提起诉讼,指控OpenAI的“Sora”在名称使用、图标设计以及配色方案上,与其2018年推出的同名学生阅读App存在极高的相似度。

OverDrive方面认为,OpenAI的行为已经涉嫌商标侵权及不正当竞争,目前已正式递交了索赔要求并申请了相关禁令。这一案件也再次引发了科技圈对于品牌命名与知识产权保护的讨论。

image.png

图源备注:图片由AI生成

谷歌Pixel 9化身反诈卫士 实时监测通话与屏幕共享风险

为了应对日益猖獗的金融诈骗,谷歌在印度市场率先推出了两项基于AI的防御功能。依托于Gemini Nano的端侧处理能力,Pixel 9及以上机型现已支持通话实时诈骗语音检测,能够在通话过程中识别潜在的诈骗话术。

此外,针对Android 11及以上版本的设备,谷歌还推出了屏幕共享联合警报功能。该技术旨在通过技术手段拦截如OTP(一次性密码)泄露等风险行为,为用户的财产安全构建起一道AI防火墙。

填空也能做设计 前谷歌团队打造Mixup创意修图应用

由前谷歌团队创立的Things公司发布了一款充满趣味的iOS端AI照片编辑器——Mixup。该应用目前采用限量邀请码制度,一经推出便引发关注。

Mixup的核心玩法在于其独特的“Recipe”(配方)功能,采用填空式的提示词引导。用户只需上传简单的照片或涂鸦,即可通过预设配方快速生成如“文艺复兴自画像”等风格独特的二次创作。同时,用户还可以将自己的创意配方分享至社区,形成互动循环。

image.png

图源备注:图片由AI生成

算力基建再升级 OpenAI携手富士康打造美国AI制造中心

OpenAI正在进一步强化其供应链的自主可控能力,正式与制造巨头富士康达成战略合作。双方将共同在美国多地建立研发与制造中心,专注于生产高性能AI服务器机架以及配套的供电冷却系统。

根据协议,富士康将负责具体的生产制造环节,而OpenAI则提供关键的需求洞察并保留优先选购权。值得注意的是,此次合作中OpenAI并未做出强制采购承诺,显示出其在硬件布局上的灵活策略。

搜索体验大革新 Perplexity Comet浏览器登陆安卓平台

Perplexity公司宣布其备受好评的AI浏览器Comet正式推出Android版本。安卓版Comet完美继承了桌面端的核心优势,支持用户将其设置为系统默认搜索引擎,并能利用标签功能快速调用AI助手。

此次更新最大的亮点在于新增的语音模式。用户现在可以针对当前浏览的网页内容,直接通过语音发起交互式提问,无论是查询页面细节还是总结长文,都能获得即时响应,极大地提升了移动端的搜索效率。

image.png

图源备注:图片由AI生成

告别文本中介 复旦MOSS团队开源端到端语音大模型

复旦大学MOSS团队在开源领域再下一城,正式开源了其端到端语音对话模型MOSS-Speech。该模型采用创新的“层拆分”架构,通过冻结文本模型参数并新增语音专用层的方式,成功打破了传统语音交互需要“语音转文本再转语音”的桎梏。

测试显示,MOSS-Speech在语音问答、情绪精准模仿以及自然笑声生成等方面表现优异,在特定任务评测中实现了极低的词错率和极高的情感识别准确率,为未来的人机交互提供了新的范式。

一眼识破AI造假 Gemini新增图片来源快速验证功能

面对网络上泛滥的AI生成内容,Google为Gemini用户增添了一双“火眼金睛”。新推出的图片识别功能允许用户直接向Gemini提问,以快速判断眼前的图片是否由Google自家的AI工具生成或编辑。

这项功能旨在提高数字内容的透明度。谷歌还透露,未来计划将这一验证能力扩展至视频和音频领域,并将其整合到更多的谷歌服务生态中,帮助用户在真假难辨的信息流中保持清醒。

谷歌地图注入Gemini灵魂 沉浸式导航与地标指引上线

谷歌地图迎来了Gemini模型的深度整合,旨在打造更直观的出行体验。新版本不仅能自动汇总目的地的评论和预订信息,为用户提供详尽的“行前须知”,还引入了更加智能的导航方式。

在AI的加持下,导航系统现在能够利用清晰可见的物理地标作为指引参照物,而非枯燥的街道名称。同时,针对电动车主,新功能还提供了更精准的充电桩预测服务,让行程规划变得更加轻松无忧。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译