每日AI资讯0815:谷歌Gemini迎来重大更新,Midjourney向标准用户开放高清视频生成

匿名作者
2025-08-15 10:2227

导语:今日AI界热点纷呈,从谷歌为Gemini助手增加“记忆”功能以提供更个性化的服务,到Mistral AI发布性能更强的Medium 3.1多模态模型;从香港大学等机构开源OpenCUA框架让人人都能构建专属电脑管家,到字节跳动开源VeOmni框架提升多模态训练效率。同时,AI的应用场景也在不断拓宽,谷歌上线AI搜特价机票功能,Midjourney降低高清视频创作门槛,更有西班牙初创公司推出可在手表上运行的超微型模型。此外,谷歌也在Photos中引入新功能,帮助用户辨别AI生成内容,致力于提升数字世界的透明度。

AI助手更懂你 谷歌Gemini迎来“记忆”与“隐私聊天”模式

谷歌为其AI助手Gemini带来了两项重大功能更新 “记忆”与“临时聊天”。“记忆”功能允许Gemini持续学习用户的偏好和信息,从而在未来的对话中提供更加个性化和贴切的建议与提醒,让AI助手成为真正的“私人助理”。而“临时聊天”模式则充分考虑了用户隐私,在该模式下的所有对话内容都不会被保存或用于模型训练,确保了用户在处理敏感信息时的安全性。这一更新旨在全面提升AI助手的智能化服务水平与用户的使用安全。

image.png

创作门槛再降低 Midjourney向标准用户开放高清视频生成

知名AI创作平台Midjourney宣布重大更新,将其高清视频生成功能开放给所有标准订阅用户。此次升级不仅让更多创作者能够轻松制作出高质量的视频内容,还同步推出了批量创作和独立的Moodboards灵感管理页面等功能,极大地提升了创作效率和用户体验。同时,平台也优化了视频审核机制以确保内容合规。这一系列举措旨在让AI创作变得更加简单、高效,并激发更广泛的创意灵感。

image.png

说走就走 AI帮你找特价机票 谷歌上线Flight Deals新功能

谷歌在其机票搜索服务Google Flights中集成了一项名为Flight Deals的全新AI工具。用户现在可以使用自然语言,如“下个月去东京的五日游最便宜的机票”,来直接搜索优惠航班。该工具会智能分析并根据节省百分比和价格进行排序,帮助用户快速锁定最具性价比的选择。此举不仅提升了用户预订体验,也被视为谷歌在日益激烈的旅游搜索市场中,利用AI技术巩固其领先地位的重要一步。

image.png

人人都能拥有专属电脑管家 香港大学等机构开源OpenCUA框架

香港大学联合月之暗面、斯坦福大学等顶尖机构,共同开源了OpenCUA框架。该框架提供了一套完整的开发工具、数据和模型,旨在让开发者能够轻松构建和扩展个性化的计算机使用智能体(CUA)。这些智能体可以像真人助手一样操作电脑完成复杂任务,其性能在测试中已超越GPT-4o。OpenCUA的开源为人人都能打造专属的电脑智能助手提供了强大的技术支持,将极大推动计算机智能体应用的普及。

image.png

火眼金睛辨真伪 谷歌Photos新增AI图像识别功能

为了应对日益泛滥的深度伪造和AI生成内容,谷歌Photos即将推出一项名为“How Was This Made”的新功能。该功能通过分析嵌入在图片和视频文件中的内容凭证,可以清晰地向用户展示该媒体是自然拍摄、经过AI编辑还是完全由AI生成。此举旨在提升数字媒体的透明度和真实性,帮助用户在信息爆炸的时代更好地辨别内容的来源与真伪,重建对数字内容的信任。

image.png

AI也能“塞进”手表里 西班牙独角兽发布两款超微型AI模型

欧洲AI独角兽公司Multiverse Computing发布了两款基于其CompactifAI压缩技术的极微型AI模型 “ChickBrain”(鸡脑)和“SuperFly”(苍蝇大脑)。这两款模型体积小到可以在智能手表、家用电器甚至PC等设备上离线流畅运行,目标是在极小的硬件资源下保留高效的实用性功能。该公司透露,已在与苹果、三星等主流设备制造商进行合作洽谈,未来我们身边的日常设备或将变得更加智能。

image.png

性能全面升级 Mistral AI发布Medium 3.1多模态大模型

法国AI巨头Mistral AI重磅发布了其最新的Mistral Medium 3.1模型。新模型在性能上实现了全面升级,尤其在推理、编码及STEM(科学、技术、工程和数学)等专业任务上表现卓越,优于同级别的竞争对手。作为一个多模态模型,它不仅能处理文本,还能理解视觉输入。此外,模型内置的语调适配层使其能更好地满足企业客户的定制化需求,目前已通过Le Chat平台和API接口向开发者开放。

image.png

加速多模态训练 字节跳动开源VeOmni框架

为了解决AI领域中多模态模型训练碎片化、效率低下的问题,字节跳动宣布开源其内部长期使用的VeOmni框架。该框架通过提供统一的API,巧妙地整合了多种并行策略,并优化了显存和计算效率,同时还支持前沿的蒸馏技术。这使得开发者在训练包含语言、视觉、视频等多种模态的AI模型时,能够显著提升训练效率和数据吞吐量,从而加速从研发到部署的整个流程。

image.png

评论 (0)

暂无评论,快来发表第一条评论吧!