导语:今日AI界动态纷呈,谷歌计划在年底推出Gemini 3.0,旨在挑战行业领先地位,并已为其视频生成功能引入多图引导的创新玩法。与此同时,小米开源了其7B多模态模型,并推出了能自动调节家居的AI管家Miloco,而国产AI模型DeepEyesV2则通过智能调用外部工具,实现了超越更大模型的卓越性能。
小米发布AI智能管家,开源多模态模型让你的家更懂你
小米最新发布了一款7B参数的多模态模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”,并同步推出了名为“Xiaomi Miloco”的智能管家系统。该系统能够通过米家摄像头实时捕捉和识别用户的活动与手势,进而自动控制所有兼容Home Assistant协议的智能家居设备,实现真正的无感交互。目前,该模型已根据非商用许可开源,并支持通过GPU与Docker进行一键部署,极大地便利了开发者和技术爱好者的使用。

图源备注:图片由AI生成
谷歌Gemini 3.0年底亮相,剑指AI王座
谷歌首席执行官确认,备受瞩目的Gemini 3.0大模型计划于2025年底前正式发布。新版本将在代码生成、多模态创作以及复杂的推理能力上实现重大飞跃。更值得一提的是,Gemini 3.0将集成升级版的图像生成引擎Nano。据透露,该模型在小范围测试中已经展现出令人印象深刻的技术亮点,显示了谷歌在AI领域全力反击,争夺技术制高点的决心。

图源备注:图片由AI生成
国产多模态AI新突破 DeepEyesV2巧用工具超越大模型
中国在多模态AI领域推出了新一代模型DeepEyesV2。与传统模型单纯依赖海量训练数据不同,DeepEyesV2的创新之处在于它能智能地调用外部工具来完成任务。无论是在图像分析、代码执行还是网络搜索方面,它都展现出了超越许多更大型模型的性能。这一设计思路为解决复杂的多模态任务提供了全新的解决方案,尽管早期实验表明,单纯依靠强化学习来稳定实现此目标仍有挑战。

图源备注:图片由AI生成
AI视频生成再升级 谷歌Gemini支持多图引导创作
谷歌Gemini应用迎来一项重要更新,进一步降低了AI视频创作的门槛。现在,用户可以在输入文本提示的同时,上传多张参考图像,用以引导AI生成具有特定外观和风格的视频与音频内容,从而实现更高度的个性化定制。这项功能已在Flow平台上进行测试,该平台还支持视频时长的扩展和多场景的智能拼接,旨在全面提升AI生成视频的最终质量。

图源备注:图片由AI生成
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译






评论 (0)
暂无评论,快来发表第一条评论吧!