每日AI资讯1117：谷歌Gemini年底迎战，小米开源AI管家

导语：今日AI界动态纷呈，谷歌计划在年底推出Gemini 3.0，旨在挑战行业领先地位，并已为其视频生成功能引入多图引导的创新玩法。与此同时，小米开源了其7B多模态模型，并推出了能自动调节家居的AI管家Miloco，而国产AI模型DeepEyesV2则通过智能调用外部工具，实现了超越更大模型的卓越性能。

小米发布AI智能管家，开源多模态模型让你的家更懂你

小米最新发布了一款7B参数的多模态模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”，并同步推出了名为“Xiaomi Miloco”的智能管家系统。该系统能够通过米家摄像头实时捕捉和识别用户的活动与手势，进而自动控制所有兼容Home Assistant协议的智能家居设备，实现真正的无感交互。目前，该模型已根据非商用许可开源，并支持通过GPU与Docker进行一键部署，极大地便利了开发者和技术爱好者的使用。

图源备注：图片由AI生成

谷歌Gemini 3.0年底亮相，剑指AI王座

谷歌首席执行官确认，备受瞩目的Gemini 3.0大模型计划于2025年底前正式发布。新版本将在代码生成、多模态创作以及复杂的推理能力上实现重大飞跃。更值得一提的是，Gemini 3.0将集成升级版的图像生成引擎Nano。据透露，该模型在小范围测试中已经展现出令人印象深刻的技术亮点，显示了谷歌在AI领域全力反击，争夺技术制高点的决心。

图源备注：图片由AI生成

国产多模态AI新突破 DeepEyesV2巧用工具超越大模型

中国在多模态AI领域推出了新一代模型DeepEyesV2。与传统模型单纯依赖海量训练数据不同，DeepEyesV2的创新之处在于它能智能地调用外部工具来完成任务。无论是在图像分析、代码执行还是网络搜索方面，它都展现出了超越许多更大型模型的性能。这一设计思路为解决复杂的多模态任务提供了全新的解决方案，尽管早期实验表明，单纯依靠强化学习来稳定实现此目标仍有挑战。

图源备注：图片由AI生成

AI视频生成再升级谷歌Gemini支持多图引导创作

谷歌Gemini应用迎来一项重要更新，进一步降低了AI视频创作的门槛。现在，用户可以在输入文本提示的同时，上传多张参考图像，用以引导AI生成具有特定外观和风格的视频与音频内容，从而实现更高度的个性化定制。这项功能已在Flow平台上进行测试，该平台还支持视频时长的扩展和多场景的智能拼接，旨在全面提升AI生成视频的最终质量。