每日AI资讯1117:谷歌Gemini年底迎战,小米开源AI管家

匿名作者
2025-11-17 10:1060

导语:今日AI界动态纷呈,谷歌计划在年底推出Gemini 3.0,旨在挑战行业领先地位,并已为其视频生成功能引入多图引导的创新玩法。与此同时,小米开源了其7B多模态模型,并推出了能自动调节家居的AI管家Miloco,而国产AI模型DeepEyesV2则通过智能调用外部工具,实现了超越更大模型的卓越性能。

小米发布AI智能管家,开源多模态模型让你的家更懂你

小米最新发布了一款7B参数的多模态模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”,并同步推出了名为“Xiaomi Miloco”的智能管家系统。该系统能够通过米家摄像头实时捕捉和识别用户的活动与手势,进而自动控制所有兼容Home Assistant协议的智能家居设备,实现真正的无感交互。目前,该模型已根据非商用许可开源,并支持通过GPU与Docker进行一键部署,极大地便利了开发者和技术爱好者的使用。

image.png

图源备注:图片由AI生成

谷歌Gemini 3.0年底亮相,剑指AI王座

谷歌首席执行官确认,备受瞩目的Gemini 3.0大模型计划于2025年底前正式发布。新版本将在代码生成、多模态创作以及复杂的推理能力上实现重大飞跃。更值得一提的是,Gemini 3.0将集成升级版的图像生成引擎Nano。据透露,该模型在小范围测试中已经展现出令人印象深刻的技术亮点,显示了谷歌在AI领域全力反击,争夺技术制高点的决心。

image.png

图源备注:图片由AI生成

国产多模态AI新突破 DeepEyesV2巧用工具超越大模型

中国在多模态AI领域推出了新一代模型DeepEyesV2。与传统模型单纯依赖海量训练数据不同,DeepEyesV2的创新之处在于它能智能地调用外部工具来完成任务。无论是在图像分析、代码执行还是网络搜索方面,它都展现出了超越许多更大型模型的性能。这一设计思路为解决复杂的多模态任务提供了全新的解决方案,尽管早期实验表明,单纯依靠强化学习来稳定实现此目标仍有挑战。

image.png

图源备注:图片由AI生成

AI视频生成再升级 谷歌Gemini支持多图引导创作

谷歌Gemini应用迎来一项重要更新,进一步降低了AI视频创作的门槛。现在,用户可以在输入文本提示的同时,上传多张参考图像,用以引导AI生成具有特定外观和风格的视频与音频内容,从而实现更高度的个性化定制。这项功能已在Flow平台上进行测试,该平台还支持视频时长的扩展和多场景的智能拼接,旨在全面提升AI生成视频的最终质量。

image.png

图源备注:图片由AI生成

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译