每日AI资讯0711：Grok-4震撼发布，AI音视频与端侧模型迎变革

导语：今日AI界风起云涌，xAI携“最强”Grok-4高调入场，挑战行业现有格局；阿里巴巴则在多模态领域再下一城，开源ThinkSound模型，让AI为视频自动配音成为现实。与此同时，vivo与微软分别在端侧和轻量化模型上取得新突破，预示着AI将更深入地融入个人设备。而英伟达针对中国市场的新芯片计划，则为这场全球技术竞赛增添了更多看点。

马斯克“最贵最强”Grok-4登场 AI智能迈入新纪元

马斯克旗下xAI公司正式发布其最新旗舰AI模型Grok-4，号称在各项基准测试中，尤其是在数学、逻辑推理及代码生成能力上，全面超越了现有顶尖模型，展现出惊人的“博士级”水平。此次更新不仅推出了通用版Grok-4，还有一个为开发者量身打造的Grok-4 Code版本。Grok-4继承了X平台的实时信息整合优势，但其高昂的订阅费用也引发了市场的广泛讨论。目前，这款备受瞩目的AI已通过API向部分开发者开放，并在X平台的Premium+订阅中提供体验。

vivo亮剑端侧AI 新模型让手机更懂屏幕

vivo AI实验室发布了其最新的端侧多模态模型BlueLM-2.5-3B。该模型以其仅2.9B的参数量，在保持轻量化的同时，极大地提升了AI对图形用户界面（GUI）的理解能力。通过独特的长短思考模式切换与思考预算控制机制，BlueLM-2.5-3B在多项评测中展现了超越同类产品的性能，尤其在中文GUI理解方面优势明显，为未来AI在手机等智能设备上的普及应用铺平了道路。

阿里开源ThinkSound 一键为视频配上“灵魂之声”

阿里巴巴通义实验室为影视和游戏创作领域带来一项革命性工具——开源音频生成模型ThinkSound。该模型能够根据视频画面、文字描述甚至其他音频，智能生成与之匹配的高保真、同步音效。ThinkSound的发布极大地降低了专业音效的创作门槛，让AI为视频内容注入“声音的灵魂”，进一步推动了多模态AI技术的发展与应用。

微软“迷你战神”Phi-4-mini登场笔记本也能跑顶尖AI

微软开源了一款名为Phi-4-mini-flash-reasoning的轻量化新模型。该模型基于自研的SambaY架构，实现了惊人的效率提升，推理速度提高了10倍，延迟降低2-3倍。它尤其擅长高级数学推理和长文本生成，并且能够在单个GPU上高效运行，非常适合在笔记本电脑等边缘设备上部署。在长上下文检索任务中，其准确率高达78.13%，展示了“小模型”的巨大潜力。