大模型正在从单纯的对话窗口跃升为设备接管者。谷歌在最新旗舰机型上推出的任务自动化功能,打破了传统语音助手的应用孤岛,让长链条复杂任务的后台自动执行成为现实。
从对话走向多步骤跨应用执行
AI助手正经历从“只会动嘴”向“替你动手”的实质性跨越。谷歌近日正式在旗下及合作款旗舰设备上推出Gemini的任务自动化功能。这项技术标志着AI助手从信息检索工具蜕变为真正的执行代理,能够直接接管手机屏幕完成复杂业务。
实测体验显示,用户只需下达自然语言指令,AI即可在后台自动打开对应应用、精准识别界面元素、填写表单并确认操作。更为关键的是该过程支持异步运行,屏幕底部实时滚动操作进度,用户可同步处理其他事务,实现真正意义上的无人驾驶体验。

生态局限与全自动代理的博弈
过去十年间,智能手机的语音助手大多停留在定闹钟、查天气的浅层交互。Gemini任务自动化的核心突破,在于赋予了系统复杂的长链条任务规划能力。然而该技术目前仍面临算力与生态的双重考验。
速度瓶颈是现阶段最大的痛点。由于AI需要逐帧识别界面并进行云端推理,原本手动耗时极短的任务可能被拉长数倍。此外,目前该功能仅适配少量流程高度标准化的应用,界面识别的容错率和支付环节的安全限制阻碍了其快速普及。
尽管如此,谷歌在移动端的抢先切入,意在依托庞大的安卓生态占据高频生活场景。随着推演速度的优化,当大模型能够以人类的速度流畅操作任意App时,人机交互模式将被彻底改写。
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译






评论 (0)
暂无评论,快来发表第一条评论吧!