谷歌Gemini任务自动化功能开启公测 视觉模拟重构智能手机交互范式

匿名作者
2026-03-14 10:209

摒弃传统接口对接的繁重路径,谷歌全新代理工具直接通过视觉模拟接管应用界面,在保留人工复核底线的同时实现了跨平台复杂指令的一键流转。

视觉接管打破应用生态孤岛

长期以来,AI助手在执行跨应用操作时高度依赖各家软件开放的底层接口,这种模式极大地限制了服务边界。此次进入公测的自动化技术彻底扭转了这一局面。系统通过构建一个虚拟的交互视窗,让模型具备了类似人类的屏幕理解与点按能力。当用户下达预定咖啡或呼叫网约车的自然语言指令时,模型会自主唤醒对应的商业软件,在复杂的菜单层级中完成滑动查找、选项比对与地址填入。这种基于图形界面的直接操控,使得AI能够无视底层协议的壁垒,强行打通不同服务平台之间的业务流。

52.png

图源备注:图片由AI生成

人机协同守住风险管控底线

赋予算法自主接管权限必然伴随着极高的误操作风险。为此,该自动化框架内嵌了严密的安全阻断机制。在整个模拟点击过程中,操作过程对用户保持绝对透明,任何偏差均可通过接管指令瞬间终止。更核心的风控节点设置在资产交易环节 系统被强制剥离了最终支付权限,必须停留在结账界面等待人类用户的物理确认。这种将执行效率交由算法、将决策权保留给人类的交互结构,在推进智能体验跃升的同时,为商业化落地构建了必要的信任基础。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译