科技·商业·财经

谷歌Gemini3.5Flash集成原生工具:AI从“对话者”迈向“数字同事”新阶段

   时间:2026-06-25 15:43 作者:格隆汇

谷歌近日完成了一项对人工智能生态的关键性升级,将原生“计算机操作”功能直接嵌入Gemini3.5Flash模型中,彻底替代了此前使用的Gemini2.5测试框架。这一举措标志着人工智能不再局限于对话交互,而是向具备实际任务执行能力的“数字助手”方向迈进,为AI代理技术的落地应用开辟了新路径。

通过Gemini API接口,开发者能够利用该模型的原生能力构建智能代理系统。这些系统无需编写复杂的底层代码,即可像人类用户一样通过解析屏幕截图等视觉信息理解界面内容,并自动完成导航、点击、数据输入等操作。目前,该技术已在办公自动化、软件测试、跨平台数据处理等领域展现出显著优势,例如自动化完成网页浏览、表单填写、按钮点击等重复性工作,甚至能高效处理桌面端、移动端和浏览器环境中的数据收集任务。

为推动开发者快速接入这一技术,谷歌在Browserbase平台开设了实时演示专区,提供企业级代理平台的功能测试环境。针对AI控制鼠标键盘可能引发的安全风险,如间接指令注入攻击,谷歌通过专项对抗训练增强了模型的防御机制。同时推出两项企业级安全方案:其一要求AI在执行敏感操作前必须获得人工授权,其二可在检测到异常攻击时自动暂停任务进程,从多维度保障用户系统安全。

配合此次模型升级,谷歌同步发布了Chrome149稳定版浏览器。新版本新增“屏幕内容选择”功能,用户可通过拖拽框选网页中的任意图像或文本,直接将其转化为Gemini的交互提示词。这一改进显著简化了基于网页内容的提问流程,使人机交互更加直观高效。

此次技术整合不仅深化了AI模型与操作系统的融合程度,更反映出行业发展趋势的转变——从单纯追求模型参数规模转向注重实际工具运用与任务执行能力。这种转变将加速AI代理在企业自动化流程和消费级服务中的渗透,推动人机协作模式与软件应用形态发生根本性变革,为构建真正自主的AI系统奠定基础。

 
 
更多>同类内容
全站最新
热门内容