⚠️ 已经会用 GPT、Claude 聊天,又开始想把几个 AI 工具串起来省事的人,最容易在 browser-use / video-use 这类“让模型直接接浏览器做事”的工具上看走眼。[C001] 一旦把它们当成旧式网页自动化,你会在最该省事的地方继续手动搬运上下文,最后多一轮返工。
AI 工具真正开始抢的,不只是代码活,而是你来回切换的那些碎时间。你一会儿在浏览器搜资料,一会儿回聊天框补背景,一会儿再回编辑器改几行代码,折腾半天还是自己最忙。
我后来改口,是因为我发现这类工具真正值钱的,不是替你多点几下网页,而是把网页自动化改写成自然语言接口。[C002] 说白了,就是你先用人话下任务,再把浏览器和代码工具接进同一条流程。很多人以为自己缺的是更强模型,其实缺的是少切几个窗口。
这个判断如果不改,你后面看工具就会一直看偏。你会盯着它能不能把网页点完,却忽略它能不能把“搜资料、补背景、改几行代码”这三段接起来。更隐性的代价,是你会一直围着表面热闹转,却看不到 browser-use / video-use 真正改变的那一步。[C001]
我这次没有拿独立环境实跑,只先看了官方入口和文档,所以这里只下到“它服务谁”的判断。仓库首页把命令行入口(CLI)3.0 直接摆在“给编码代理一个可靠浏览器”的位置,快速开始页(Quickstart)上来就是 Python 代理示例、浏览器配置和域名限制配置。[C003]
再看工具文档,官方还单独写了工具扩展、自定义动作,以及按名称注入浏览器会话。[C004] 这就不是“功能先做死给你点网页”的思路了,而是留接口让你把查资料、下指令、执行动作继续串起来。所以我更愿意把它看成“网页自动化的自然语言入口”,不是“更会点网页的机器人”。[C002]
边界也得讲清楚:从这两处证据,只能支持“入口变了”,还不能支持“你打一段提示词就能稳定全自动收工”。最容易翻车的,就是把“自然语言接口”听成“提示词替代工程能力”。所以下次再看 browser-use / video-use,[C001] 先别急着问模型强不强,先问它有没有少掉你在浏览器、聊天框、编辑器之间那几次重复搬运。要是你身边也有人卡在这一步,把这篇转给他;你自己最想先省掉的,是补背景,还是回编辑器接着做?