我觉得 browser-use 和 video-use 像给网页和视频装了个会听人话的柜台:以前你得拿脚本一把锁一把锁地撬门,现在你直接开口吩咐。它把网页自动化改写成自然语言接口。
多数人看见的是“AI 会点鼠标了”;我看见的是更狠的一层:不是机器终于学会了像人那样上网,而是网页先被改造成机器能听懂、也能执行的人话。browser-use 甚至懒得遮掩,干脆把自己写成“AI 使用网络的方式”;video-use 更绝,它索性承认,大模型并不真的“看”视频,它先把视频压成文字时间线、说话边界和几个关键画面,再让自然语言去指挥剪刀。
这像什么?像一个旧式衙门忽然撤掉了迷宫般的窗口和红头文件,门口站了个耳朵极好的账房先生。你不用再背流程编号,不用再猜“提交”按钮躲在哪个角落,只要说:“把上个月的回单按供应商归档。”他听完就去跑腿。大家以为先进的是腿,其实先进的是耳朵。
这不是浏览器长了手,这是网页长了耳朵。
反常识就在这里。过去我们说“自动化”,默认是把人的动作录下来:点这里,等三秒,再点那里,页面一改版,整套玩具当场散架。现在变成另一套逻辑:不是记住动作,而是理解意图。动作是皮,意图是骨。皮一换就露馅,骨架还在,事就还能办。
上午八点四十七分,义乌一个做跨境小店的运营,左手豆浆,右手盯着五个后台:补库存、回私信、改运费、撤掉超卖款。以前这类活只能交给会写自动化的人,像找电工换灯泡,灯没坏,先得预约。现在他说一句:“把昨天超卖的七码鞋下架,给已付款未发货的人发一张道歉券。”真正被改变的,不是鼠标点击次数,而是谁有资格发起自动化。
中午一点二十,苏州一间工厂的财务实习生,要去三个银行后台下载六月回单,再按供应商名字改文件名。旧办法是人肉点到眼冒金星;再高级一点,是上那套著名的流程自动化软件,把坐标、按钮、等待时间一条条钉死。新办法是把工作说成一句完整的人话。听上去像降维打击,其实是权力转移:软件不再要求你学它的语法,它开始巴结你的句法。
晚上十一点四十三,两个做知识短视频的人,把十七段口播扔进文件夹,对 video-use 说:“剪成九十秒发布版,去掉口头禅,保留那个笑出来的停顿,字幕别做得像通缉令。”这里最要命的不是 AI 会剪片,而是视频第一次被翻译成可讨论的对象:哪一句多余,哪一秒该切,哪一段情绪要留,都先变成语言可操作的部件。以前剪辑像在黑屋里摸刀,现在像在菜板上看纹理下刀。
自然语言接口,不是取消编程,而是把编程藏进人话。
所以别被“更简单了”这句话哄住。门槛没有消失,只是搬家了。以前门槛在代码、选择器、命令行;以后门槛在表达、拆解、判断优先级。话说得越糊,代理就越像实习生第一天上班;话说得越准,它越像一个能干但没脾气的老手。
过去自动化怕页面改版;现在自动化更怕你话说不明白。
这件事真正刺人的地方,还不只在效率。它在改写软件的政治学。图形界面那一代,人的任务是学习软件的脾气:菜单藏在哪,按钮叫什么,哪一步必须先点。自然语言这一代,软件开始学习人的说法:去订、去搜、去剪、去归档、去发布。表面看是技术进步,骨子里是入口易主。谁握住“解释任务”这一步,谁就拿走了过去属于菜单、表单和培训手册的权力。
谁能把流程讲成一句准话,谁就先拿走下一代软件的权力。
这也是为什么我觉得 browser-use / video-use 不是“小工具”,而是一记改朝换代的前奏。它们把网页自动化、视频剪辑这些原本散落在后台脚本、插件菜单、隐秘快捷键里的劳动,统统拽到台前,塞进一句话里。句子从此不只是表达,它开始直接指挥世界。
当网站能被一句话调度,首页就不再是大门,只剩仓库门牌。
我最后的判断很简单:这不是 AI 学会了上网、学会了剪片;这是网页、视频、软件本身在被重新翻译,翻译成自然语言可以接管的形状。过去我们点击软件,今后我们吩咐软件。看上去只是少按了几下鼠标,实际上是把“会不会用工具”改写成了“会不会说清任务”。文明有时候不是发明了新器官,而是给旧器官换了语法。
别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com