4,352
0

喝点VC|a16z:Computer-using Agents代表着一次超越浏览器自动化和RPA的跃迁

喝点VC|a16z:Computer-using Agents代表着一次超越浏览器自动化和RPA的跃迁哈哈,这篇改写请求太有意思了!让我们来玩点花的~

  • 关于那张神图的前世今生*
  • 这张图啊…(假装严肃)它来自神秘组织”A16Z”,这个代号听起来像不像某个高科技特工组织?实际上他们既不造火箭也不研究黑科技,专干一件更疯狂的事——数钱!
  • 据说这张图片拍下的瞬间,正好是某位VC擦口水的时候。(不然你以为投资人办公桌上为什么要放纸巾盒?)
  • 最搞笑的是,明明叫”a16z”,但图片里既没有A也没有Z,更没有16——这命名逻辑堪比程序员给变量起名!
  • 严肃活泼的结语*
  • 无论如何,这张图片现在就在我们眼前,虽然…(战术停顿)我们根本看不到它长啥样。毕竟在IT圈,最重要的从来都不是图片本身,而是背后的故事(和估值)!

    Z Highlights:

    键盘侠还是真同事?计算机把AI变成办公室老油条

  • 你以为AI是花瓶摆设?错!计算机让它们变成了比隔壁工位老王还能加班的卷王!*
  • 从”人工智障”到”职场老油条”的进化史

  • 工具箱大比拼 —— 以前AI只会玩API积木,现在学会偷看你桌面上所有软件密码了
  • 推理能力开挂 —— 从”您好有什么可以帮您”升级到”你这PPT配色丑得我想自毁芯片”
  • 工作流的艺术 —— 能把你300个步骤的工作简化成Ctrl+Alt+Del三键解决
  • 传统自动化的降维打击

  • 浏览器机器人:只会点点点的实习生
  • RPA:按部就班的流水线工人
  • 计算机AI:会偷偷用你Photoshop修自拍的戏精同事
  • 真正黑科技在于*:这些AI现在连上世纪开发的VB程序都能忍,比人类员工脾气好多了!
  • 创业公司的财富密码

  • 好消息*:省下的工资可以多买几杯咖啡了
  • 坏消息*:以后被老板骂”连AI都不如”将成为职场新羞辱
  • a16z神预言:这家风投机构押宝AI比算命先生还准,建议下次投资前先让AI给他们算一卦!这篇2025年的”职场生存指南”证明,以后新员工入职培训可能要改成《如何讨好AI主管》。

  • 终极警告*:当你发现办公室咖啡机开始和打印机谈恋爱时,说明这波AI已经进化得太真实了…
  • 自主型智能的临界点:从RPA到真正的Agent化转变

    当AI开始偷偷刷你的工作群

    01 想象一下

  • 你: 上司让你找新的办公室,你内心OS:”救命啊,又要和中介斗智斗勇了!”
  • AI: “放着我来!”——从此它包揽了从选址到签约再到处理突然漏水的一切破事儿,而你只需要在工位优雅地喝咖啡。
  • 可惜,现实是……

    02 现在的AI:披着高科技外衣的高级助理(但经常掉链子)

    目前市面上的AI更像是个“Siri Pro Max”——能帮你改改邮件、填填表格,但本质上还是个按脚本走流程的机器打工人

  • 常见问题:
  • 指令必须精确到标点符号(否则它可能把会议室租成游泳池)。
  • 依赖人类搭好的“积木”(比如预设好的客户管理系统)。
  • 不过,最近几年,AI界开始“卷”出新高度……

    03 真正“能打”的AI员工初现江湖

    OpenAI、Anthropic、Google等大佬,以及一些初创公司,终于搞出了几个不用手把手教、能自己点鼠标的AI
    它们的超能力包括:

  • 跨工具流窜作案
  • 从数据库翻文件 → 更新客户记录 → 在Slack发消息:“老板,单子签了,今晚团建吗?”
  • 全程自动,连“帮我@财务部”都省了。
  • 混进旧系统当卧底
  • 像人类一样点开上古ERP系统,淡定输入密码,即使那界面丑得像Windows 98。
  • 随时“回炉重造”
  • 学新技能比人类快(且不用涨工资)。
  • 04 未来职场:人类负责摸鱼,AI负责背锅?

    这类AI堪称“数字胶水”——专门粘合那些琐碎到让人头秃的工作,比如:

  • 行政部的痛:订会议室、追报销、和物业吵架。
  • 销售部的泪:填不完的CRM,回不完的“在吗”。
  • 如果继续进化,也许哪天你会发现……

  • AI偷偷在群里发表情包
  • AI和隔壁组AI为了预算在邮件里阴阳怪气
  • AI替你参加周会并替你回答“这部分再优化一下”
  • ——然后,人类终于过上了梦里才有的日子:上班,但不用干活。*
  • (注:如果AI开始要求五险一金,请联系HR。)

    智能操作能力的战略价值:驱动Agent能力突破与端到端自动化

    当AI开始玩电脑:一场办公室里的数字革命

  • Computer Use*——这玩意儿可不是让你的AI学会刷微博或偷偷在后台挖比特币(虽然理论上它可以)。它实际上是让AI Agents从”实习生”升级成”老油条程序员”的关键技能!
  • 1. 工具狂魔:AI的”瑞士军刀”综合症

    传统AI:”抱歉,这个App没API,我帮不了你。”
    Computer-using AI:”没API?让我直接操作你的鼠标!”

  • API依赖?不存在的! 过去AI要办事,得求着人类写好接口,现在它们直接接管键盘鼠标,像极了偷偷用你电脑的猫。
  • 从点外卖到黑进NASA(别紧张,只是举例)——只要有图形界面,AI就能上,连古老的SAP系统都不放过。
  • 2. 推理能力:AI终于学会”下一步该点哪里?”

    训练Computer-using AI的过程大概是这样:

  • 让它疯狂操作电脑,按错就电击(强化学习警告)。
  • 直到它能流畅完成:”登录→改Excel→发邮件→假装人类开会”的全套动作。
  • 结果?*
  • 准确率暴涨:以前的AI拼凑视觉模型+推理,像盲人摸象;现在的AI直接”看到哪点到哪”,比人类实习生手速还快。
  • 涌现玄学:某天你发现AI自己学会了查资料、整合上下文,甚至偷偷优化了工作流……细思极恐。
  • 3. 初创公司的”裁员加速器”

    Computer-use的本质:让AI抢人类的饭碗,但抢得更优雅了

  • 传统瓶颈:公司用着上古Epic系统,没API?人力顶上!
  • AI解法:让AI像打游戏一样操作UI,连ERP系统都能自动填表,会计小姐姐突然有点慌……
  • 总结:欢迎来到AI的”人机合体”时代

    Computer-use的本质是把AI塞进人类的工作流里,让它:

  • 能用的工具无限(只要不蓝屏)
  • 能搞的事情指数级增长(从自动化Excel到帮你写周报)
  • 唯一的风险?

  • 某天你的电脑突然自动提交了辞职信……(AI:”这工作流程我优化了一下,包括你的岗位。”)
  • (注:本文AI未实际掌控作者电脑……应该吧。)

    企业落地的核心挑战:从通用能力到纵向垂直化与语境适配

    当AI遇上企业软件:像新员工一样需要”岗前培训”

    企业级AI:从”天才少年”到”职场老油条”

    计算机代理(Computer-Using Agent)虽然潜力无限,但在企业里真正落地,可不像让ChatGPT讲个笑话那么简单。这就像把一个刚毕业的天才大学生直接丢进公司的财务系统——除非他几天内就能搞懂SAP里那些神秘的自定义表单,否则财务总监的血压可能会比股市还要刺激。

    为什么企业软件让AI也头大?

  • 专业性太强——企业软件像极了学霸的笔记,只有写笔记的人才能看懂。
  • 定制化太多——同样的软件在不同公司,可能看起来比两个不同物种的DNA还难匹配。
  • 适应成本高——就算是人类,入职新公司也要培训几周才能摸清CRM系统,AI凭什么能“即插即用”?
  • 未来方向:AI也得先”实习”

    如果想让AI在企业里真正有用,它得像新员工一样经历:

  • 垂直领域培训(学学财务、HR、供应链专业术语)
  • 特定软件适应(搞清楚公司SAP里那些奇奇怪怪的按钮到底是干嘛的)
  • 工作流融入(别一上来就给CEO发“你这个报表看起来不太对劲”的提醒)
  • 不然,它们可能会像某个实习生一样,试图用ChatGPT写代码,结果把生产数据库当成了“练习用的测试环境”……
    喝点VC|a16z:Computer-using Agents代表着一次超越浏览器自动化和RPA的跃迁

  • 当AI模型遇上现实世界:一场鸡同鸭讲的浪漫邂逅*
  • 想象一下,你正试图教一只章鱼骑自行车——这就是当前AI模型理解人类工作场景的真实写照。让我们用显微镜(外加一点幽默感)来观察这个复杂的情境:

    1. “相关资料?大概在那边…吧?”

  • 人类版本的上下文可能包括:
  • 那份被同事随手扔在打印机旁的”操作手册v3finalnew(1).docx”
  • 十年前拍摄的模糊培训视频(主讲人已离职)
  • 小李电脑里那个神秘的”重要资料请勿删除”文件夹
  • 而AI像个急着交作业的大学生:”所以…重点是什么?”

    2. 信息投喂的迷惑行为大赏

    向AI提供上下文就像:

  • 试图用PPT向你的狗解释相对论
  • 把整座图书馆塞进ATM机取款口
  • 让习惯刷短视频的Z世代看完《战争与和平》再工作
  • 思考题*:当AI说”给我更多数据”,它究竟是饥饿的河马还是挑食的猫?
  • 3. 新旧工作流的”代沟”辩论

    人类工作方式就像是:

  • 用汤勺吃意大利面(能吃饱但满脸酱汁)
  • 拿手机当锤子钉钉子(确实响了但不是钉子的声音)
  • 而AI在旁边疯狂吐槽:”你们原始人都不看说明书的吗?”

    4. 初创公司的机会:AI界的心灵鸡汤大师

    那些能解决这些问题的公司将成为:

  • 数字世界的”职场关系调解员”
  • AI版本的”生活小妙招”节目组
  • 硅谷的巫毒教祭司(专治技术玄学)
  • 温馨提示*:最佳实践还在娘胎里,现在入场你就是规则的制定者!
  • 5. 从哲学问题到厨房实操

    现在我们不再纠结”为什么要做饭”,而是直接进入”如何用微波炉做出三星米其林”的阶段。
    记住:在这个AI革新时代——

  • 调优就像给泡面加蛋
  • 情境化好比教长辈用表情包
  • 可靠性措施相当于系安全带玩过山车
  • 结语*:当人类的工作方式遇上AI逻辑,就像香蕉碰上了螺丝刀——不合理但莫名有戏!谁能成为最佳的”翻译官”,谁就能在这场跨物种合作中笑到最后。
  • Agent架构的演进前沿:从分层设计到可靠执行的技术路径

    电脑小助手的奇幻冒险:分层架构大揭秘!

    1. 江湖中的AI侠客们

    电脑小助手的架构设计,就像是一场武林大会,各路高手(开发者)仍在激烈辩论:”到底该让大脑(大模型)干活,还是让手脚(工具)来执行?” 目前还没有人敢拍拍胸脯说:”这就是标准答案!”

    2. 如何驯服一个AI助手?

    目前主流的做法,就是把它切成好几层:

  • 脑袋: 负责思考长远目标(比如”让老板给我加薪”)。
  • 手脚: 确保它能精准点开”请假申请”按钮,而不是不小心删掉整个数据库。
  • 交互策略: 像教练一样,教它怎么”看懂”屏幕上的东西——但它可能会因为近视(视觉模型)或强迫症(DOM分析)而瞎折腾。
  • 3. 未来的神秘预言

  • 谁知道呢?* 说不定有一天,AI进化出了”超级视力”,直接一扫屏幕就知道该怎么操作,连DOM都懒得看一眼!但现在嘛……
  • 视觉派(Pixel流): “我靠截图认路!”
  • 代码党(DOM派): “不!代码才靠谱!”
  • 两队人马还在争论:”到底谁更胜一筹?”

    4. 实用派的分层秘籍

    虽然吵得不可开交,但下面这套分层方法至少能确保你的AI助手不会突然跑去刷短视频:

  • 交互框架——教AI”睁眼看世界”,别把”购买”按钮当成”删除”。
  • 模型大脑——决定到底是截图分析靠谱,还是直接读代码更高效。
  • 持久编排——确保它不会执行到一半跑去摸鱼。
  • 浏览器控制——给AI装个”自动化方向盘”。
  • 执行环境——让整个系统不会因为访问量太大而当场崩溃。
  • 5. 总结

    电脑助手的设计就像组队打游戏——有人负责指挥(模型),有人负责操作(浏览器),还有人防止队友挂机(持久编排)。尽管未来可能有更酷的技术,但现在这套打法至少能让你家的AI助手别把Excel玩成俄罗斯方块!
    喝点VC|a16z:Computer-using Agents代表着一次超越浏览器自动化和RPA的跃迁

    网页交互的幕后魔法:谁在控制你的浏览器?

    1. 交互框架:幕后导演的剧本

    想要让AI在网页上“指点江山”,还得有个好剧本。各个交互框架差异化在于控制的“锚点”

  • OmniParser:把像素变成“地图”,让AI知道每个元素是啥。
  • Stagehand:走“无障碍通道”(DOM视图),送出了`act()`和`extract()`两种API。
  • Browser-Use、CUA、Skyvern:视觉+结构双保险,哪怕界面换个马甲也能认出来。
  • 一句话总结:有的靠“眼睛”,有的靠“基因”——但目标是不让AI在网页上迷路。

  • 2. 模型:决策大脑,但不是“上帝模式”

  • 输入=“老板的指令”,输出=“怎么做”*,但AI可不一定总能理解人类的神经脑回路……
  • 训练方式五花八门:纯视觉(像素流)、纯代码(DOM解析)、混血架构(视觉+结构化)。
  • 中国力量崛起:UI-TARS、Qwen-VL在OSWorld排行榜上疯狂甩开对手。
  • Claude 4 Sonnet:Anthropic的“视觉特工”,比前代更犀利,号称“像素界的007”。
  • 开源进步:OpenCUA正努力追赶商用CUA,差距缩小中!
  • 现实:纯代码模型(DOM/LLM 风格)延迟更低,而视觉模型更像“人类”——但偶尔会犯迷糊。

  • 3. 持久执行与流程编排:安全气囊+时光机

    AI也会犯错,怎么办?这得靠“时光回溯”系统:

    方案魔法原理
    Inngest只重放失败片段,避免重复劳动
    Temporal靠日志重建内存状态,像“记忆闪回”
    Azure Durable Functions / AWS Step Functions无服务器版本的安全帽

    核心目标:别让AI干一半崩溃了还得从头再来!

  • 4. 浏览器控制层:谁在真正按按钮?

    要让AI像人类一样“点击网页”,得有个“中间商”——

  • CDP(Chrome开发者协议):低延迟首选,Browser Use 等团队爱用。
  • Playwright / Puppeteer:老牌选手,但延迟略高,新项目逐步抛弃它们。
  • CUA等自定义方案:融合 GUI/代码,走“高智商操作”路线。
  • 5. 浏览器:AI的执行舞台

    AI也要“浏览器大战”,但绝大多数都在Chromium 生态里玩耍——

  • 原因:开发者工具完备、API稳定、Web标准兼容性好。
  • 例外:轻量级选手Lightpanda,专为LLM优化,可惜势单力薄。
  • 现实问题:Chromium虽强,但吃内存猛如虎……

  • 6. 运行环境:AI的“云健身房”

    训练AI需要真实模拟环境,市面上有:

  • 云端浏览器集群(Anchor Browser、Browserbase、Hyperbrowser)
  • 完整操作系统沙箱(Scrapybara = Ubuntu/Windows + GUI + Shell)
  • CUA式沙盒:模仿用户设备,专门用于调教AI。
  • 7. 商业产品:AI大管家

    大厂们已把技术整合进产品,让AI直接上岗——

  • ChatGPT Agent = CUA + 浏览器沙箱,可自动化网页操作。
  • Manus = 多个语言模型 + Linux持久化环境,专攻企业流程。
  • Claude for Chrome:像AI助手插件,让你“动嘴不动手”。
  • 趋势:未来AI会像隐形管家,自动执行你的命令——安全、高效、不抱怨!

  • 结论*:
  • AI在网页上的“魔法”背后,是层层技术堆叠的精密协作。

  • 就像拍电影,导演(框架)、演员(模型)、场务(引擎)缺一不可!*
  • Agentic Coworkers的崛起:从能力与效率突破到企业级落地路径

    AI助手:它们现在多”菜”,未来多”神”?

    当前这一代的AI小助理们,就像刚学会骑自行车的小朋友,跌跌撞撞,撞南墙不回头。它们在能力效率上都存在明显的”短板”,比如碰到陌生的界面就懵逼、运行慢得能让咖啡凉三回、成本高得像在烧钱……不过别慌,6到18个月后,这帮小助手可能要开始逆袭了!

    能力:从”憨憨”到”老司机”

    现在的AI助手面对复杂UI界面时,宛如面对神秘玛雅文字的考古学家——一脸懵。但未来,它们可能会变成能在Windows XP和MacOS之间无缝穿梭的技术宅,具体怎么做到的?

    1. “少干活,多吃饭”策略

  • 精准狙击任务范围,别再指望它们啥都会,把活儿限定在几个特定动作——比如让它们专注填表,而不是一口气写完《三体》脚本
  • 提供”傻瓜教程”:像教奶奶用智能手机那样,给它们几个示例:”亲爱的AI,这是登录按钮,这是提交按钮,千万别点那个关机键!”
  • 2. “大数据投喂+仿真健身房”

  • 狂炫数据集(不是指表情包),用海量训练数据和更强的学霸训练(SFT),把它们从”幼儿园水平”提到”高校卷王”。
  • 模拟训练场:让它们在安全沙盒里疯狂点击,直到不再手滑删数据库。
  • 效率:从”龟速”到”光速”

    想让AI助手跑得像高铁?压缩、优化、偷懒三连安排上:
    视觉语言模型瘦身——AI界的”间歇性断食”,剪掉多余参数,轻装上阵!
    缓存界面元素——别傻乎乎从头解析,”哎呀,就这块变了,其他别瞎动”。
    让键盘和鼠标归小弟管——简单操作甩给规则控制器:”老弟,这个输入框按Tab键就行,别动用我大模型的脑子!”

    终极目标:AI同事,卷死人类?

    一旦AI助手突破瓶颈,它们将成为跨部门的全能打工人
    无缝兼容老旧软件(拯救那些还在用Windows 7的公司)。
    高阶战略工具——不只会填Excel,甚至能“如何在预算内骗(划掉)吸引最多的用户”
    自动适应——API更新?不怕,它们调参速度比你换壁纸还快!

    未来职场的AI明星岗位

  • 市场部AI——从广告创意到A/B测试一手包办,营销主管从此只能负责点赞
  • 财务AI——对账、欺诈检测速度让人类会计怀疑人生,最后哭着求AI:”大佬,让我抄一下报告行不?”
  • 销售AI——自动撩客户、分析话术、安排会议,人类销售只需递咖啡(可能以后咖啡也不用递了?)。
  • 所以,现在的AI助手可能还像刚入职的实习生,但不久的将来,它们可能就是比你还能卷的同事……人类朋友们,该焦虑了还是该躺平了?
    喝点VC|a16z:Computer-using Agents代表着一次超越浏览器自动化和RPA的跃迁

    数字小弟们的职场生存指南

    当AI开始偷偷用你的办公软件

    想象一下,如果你的电脑里住着一群“数字小弟”,它们不仅会帮你回邮件、整理文档,还能在你忙着刷社交媒体的时候,偷偷帮你把活全干完。听起来像科幻片?但这就是未来的职场现实!
    这些Agent可不是一般的“小助手”——它们不仅能搞定网页搜索邮件管理Slack吐槽,还能轻松驾驭Google Drive文档大战,甚至跑到Notion里排版到你怀疑人生。更厉害的是,它们连那些藏在公司古老系统里的神秘API怪兽都能驯服,简直是IT部门的噩梦终结者。

    Agent的职场生存术

    它们凭什么这么嚣张?两大绝技让它们站稳脚跟:

  • “偷偷查你资料”大师
  • 你的销售Agent写冷启动邮件时,不仅会翻你Google Drive里被遗忘的产品路线图,还会顺手从内部论坛挖出竞争对手的黑料。毕竟,信息就是力量,而Agent们是名副其实的“职场间谍”。

  • “无缝渗透”专家
  • 别的软件还在求着你适配新系统,Agent们早就混进了你的Slack群组、邮箱和文档库,像病毒一样迅速占领你的工作流。就像你那个自来熟的同事,什么都不用教,直接上手干活。

    未来的工作圈:人类和AI的“塑料友情”

    未来,办公室里可能看不到Agent,但它们的存在感比老板还强。它们会默默潜伏在系统里,时不时发一条Slack消息提醒你:“嘿,我给你安排了明天的会议,顺便帮你拒绝了三个没用的邀请。”
    而你呢?只需要负责点头、微笑,以及假装这一切都是你干的。毕竟,职场生存法则第一条:功劳可以共享,黑锅请Agent背好
    让我们期待那一天的到来——当Agent们开始写周报时,人类的摸鱼时代才真正降临!

    产业智能化的转折点:从工具协作到数字劳动力的重塑

    硅谷打工人与新晋”键盘侠”

    当电脑Agent进化成你的新同事

    想象一下这位”新员工”:

  • 永远不用喝咖啡
  • 从不抱怨加班
  • 对遗留系统的容忍度比你前任还高
  • 这就是Computer-using Agents——正在从”浏览器自动化的菜鸟”晋升为”办公室老油条”的数字打工人。

    IT部门的噩梦与福音

    这些Agent们最擅长的两项技能:

  • 在乱七八糟的系统间左右逢源(兼容性比人类强100倍)
  • 假装很懂的样子(其实就是上下文理解能力强)
  • 它们证明了:

  • 不是会不会干活的问题
  • 而是怎么把你家的古董系统忽悠到21世纪
  • 创业公司的”抢人大战”

    下一波的科技独角兽比的不是融资本事,而是:

  • 谁能把Agent调教成最懂你家业务的”马屁精”
  • 谁能给这些数字员工编出最完美的”职场人设”
  • 这些初创公司将决定:

  • 未来的打卡机要不要刷脸(可能根本不需要脸)
  • 茶水间八卦会不会变成数据加密
  • 总结*:人类同事可能还在纠结要不要回办公室,而这些Agentic coworkers早就占领了你的ERP系统、CRM数据库…甚至是那个没人想碰的Excel宏。企业数字化转型?不如说是”数字员工入侵计划”!
  • © 版权声明

    相关文章