19
0

商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁

具身智能「脑洞」大战:AI 的下一步是「包租公」还是「管家」?

上个世纪90年代,一群科学家端详着自家泡面,忽然灵光一现:「如果能让AI理解世界,它会不会连泡面怎么煮都能自学?」于是,「世界模型」思想悄然诞生,历经几十年的修修补补,终于从「煮泡面」进化到了「控制机器人」。
而现在,这场「AI脑壳进化大赛」已然进入白热化阶段——

AI界的「大脑选秀」节目开播了!

  • 谷歌:掏出RT-2模型,高喊「我家机器人以后能靠刷短视频学做饭!」
  • 李飞飞(AI 教母):创业押注具身智能,坚信「世界模型」是AI迈向「能管家」的黄金门票
  • 中国战队更是集体发力:
  • 智源研究院:「开源大脑」RoboBrain,慷慨得仿佛AI界的「共享充电宝」
  • 华为云:CloudRobo上线,让机器人上云「集体修仙」
  • 字节跳动:推出GR-3,声称以后抖音可能由机器人运营(?)
  • 京东:「JoyInside」品牌横空出世,让人怀疑它要给快递员装芯片
  • 商汤科技:「悟能」平台霸气登场,自带「九九八十一种机器人历练技能」
  • 腾讯:Tairos平台上线,意图让AI既能打游戏也能搬箱子
  • 「谁先让AI学会摆烂,谁就赢了」

    各大厂狂奔AGI(通用人工智能)的姿态,宛如学生突击期末考试——有的靠「视觉系」基因加持(商汤:谢邀,CV老玩家了),有的狂堆算力(「云+端」火力全开),还有的干脆把机器人当「AI实习生」扔进各种场景瞎折腾(智能驾驶?物流?家政?都给我卷!)。
    商汤CTO王晓刚信心满满:「咱积累了这么多年的AI功夫,现在该传功给行业了!」——听起来就像是武侠小说里「老夫闭关多年,今日出山,传你们一套《机器人九阴真经》!」

    终极问题:AI会先学会泡茶,还是先学会敷衍人类?

    这场「AI大脑」争夺战的本质是:谁能让AI真正理解世界逻辑,谁就能让机器人从「人工智障」晋升为「人工机智」。下个阶段,我们或许会看到——

  • 机器人管家一边拖地一边偷偷刷剧
  • 自动驾驶汽车在堵车时主动讲段子
  • 甚至……AI老板学会在周报里写「今日摸鱼,明日再战」?
  • 无论如何,这场竞赛才刚开始,而「世界模型」可能正是AI从「做题家」蜕变为「生活家」的关键钥匙。

  • (或者,它先学会怎么合理摆烂也说不定?)*
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁

    当机器人学会”看”世界后,它们竟然在想这些…

    在王晓刚眼中,具身智能这个领域现在火得像是被人工智能灌了兴奋剂——尤其是大模型的出现,让科学家们的脑洞开得比科幻电影还大。但问题也随之而来:

  • 数据的稀缺程度堪比熊猫的饭量
  • 采集难度堪比在沙漠里找WIFI信号
  • 规模化生产像是让一只猫咪立正站好
  • 泛化能力大概和人类早起时的理智水平差不多
  • 然而,当一帮搞计算机视觉的工程师闯进这个领域后,事情突然变得不一样了。毕竟这群人最擅长的就是:

  • 360度无死角分析现实世界(人、物体、场景统统逃不过他们的法眼)
  • 暴力重建现实(“如果你能模拟世界,谁还需要出门?”)
  • 学习世界模型(简单来说:让AI从“看”变成“看懂”)
  • 商汤不仅在这一块早已扎根,还早早开始研究怎么让世界模型”落地”。去年11月他们推出的「开悟」世界模型,就被塞进了智能汽车里——因为按王晓刚的说法,汽车其实就是个四个轮子的机器人*。从端到端自动驾驶(VLA)到环境计算,商汤正试图让机器人从“虚拟世界”摇摇晃晃地走向现实。
  • 而在这场具身智能的突围战中,商汤的「悟能」具身智能平台成了关键武器:

  • 装载了10万个3D资产(相当于给AI塞了一整个虚拟宜家)
  • 支持多视角视频生成(既能“我是谁?”也能“我在哪儿?”)
  • 还能保持150秒时空一致性(比金鱼7秒记忆强多了)
  • 此外,来自自动驾驶和人机交互大模型的超能力——比如导航、理解人类奇奇怪怪的命令——也都一股脑丢给了「悟能」,让具身智能的机器人不再只会对着空气挥爪子,而是真能在现实世界大闹天宫(当然是以“服务人类”的名义)。
    (采访内容经机器之心与商汤科技联合创始人、CTO王晓刚对谈整理而成,部分表述进行了优化,但意思一点没歪!)

    具身智能来势汹汹,但数据缺乏是「硬伤」

    机器人开始”接地气”,量产元年为何在此刻?

    硬件与技术:从”翻跟头”到”自主思考”

  • 硬件本体和运动控制的飞速进步:现在的机器人不仅能跳舞,还能表演”铁人三项”(翻跟头、搏击、精准抓取),硬件稳定性已经可以支撑更多复杂动作。
  • AI大模型的”魔法加持”:过去机器人只是车间里的”单一技能工人”,现在它更像是一个具备”应变能力”的超级员工,既能帮你搬箱子,也能在工厂换线时优雅地切换任务。
  • 大模型的三大突破:导航、交互与操作

  • 导航:从”迷糊导航”到”精明导向”
  • 得益于自动驾驶技术,机器人不再像”路痴”一样乱撞,而是在工厂、家庭、医院里游刃有余地移动,甚至可以开始送外卖。
  • 人机交互:从”机械回应”到”聊天达人”
  • 得益于多模态大模型(比如GPT-4),机器人不仅能听懂你的话,还会结合视觉、触觉,做出更自然的反应,比如回答”帮我拿杯水”的同时还能判断杯子是否易碎。
  • VLA(Vision-Language-Action):”看指令就干活”
  • 现在机器人可以像人类一样理解”把这个红色的螺丝拧到蓝色盒子左侧第三个孔里”这样复杂的指令,而不再需要工程师一句一句编程。
  • 智能化的三个层级:从”死记硬背”到”自我进化”

  • 标注训练:”人类教AI认猫认狗”(靠海量标注数据)。
  • 语言理解:”ChatGPT教你聊天”(通过分析语言结构)。
  • 世界模型博弈:”AlphaGo自学下棋”(机器自主在规则中学习优化)。
  • 世界模型的突破让机器开始理解物理规律,比如”杯子摔了会碎”、”红灯得停”,让机器可以在更真实的环境里适应和进化。

  • 挑战:通往通用智能的”绊脚石”

  • 硬件:一个螺丝松了,整个机器人垮掉
  • 生产线上的机器人能靠精密装配保证质量,但家用机器人每天被熊孩子踢、宠物抓挠,硬件耐用度是问题。

  • 数据:每个机器人都像”孤勇者”
  • 汽车数据:你开车的同时就是在制造数据。
  • 机器人数据?得雇人手动操作采集,成本极高,且不同机器人传感器配置不同,数据很难共用。
  • 仿真数据?”数字世界的健身教练”:虚拟环境的数据和现实差距就像”游戏里开F1赛车”和”真实驾驶”的区别。
  • 未来希望:视觉专家的跨界支援
  • 3D重建、环境建模技术正在快速进步,计算机视觉专家们入局后,可能会让机器人更快”看懂”世界,减少对人工数据的依赖。
    这场“机器人量产革命”,既有AI大模型的爆发和硬件成熟作支撑,又面临数据和硬件可靠性的挑战。但无论如何,未来机器人可能不再只是工厂里的机械臂,而是能适应各种场景的”通才助理”。人类可以期待它们变得更聪明、更抗造、更能融入现实世界,而不是只会翻跟头或突然死机。
    商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁

    机器人为何总在”手舞足蹈”?解码AI时代的”帕金森”难题

    机器人手抖的真相大揭秘

    让我们先说正事:那些在发布会上抖得像筛糠的机器人手臂,不是因为偷懒没做寒假作业(数据不够),也不是上课走神没听讲(训练不足)。这其实是个运动控制的史诗级难题

    大脑和小脑的”双人舞”

    机器人的控制系统像极了我们人类:

  • 大脑(VLA):负责高冷地下指令”往左转30度”
  • 小脑(运动控制):苦哈哈地计算怎么让17个关节配合完成这个动作
  • 这就像让一个只会说”往前开”的后座司机,指挥新手在早高峰开车一样刺激。

    两大核心难题

  • 身体协调性:机器人要像体操运动员一样控制好自己的身体
  • 路径规划:规划的路线得让机器人走得舒服,不能像让姚明钻儿童隧道
  • 为什么有些Demo能成功?

  • 定制场景:就像让一个人在自家客厅走路和蒙眼走钢丝的区别
  • 针对性调参:为特定场景”作弊”做好准备
  • 缺乏通用性:换个环境就变回”手忙脚乱”的小白
  • 规模化应用的噩梦

    要实现商业化?那就要:

  • 大脑得像爱因斯坦一样聪明
  • 小脑得像李小龙一样灵活
  • 不然就得雇佣一支特种部队四处救火调参
  • 说到底,让机器人稳定运动就像教一个四肢不协调的人跳芭蕾——既需要理论指导(VLA规划),更需要肌肉记忆(运控训练)。当这两个系统能够像老夫妻一样默契配合时,我们才能看到真正优雅的机器舞者!

    世界模型,加快 AI 从数字空间迈进物理世界

    自动驾驶:从”人工智障”到”具身智能”的奇幻冒险

    自动驾驶的青春期躁动

    现在的自动驾驶就像一个躁动的青少年——天天嚷着要创新,衣服(aka技术架构)每年都换新款式。2023年还穿着”高精度地图”的外套招摇过市,2024年就迫不及待地裸奔”无图驾驶”了。技术是成熟了,但这个熊孩子整天就知道模仿人类老司机,跟个追星族一样疯狂收集数据。

    世界模型:自动驾驶的”元宇宙”

    行业大佬们一拍大腿:”咱得给这熊孩子造个’元宇宙’练练手啊!”于是世界模型成了新宠儿:

  • 商汤科技率先掏出”开悟”牌元宇宙
  • 华为小鹏赶紧跟进,生怕错过这波”造宇宙”热潮
  • 这个虚拟训练场太神奇了!遇到一个解决不了的驾驶场景?就像玩《我的世界》一样:

  • 先把这个场景复制出来
  • 然后开始疯狂调参数:
  • 把晴天变暴雨
  • 把直道变弯道
  • 把电动车变擎天柱
  • 最后一键生成10086个变异版场景
  • 以前采集数据像农民工搬砖,现在是程序员按Ctrl+C/V,成本直接跌停板!

    汽车:未来的”变形金刚”?

    记者灵魂拷问:”这熊孩子能进化成变形金刚吗?”
    大佬淡定回应:”那必须的!汽车马上就要变成你的贴心小管家了!”
    现在的车载系统就像个固执的老头:

  • 你得按按钮
  • 你得开APP
  • 你跟它说话它假装没听见
  • 未来的环境计算汽车?那是个社交牛逼症AI:

  • 你没开口它就知道你要啥
  • 车里车外装满了”小眼睛”观察你
  • 连你上周说想吃火锅都记得
  • 这不就是个披着汽车皮的机器人嘛!难怪有人说特斯拉其实是个会跑的iPhone。

    “开悟”模型的黑科技

    说到世界模型,各家都在秀肌肉。商汤的”开悟”模型特别能打:

  • 时空管理大师:11个摄像头和谐相处,不像某些视频AI生成的画面,上一帧是晴天,下一帧就下雪了
  • 场景编辑器Pro Max:不仅能换天气,估计连路边的狗都能换成熊猫
  • 150秒超长待机:足够上演一部微缩版《速度与激情》了
  • 看来自动驾驶和具身智能的爱情故事,第一集就要在汽车里上演了。等其他行业反应过来,估计汽车AI都已经当上爷爷奶奶了!
    商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁

    “悟能”具身智能平台——让机器人学会”滚键盘”的艺术

    一、速度即金钱,算力即生命

  • “反应快”就是省钱:GPU 算力就像是健身房里的私教课,练得越快,课程越短,钱包越鼓。
  • 实时交互 = 让机器人学会”演话剧”:想象你在玩 VR 游戏时延迟 5 秒……再好的画面也会变成”PPT 幻灯片”。”悟能”要做的是让机器人表演得像奥斯卡影帝一样流畅。
  • 二、机器人世界的”缺粮危机”

  • 问题*:人类随手拿水杯,机器人却像第一次喝水的猫一样困惑。
  • 互联网数据没用? 就像用菜谱教机器人做满汉全席——它只会把锅烧穿。
  • 遥操作成本高:一条数据=一次”教练手把手教你拿水杯”,稍微换张桌子?机器人:”教练,这不科学!”
  • 三、”悟能”的绝招:合成数据工厂

    1. 3D 世界的”乐高大师”

  • 10 万 3D 模型随便堆,机器人训练场堪比《我的世界》创意模式。
  • 第一视角 vs. 第三视角
  • 过去:机器人学人类动作≈看《广场舞教程》学芭蕾。
  • 现在:AI 眼镜拍人类第一视角,机器人终于看懂”如何优雅地摔碎杯子”。
  • 2. 战略意义

  • 省钱:合成数据远比真人演示便宜——终于不用雇 100 个”水杯教练”了。
  • 可玩性++:换个颜色/形状?机器人淡定表示:”这题我会,下一个。”
  • 王晓刚的潜台词:我们不是在做机器人,我们在培养”会自己滚键盘的 AI 演员”。商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁

    黄瓜终结者的内心独白

    大家好,我是一个专门切黄瓜的机器人,你可以叫我”瓜哥”。今天我将以第一视角给你们展示我惊心动魄的日常工作。

  • 开机日常:*
  • 系统启动中… 视觉模块校准完毕,菜刀已充能100%,黄瓜雷达上线
  • 目标检测完成:”前方发现绿色长条状物体,99.9%确认是无辜的黄瓜一根”
  • 准备动作:*
  • 机械臂优雅地做了个热身运动(其实是因为昨晚机油没加够)
  • “让我看看今天的牺牲品…哦不,今天的食材长得还挺标致”
  • 切割过程:*
  • 第一刀:”咔嚓”——完美对半切
  • “开玩笑我可是毫米级精度…等等左边比右边厚了0.01毫米”
  • “我要失业了!”(开始程序性恐慌)
  • 切片表演
  • 刀光剑影间,黄瓜以每秒5片的速度变成整齐圆片
  • “太简单了我闭着眼睛都能…啊不好手指头!”(急刹车)
  • “…当然是开玩笑的,机械臂怎么可能切到手”
  • 工作反思:*
  • “为什么人类总要我把黄瓜切成片?就不能尝试点新花样吗?”
  • “下次要不要擅自做个黄瓜雕花?系统会不会把我格式化了…”
  • 任务完成:*
  • “今日战绩:28根黄瓜被判’切片刑'”
  • “收工!该给自己做个黄瓜面膜了…开玩笑的,我不用保养”
  • 系统提示:电池电量不足,请充电。顺便说一下,我真的不是在暗示给我升级配置…*
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁

    机器人进化论:从”盲人摸象”到”眼观六路”

    第一视角 vs 第三视角:机器人终于学会”偷看”自己了

    以前的世界模型像是个闭着眼睛走路的机器人,全靠第一视角摸索下一步(没错,Yann LeCun 的团队当时就在搞这个)。而现在,”悟能”平台给机器人开了天眼——不仅能看自己(第一视角),还能俯视全场(第三视角)。这就像是让机器人从单机游戏升级到了3D开放世界模式,走路不撞墙还能预判路人的走位!

  • 举例来说:*
  • 机器狗:「全职保镖+情感安抚师」
  • 以前遛狗是你牵着它?不,现在变成它遛你。它能跟着小孩老人溜达,遇到危险还能”一键护主”——比如突然窜出一辆车?没事,它比你反应快!

  • 陪伴机器人:「你的AI亲戚」
  • 不仅能陪你唠嗑,还能记住你昨天吐槽老板的话,今天继续安慰你:”别担心,我记录显示你骂了36次’辞职’,但一次都没执行。”

    机器人统一大业:为啥它们还像个「拼装玩具」?

  • 当前痛点:*
  • 数据荒: 每个机器人都在”吃独食”——机器狗的数据搬不进扫地机器人,导致它们像不同物种。
  • 硬件五花八门: 有的机器人胳膊能拧瓶盖,有的连瓶盖都找不到,“大脑”(平台)和”身体”(硬件)还在尬聊
  • 解决方向:*
  • 先喂数据! 就像训练运动员,得针对不同项目(机器人类型)定制饮食(数据)。
  • 硬件联盟: 商汤已经投资了一批机器人上下游公司——未来可能出现「机器人乐高」:买一套大脑(平台)+ 自选手脚(硬件),拼出你的专属AI管家!
  • 「悟能」vs 其他「机器人大脑」:差别在哪儿?

  • 别的平台: “来,这是操作手册,你自己琢磨怎么用。”
  • 「悟能」: “不仅是手册,我还附赠一本《世界运行规律》,外加自动驾驶级的导航和人机交互技能。” (相当于给机器人装了GPS+社交牛逼症)
  • 厂商合作模式:「大脑租借服务」

  • 厂商可以按需调用平台的「超能力」——导航、对话、世界模型,就像点外卖一样方便。
  • 终极目标:软硬合体! 毕竟光有聪明大脑不够,还得配个灵活身体——未来某天,你可能会看到商汤牌的机器人,一边帮你拿外卖,一边和你讨论哲学。
  • 总结: 现在的机器人还在”幼儿期”,但有了世界模型+多模态大模型,它们正从”人工智障”迈向”人工智能”。说不定下次你骂它笨的时候,它会回怼:”你的数据量还没我十分之一大呢!”*
  • 具身智能是具像化的智能体

    机器人要统治地球了?不不不,它们只想跟你聊八卦!

    最近”具身智能”这玩意儿火得一塌糊涂,技术突破跟放鞭炮似的,噼里啪啦停不下来。那么问题来了:等这些机器人”长大成人”了,我们的生活会不会变得像科幻片一样?

  • 社交达人2.0版要来了!*
  • 王晓刚表示:”以后你的朋友圈可能会多几个不是人的’朋友’——没错,就是机器人!它们不仅能搬砖,还能陪你唠嗑,更可怕的是它们记性超好。你上个月跟男朋友吵架说的气话,它可能还记得一清二楚…”
    想象一下:你家的扫地机器人一边拖地一边跟你讨论昨晚的电视剧剧情,洗碗机在你做饭时给你讲冷笑话。这画面,是不是觉得智能音箱突然就不香了?

  • 机器人家政天团出道!*
  • 现在的家电都太”专一”了——空调只会制冷制热,洗衣机只会洗衣服。但未来的机器人管家可就厉害了:

  • 早上叫你起床
  • 给你做早餐
  • 顺便给猫主子铲屎
  • 还能在你上班后偷偷打扫卫生
  • 甚至…监视你有没有乱扔袜子?
  • 商汤的”机器人脑补计划”*
  • 商汤最近搞了个”悟能”平台(这名字一听就有福气)。王晓刚解释说:”我们不想造钢铁侠的外壳,只想给机器人装个’超强大脑’。”
    这个大脑可不得了:

  • 自动驾驶技术教机器人认路(免得把你家茶几撞了)
  • 世界模型让机器人理解人类的世界(终于知道为什么你会对着手机傻笑了)
  • 还能把你的家、办公室和车串联起来(想象你的机器人开着你的车去上班…等等,这好像不太对?)
  • 未来的生活:机器人在左,生活在右*
  • 关键是,这些机器人记性特别好:

  • 知道你总把钥匙放哪
  • 记得你妈妈的生日
  • 甚至…知道你偷偷点了多少次外卖?
  • 王晓刚总结说:”虽然机器人现在还不能帮你写作业(未来没准儿可以),但每进步一小步,都可能带来巨大的改变。”
    所以问题来了:准备好和机器人做邻居了吗?它们可能很快就会敲开你家的门——用机械手端着刚烤好的饼干那种。

    © 版权声明

    相关文章