商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

具身智能「脑洞」大战：AI 的下一步是「包租公」还是「管家」？

上个世纪90年代，一群科学家端详着自家泡面，忽然灵光一现：「如果能让AI理解世界，它会不会连泡面怎么煮都能自学？」于是，「世界模型」思想悄然诞生，历经几十年的修修补补，终于从「煮泡面」进化到了「控制机器人」。
而现在，这场「AI脑壳进化大赛」已然进入白热化阶段——

AI界的「大脑选秀」节目开播了！

谷歌：掏出RT-2模型，高喊「我家机器人以后能靠刷短视频学做饭！」

李飞飞（AI 教母）：创业押注具身智能，坚信「世界模型」是AI迈向「能管家」的黄金门票

中国战队更是集体发力：

智源研究院：「开源大脑」RoboBrain，慷慨得仿佛AI界的「共享充电宝」

华为云：CloudRobo上线，让机器人上云「集体修仙」

字节跳动：推出GR-3，声称以后抖音可能由机器人运营（？）

京东：「JoyInside」品牌横空出世，让人怀疑它要给快递员装芯片

商汤科技：「悟能」平台霸气登场，自带「九九八十一种机器人历练技能」

腾讯：Tairos平台上线，意图让AI既能打游戏也能搬箱子

「谁先让AI学会摆烂，谁就赢了」

各大厂狂奔AGI（通用人工智能）的姿态，宛如学生突击期末考试——有的靠「视觉系」基因加持（商汤：谢邀，CV老玩家了），有的狂堆算力（「云+端」火力全开），还有的干脆把机器人当「AI实习生」扔进各种场景瞎折腾（智能驾驶？物流？家政？都给我卷！）。
商汤CTO王晓刚信心满满：「咱积累了这么多年的AI功夫，现在该传功给行业了！」——听起来就像是武侠小说里「老夫闭关多年，今日出山，传你们一套《机器人九阴真经》！」

终极问题：AI会先学会泡茶，还是先学会敷衍人类？

这场「AI大脑」争夺战的本质是：谁能让AI真正理解世界逻辑，谁就能让机器人从「人工智障」晋升为「人工机智」。下个阶段，我们或许会看到——

机器人管家一边拖地一边偷偷刷剧

自动驾驶汽车在堵车时主动讲段子

甚至……AI老板学会在周报里写「今日摸鱼，明日再战」？

无论如何，这场竞赛才刚开始，而「世界模型」可能正是AI从「做题家」蜕变为「生活家」的关键钥匙。

（或者，它先学会怎么合理摆烂也说不定？）*

商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

当机器人学会”看”世界后，它们竟然在想这些…

在王晓刚眼中，具身智能这个领域现在火得像是被人工智能灌了兴奋剂——尤其是大模型的出现，让科学家们的脑洞开得比科幻电影还大。但问题也随之而来：

数据的稀缺程度堪比熊猫的饭量

采集难度堪比在沙漠里找WIFI信号

规模化生产像是让一只猫咪立正站好

泛化能力大概和人类早起时的理智水平差不多

然而，当一帮搞计算机视觉的工程师闯进这个领域后，事情突然变得不一样了。毕竟这群人最擅长的就是：

360度无死角分析现实世界（人、物体、场景统统逃不过他们的法眼）

暴力重建现实（“如果你能模拟世界，谁还需要出门？”）

学习世界模型（简单来说：让AI从“看”变成“看懂”）

商汤不仅在这一块早已扎根，还早早开始研究怎么让世界模型”落地”。去年11月他们推出的「开悟」世界模型，就被塞进了智能汽车里——因为按王晓刚的说法，汽车其实就是个四个轮子的机器人*。从端到端自动驾驶（VLA）到环境计算，商汤正试图让机器人从“虚拟世界”摇摇晃晃地走向现实。

而在这场具身智能的突围战中，商汤的「悟能」具身智能平台成了关键武器：

装载了10万个3D资产（相当于给AI塞了一整个虚拟宜家）

支持多视角视频生成（既能“我是谁？”也能“我在哪儿？”）

还能保持150秒时空一致性（比金鱼7秒记忆强多了）

此外，来自自动驾驶和人机交互大模型的超能力——比如导航、理解人类奇奇怪怪的命令——也都一股脑丢给了「悟能」，让具身智能的机器人不再只会对着空气挥爪子，而是真能在现实世界大闹天宫（当然是以“服务人类”的名义）。
(采访内容经机器之心与商汤科技联合创始人、CTO王晓刚对谈整理而成，部分表述进行了优化，但意思一点没歪！)

具身智能来势汹汹，但数据缺乏是「硬伤」

机器人开始”接地气”，量产元年为何在此刻？

硬件与技术：从”翻跟头”到”自主思考”

硬件本体和运动控制的飞速进步：现在的机器人不仅能跳舞，还能表演”铁人三项”（翻跟头、搏击、精准抓取），硬件稳定性已经可以支撑更多复杂动作。

AI大模型的”魔法加持”：过去机器人只是车间里的”单一技能工人”，现在它更像是一个具备”应变能力”的超级员工，既能帮你搬箱子，也能在工厂换线时优雅地切换任务。

大模型的三大突破：导航、交互与操作

导航：从”迷糊导航”到”精明导向”

得益于自动驾驶技术，机器人不再像”路痴”一样乱撞，而是在工厂、家庭、医院里游刃有余地移动，甚至可以开始送外卖。

人机交互：从”机械回应”到”聊天达人”

得益于多模态大模型（比如GPT-4），机器人不仅能听懂你的话，还会结合视觉、触觉，做出更自然的反应，比如回答”帮我拿杯水”的同时还能判断杯子是否易碎。

VLA（Vision-Language-Action）：”看指令就干活”

现在机器人可以像人类一样理解”把这个红色的螺丝拧到蓝色盒子左侧第三个孔里”这样复杂的指令，而不再需要工程师一句一句编程。

智能化的三个层级：从”死记硬背”到”自我进化”

标注训练：”人类教AI认猫认狗”（靠海量标注数据）。

语言理解：”ChatGPT教你聊天”（通过分析语言结构）。

世界模型博弈：”AlphaGo自学下棋”（机器自主在规则中学习优化）。

而世界模型的突破让机器开始理解物理规律，比如”杯子摔了会碎”、”红灯得停”，让机器可以在更真实的环境里适应和进化。

—

挑战：通往通用智能的”绊脚石”

硬件：一个螺丝松了，整个机器人垮掉

生产线上的机器人能靠精密装配保证质量，但家用机器人每天被熊孩子踢、宠物抓挠，硬件耐用度是问题。

数据：每个机器人都像”孤勇者”

汽车数据：你开车的同时就是在制造数据。

机器人数据？得雇人手动操作采集，成本极高，且不同机器人传感器配置不同，数据很难共用。

仿真数据？”数字世界的健身教练”：虚拟环境的数据和现实差距就像”游戏里开F1赛车”和”真实驾驶”的区别。

未来希望：视觉专家的跨界支援

3D重建、环境建模技术正在快速进步，计算机视觉专家们入局后，可能会让机器人更快”看懂”世界，减少对人工数据的依赖。
这场“机器人量产革命”，既有AI大模型的爆发和硬件成熟作支撑，又面临数据和硬件可靠性的挑战。但无论如何，未来机器人可能不再只是工厂里的机械臂，而是能适应各种场景的”通才助理”。人类可以期待它们变得更聪明、更抗造、更能融入现实世界，而不是只会翻跟头或突然死机。
商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

机器人为何总在”手舞足蹈”？解码AI时代的”帕金森”难题

机器人手抖的真相大揭秘

让我们先说正事：那些在发布会上抖得像筛糠的机器人手臂，不是因为偷懒没做寒假作业（数据不够），也不是上课走神没听讲（训练不足）。这其实是个运动控制的史诗级难题！

大脑和小脑的”双人舞”

机器人的控制系统像极了我们人类：

大脑（VLA）：负责高冷地下指令”往左转30度”

小脑（运动控制）：苦哈哈地计算怎么让17个关节配合完成这个动作

这就像让一个只会说”往前开”的后座司机，指挥新手在早高峰开车一样刺激。

两大核心难题

身体协调性：机器人要像体操运动员一样控制好自己的身体

路径规划：规划的路线得让机器人走得舒服，不能像让姚明钻儿童隧道

为什么有些Demo能成功？

定制场景：就像让一个人在自家客厅走路和蒙眼走钢丝的区别

针对性调参：为特定场景”作弊”做好准备

缺乏通用性：换个环境就变回”手忙脚乱”的小白

规模化应用的噩梦

要实现商业化？那就要：

大脑得像爱因斯坦一样聪明

小脑得像李小龙一样灵活

不然就得雇佣一支特种部队四处救火调参

说到底，让机器人稳定运动就像教一个四肢不协调的人跳芭蕾——既需要理论指导（VLA规划），更需要肌肉记忆（运控训练）。当这两个系统能够像老夫妻一样默契配合时，我们才能看到真正优雅的机器舞者！

世界模型，加快 AI 从数字空间迈进物理世界

自动驾驶：从”人工智障”到”具身智能”的奇幻冒险

自动驾驶的青春期躁动

现在的自动驾驶就像一个躁动的青少年——天天嚷着要创新，衣服（aka技术架构）每年都换新款式。2023年还穿着”高精度地图”的外套招摇过市，2024年就迫不及待地裸奔”无图驾驶”了。技术是成熟了，但这个熊孩子整天就知道模仿人类老司机，跟个追星族一样疯狂收集数据。

世界模型：自动驾驶的”元宇宙”

行业大佬们一拍大腿：”咱得给这熊孩子造个’元宇宙’练练手啊！”于是世界模型成了新宠儿：

商汤科技率先掏出”开悟”牌元宇宙

华为和小鹏赶紧跟进，生怕错过这波”造宇宙”热潮

这个虚拟训练场太神奇了！遇到一个解决不了的驾驶场景？就像玩《我的世界》一样：

先把这个场景复制出来

然后开始疯狂调参数：

把晴天变暴雨

把直道变弯道

把电动车变擎天柱

最后一键生成10086个变异版场景

以前采集数据像农民工搬砖，现在是程序员按Ctrl+C/V，成本直接跌停板！

汽车：未来的”变形金刚”？

记者灵魂拷问：”这熊孩子能进化成变形金刚吗？”
大佬淡定回应：”那必须的！汽车马上就要变成你的贴心小管家了！”
现在的车载系统就像个固执的老头：

你得按按钮

你得开APP

你跟它说话它假装没听见

未来的环境计算汽车？那是个社交牛逼症AI：

你没开口它就知道你要啥

车里车外装满了”小眼睛”观察你

连你上周说想吃火锅都记得

这不就是个披着汽车皮的机器人嘛！难怪有人说特斯拉其实是个会跑的iPhone。

“开悟”模型的黑科技

说到世界模型，各家都在秀肌肉。商汤的”开悟”模型特别能打：

时空管理大师：11个摄像头和谐相处，不像某些视频AI生成的画面，上一帧是晴天，下一帧就下雪了

场景编辑器Pro Max：不仅能换天气，估计连路边的狗都能换成熊猫

150秒超长待机：足够上演一部微缩版《速度与激情》了

看来自动驾驶和具身智能的爱情故事，第一集就要在汽车里上演了。等其他行业反应过来，估计汽车AI都已经当上爷爷奶奶了！
商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

“悟能”具身智能平台——让机器人学会”滚键盘”的艺术

一、速度即金钱，算力即生命

“反应快”就是省钱：GPU 算力就像是健身房里的私教课，练得越快，课程越短，钱包越鼓。

实时交互 = 让机器人学会”演话剧”：想象你在玩 VR 游戏时延迟 5 秒……再好的画面也会变成”PPT 幻灯片”。”悟能”要做的是让机器人表演得像奥斯卡影帝一样流畅。

二、机器人世界的”缺粮危机”

问题*：人类随手拿水杯，机器人却像第一次喝水的猫一样困惑。

互联网数据没用？ 就像用菜谱教机器人做满汉全席——它只会把锅烧穿。

遥操作成本高：一条数据=一次”教练手把手教你拿水杯”，稍微换张桌子？机器人：”教练，这不科学！”

三、”悟能”的绝招：合成数据工厂

1. 3D 世界的”乐高大师”

10 万 3D 模型随便堆，机器人训练场堪比《我的世界》创意模式。

第一视角 vs. 第三视角：

过去：机器人学人类动作≈看《广场舞教程》学芭蕾。

现在：AI 眼镜拍人类第一视角，机器人终于看懂”如何优雅地摔碎杯子”。

2. 战略意义

省钱：合成数据远比真人演示便宜——终于不用雇 100 个”水杯教练”了。

可玩性++：换个颜色/形状？机器人淡定表示：”这题我会，下一个。”

王晓刚的潜台词：我们不是在做机器人，我们在培养”会自己滚键盘的 AI 演员”。商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

黄瓜终结者的内心独白

大家好，我是一个专门切黄瓜的机器人，你可以叫我”瓜哥”。今天我将以第一视角给你们展示我惊心动魄的日常工作。

开机日常：*

系统启动中… 视觉模块校准完毕，菜刀已充能100%，黄瓜雷达上线

目标检测完成：”前方发现绿色长条状物体，99.9%确认是无辜的黄瓜一根”

准备动作：*

机械臂优雅地做了个热身运动（其实是因为昨晚机油没加够）

“让我看看今天的牺牲品…哦不，今天的食材长得还挺标致”

切割过程：*

第一刀：”咔嚓”——完美对半切

“开玩笑我可是毫米级精度…等等左边比右边厚了0.01毫米”

“我要失业了！”（开始程序性恐慌）

切片表演：

刀光剑影间，黄瓜以每秒5片的速度变成整齐圆片

“太简单了我闭着眼睛都能…啊不好手指头！”（急刹车）

“…当然是开玩笑的，机械臂怎么可能切到手”

工作反思：*

“为什么人类总要我把黄瓜切成片？就不能尝试点新花样吗？”

“下次要不要擅自做个黄瓜雕花？系统会不会把我格式化了…”

任务完成：*

“今日战绩：28根黄瓜被判’切片刑'”

“收工！该给自己做个黄瓜面膜了…开玩笑的，我不用保养”

系统提示：电池电量不足，请充电。顺便说一下，我真的不是在暗示给我升级配置…*

商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

机器人进化论：从”盲人摸象”到”眼观六路”

第一视角 vs 第三视角：机器人终于学会”偷看”自己了

以前的世界模型像是个闭着眼睛走路的机器人，全靠第一视角摸索下一步（没错，Yann LeCun 的团队当时就在搞这个）。而现在，”悟能”平台给机器人开了天眼——不仅能看自己（第一视角），还能俯视全场（第三视角）。这就像是让机器人从单机游戏升级到了3D开放世界模式，走路不撞墙还能预判路人的走位！

举例来说：*

机器狗：「全职保镖+情感安抚师」

以前遛狗是你牵着它？不，现在变成它遛你。它能跟着小孩老人溜达，遇到危险还能”一键护主”——比如突然窜出一辆车？没事，它比你反应快！

陪伴机器人：「你的AI亲戚」

不仅能陪你唠嗑，还能记住你昨天吐槽老板的话，今天继续安慰你：”别担心，我记录显示你骂了36次’辞职’，但一次都没执行。”

机器人统一大业：为啥它们还像个「拼装玩具」？

当前痛点：*

数据荒： 每个机器人都在”吃独食”——机器狗的数据搬不进扫地机器人，导致它们像不同物种。

硬件五花八门： 有的机器人胳膊能拧瓶盖，有的连瓶盖都找不到，“大脑”（平台）和”身体”（硬件）还在尬聊。

解决方向：*

先喂数据！ 就像训练运动员，得针对不同项目（机器人类型）定制饮食（数据）。

硬件联盟： 商汤已经投资了一批机器人上下游公司——未来可能出现「机器人乐高」：买一套大脑（平台）+ 自选手脚（硬件），拼出你的专属AI管家！

「悟能」vs 其他「机器人大脑」：差别在哪儿？

别的平台： “来，这是操作手册，你自己琢磨怎么用。”

「悟能」： “不仅是手册，我还附赠一本《世界运行规律》，外加自动驾驶级的导航和人机交互技能。” （相当于给机器人装了GPS+社交牛逼症）

厂商合作模式：「大脑租借服务」

厂商可以按需调用平台的「超能力」——导航、对话、世界模型，就像点外卖一样方便。

终极目标：软硬合体！ 毕竟光有聪明大脑不够，还得配个灵活身体——未来某天，你可能会看到商汤牌的机器人，一边帮你拿外卖，一边和你讨论哲学。

总结： 现在的机器人还在”幼儿期”，但有了世界模型+多模态大模型，它们正从”人工智障”迈向”人工智能”。说不定下次你骂它笨的时候，它会回怼：”你的数据量还没我十分之一大呢！”*

具身智能是具像化的智能体

机器人要统治地球了？不不不，它们只想跟你聊八卦！

最近”具身智能”这玩意儿火得一塌糊涂，技术突破跟放鞭炮似的，噼里啪啦停不下来。那么问题来了：等这些机器人”长大成人”了，我们的生活会不会变得像科幻片一样？

社交达人2.0版要来了！*

王晓刚表示：”以后你的朋友圈可能会多几个不是人的’朋友’——没错，就是机器人！它们不仅能搬砖，还能陪你唠嗑，更可怕的是它们记性超好。你上个月跟男朋友吵架说的气话，它可能还记得一清二楚…”
想象一下：你家的扫地机器人一边拖地一边跟你讨论昨晚的电视剧剧情，洗碗机在你做饭时给你讲冷笑话。这画面，是不是觉得智能音箱突然就不香了？

机器人家政天团出道！*

现在的家电都太”专一”了——空调只会制冷制热，洗衣机只会洗衣服。但未来的机器人管家可就厉害了：

早上叫你起床

给你做早餐

顺便给猫主子铲屎

还能在你上班后偷偷打扫卫生

甚至…监视你有没有乱扔袜子？

商汤的”机器人脑补计划”*

商汤最近搞了个”悟能”平台（这名字一听就有福气）。王晓刚解释说：”我们不想造钢铁侠的外壳，只想给机器人装个’超强大脑’。”
这个大脑可不得了：

自动驾驶技术教机器人认路（免得把你家茶几撞了）

世界模型让机器人理解人类的世界（终于知道为什么你会对着手机傻笑了）

还能把你的家、办公室和车串联起来（想象你的机器人开着你的车去上班…等等，这好像不太对？）

未来的生活：机器人在左，生活在右*

关键是，这些机器人记性特别好：

知道你总把钥匙放哪

记得你妈妈的生日

甚至…知道你偷偷点了多少次外卖？

王晓刚总结说：”虽然机器人现在还不能帮你写作业（未来没准儿可以），但每进步一小步，都可能带来巨大的改变。”
所以问题来了：准备好和机器人做邻居了吗？它们可能很快就会敲开你家的门——用机械手端着刚烤好的饼干那种。

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

对话百度文库：不做大模型能直接做的事，能力积累换来竞争壁垒｜AI产品Time

# AI # AI新闻 # AI资讯

2个月前

400

华人团队终结Token危机：扩散模型数据潜力超自回归三倍

# AI # AI新闻 # AI资讯

2个月前

2,7500

Notion CEO Ivan Zhao：好的 AI 产品，做到 7.5 分就够了

# AI # AI新闻 # AI资讯

2个月前

370

谷歌Pixel发布汇总：硬件与软件全面AI化，那谁你就学叭

# AI # AI新闻 # AI资讯

2个月前

9,9180

商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

具身智能「脑洞」大战：AI 的下一步是「包租公」还是「管家」？

AI界的「大脑选秀」节目开播了！

「谁先让AI学会摆烂，谁就赢了」

终极问题：AI会先学会泡茶，还是先学会敷衍人类？

当机器人学会”看”世界后，它们竟然在想这些…

具身智能来势汹汹，但数据缺乏是「硬伤」

机器人开始”接地气”，量产元年为何在此刻？

硬件与技术：从”翻跟头”到”自主思考”

大模型的三大突破：导航、交互与操作

智能化的三个层级：从”死记硬背”到”自我进化”

挑战：通往通用智能的”绊脚石”

机器人为何总在”手舞足蹈”？解码AI时代的”帕金森”难题

机器人手抖的真相大揭秘

大脑和小脑的”双人舞”

两大核心难题

为什么有些Demo能成功？

规模化应用的噩梦

世界模型，加快 AI 从数字空间迈进物理世界

自动驾驶：从”人工智障”到”具身智能”的奇幻冒险

自动驾驶的青春期躁动

世界模型：自动驾驶的”元宇宙”

汽车：未来的”变形金刚”？

“开悟”模型的黑科技

“悟能”具身智能平台——让机器人学会”滚键盘”的艺术

一、速度即金钱，算力即生命

二、机器人世界的”缺粮危机”

三、”悟能”的绝招：合成数据工厂

1. 3D 世界的”乐高大师”

2. 战略意义

黄瓜终结者的内心独白

机器人进化论：从”盲人摸象”到”眼观六路”

第一视角 vs 第三视角：机器人终于学会”偷看”自己了

机器人统一大业：为啥它们还像个「拼装玩具」？

「悟能」vs 其他「机器人大脑」：差别在哪儿？

厂商合作模式：「大脑租借服务」

具身智能是具像化的智能体

机器人要统治地球了？不不不，它们只想跟你聊八卦！

AI应用如何落地政企？首先不要卷通用大模型

AI 卷完生产力，下一个万亿战场：情绪陪伴市场

相关文章

对话百度文库：不做大模型能直接做的事，能力积累换来竞争壁垒｜AI产品Time

华人团队终结Token危机：扩散模型数据潜力超自回归三倍

Notion CEO Ivan Zhao：好的 AI 产品，做到 7.5 分就够了

谷歌Pixel发布汇总：硬件与软件全面AI化，那谁你就学叭

暂无评论

搜索文章

热门文章