9
0

腾讯张正友:具身智能必须回答的三个「真问题」

“腿脚利索”的AI?腾讯Tairos:七年”机器人训练营”终于开班啦!

  • 当AI学会”搬砖”:揭秘腾讯的具身智能开放平台

    7月27日这个黄道吉日,腾讯突然宣布:”我家AI不光会写诗画画,现在还能帮你搬砖了!”——隆重推出具身智能开放平台Tairos。这可不是普通的AI工具箱,而是个自带大模型、开发工具和数据服务的“机器人保姆套餐”,专门用来喂饱那些嗷嗷待哺的具身智能项目。

  • 腾讯的”七年机器人训练营”

  • 毕业生名单:从用四条腿跳踢踏舞的Max,到能玩滑板的花式机器人Ollie,再到号称”机器界钢琴家”的TRX-Hand灵巧手,最后是被同事偷偷吐槽”长得像扫地僧”的小五——这些可不是玩具,全是腾讯Robotics X实验室七年憋出来的黑科技
  • 训练日志:为了教会AI认路、搬砖、做家务,实验室把感知能力、规划能力、控制技术、硬件设计全撸了一遍,堪称机器人界的”新东方烹饪学校”。
  • 为什么突然搞开放?张博士的三大灵魂拷问

    发布会后,腾讯首席科学家张正友博士(江湖人称”机器人教父”)接受采访时,给出了三个比哲学命题还深刻的回答:

  • 架构问题:”你以为AI装个机械臂就叫具身智能?太天真了!我们得先给机器人搭个能思考的脚手架。”
  • 原理问题:”让AI学会’左手画圆右手画方’?这得从脑科学抄作业,不是随便写几行代码就能搞定。”
  • 定力问题:”都知道这是风口,但腾讯选择先当七年扫地僧——毕竟会飞的猪摔得最惨。”
  • 行业影响:从此AI不光会聊天,还会帮你拿外卖?

  • 对开发者:再也不用从零造轮子(字面意义的轮子!),Tairos直接把腾讯的”机器人私教课”打包外卖。
  • 对吃瓜群众:未来你骂”智障机器人”时,它可能会用TRX-Hand灵巧手给你比个中指——这都算在张博士说的”生态布局”里。
  • 最骚的是*:当其他公司还在争论”具身智能该长几条腿”时,腾讯直接把七年家底摆上货架:”甭吵了,先试试我家方案?”
  • 端到端 vs 分层:

    为什么说分层架构是当下更务实的路径

    具身智能:大脑与小脑的奇妙双人舞

    1. “分层”还是”端到端”?这是个问题

    想象一下,你面前有两台智能体:

  • 端到端型选手:一位坚信”一通百通”的天才少年,啥都要从头学起,连走路都得自己琢磨。
  • 分层架构老哥:一位信奉”术业有专攻”的老师傅,把任务拆成几块,不同的小弟各司其职,比如”看路小弟””决策大哥””动手达人”。
  • 理论上,如果端到端少年能吞下无穷无尽的数据,那他迟早也会自发学会分层,就像你的大脑最终学会了骑车、打字、甚至边走路边玩手机(别告诉我你没干过)。
    但问题是——哪有那么多数据?端到端少年的训练成本堪比养一只”吃数据的饕餮”,而分层架构老哥则灵活得多:”不用那么累,我这里已经整理好了任务清单。”
    所以,分层不是”最优”,而是聪明的妥协

    2. “小脑”的秘密:犯了错千万别让”大脑”知道?

    在人类身上,”小脑”负责让你走路不摔跤,”大脑”负责思考”今晚吃啥”。而在智能系统里,SLAP³架构也是这么玩的:

    角色分工

  • 右脑(感知模型):负责眼睛一瞪,”这是个杯子!还是陶瓷的!易碎!”
  • 左脑(规划大模型):负责深思熟虑,”如何端着这杯水穿过人群还显得优雅从容?”
  • 小脑(感知-行动联合模型):负责条件反射,”杯子要掉了!快握住!”
  • 有趣的是,”小脑”会偷偷犯错——比如有一次它以为快速握住杯子的正确方式是捏扁它,结果水洒了一地。但它很快调整了自己的”肌肉记忆”,而这个经验如果特别有用,就会被悄悄打包交给”大脑”存档,下次遇到类似情况,”大哥”就不会犯同样的错误。

    3. 边界是死的?不,它们也在”谈恋爱”

    分层架构的边界不是铁板一块,而是动态变化的协作关系

  • 紧急情况(比如突然踩到香蕉皮):右脑→小脑,”别管思考了,先稳住再说!”
  • 复杂任务(比如端茶穿过舞池):左脑→右脑→小脑,”先规划路线,再控制步伐。”
  • 未来,”左脑”和”右脑”的界限可能越来越模糊,就像人类的大脑——当你熟练掌握了某项技能(比如骑自行车),你的”思考”就会退居二线,变成下意识的肌肉控制。

    总结:分层架构,一场”分工合作”的艺术

    现在的分层架构,说到底是一种高效的学习策略,因为它:

  • 降低了学习难度(各模块专精于某一项技能);
  • 提高了反应速度(紧急情况下小脑能自己拿主意);
  • 实现了经验共享(犯错后还能偷偷攒经验值)。
  • 未来的智能体或许能完全”端到端”,但现在嘛……还是先让”小脑”好好练练抓杯子吧!
    P.S. 如果你的AI在家摔碎了杯子,别怪它——它可能正在努力学习”人类式优雅握杯”呢!
    腾讯张正友:具身智能必须回答的三个「真问题」

    当机器人学会”记仇”:腾讯SLAP³体系的奇妙进化论

    一、”机器人也是会记仇的”

    腾讯 Robotics X 实验室的最新成果 SLAP³ 体系,让机器人不仅会做事,还会记仇——没错,我说的就是那个在厨房里不小心把杯子摔碎的尴尬瞬间。

  • 小脑(底层模型):负责”肌肉记忆”,摔了一次杯子立刻记住:”下次拿光滑的杯子要握紧一点!”
  • 右脑(上层模型):则会总结经验:”原来这种杯子在特定角度下容易滑落,以后要避免45度角拿杯。”
  • 记忆库(桥梁):就像机器人的”黑历史”存档,下一次遇到类似情况,直接调用经验,不会再犯同样的错。
  • 这样一来,机器人不仅能干活,还会“吃一堑长一智”,下次可能还会吐槽人类:”主人,你怎么又把杯子放这么边缘?”

    二、”今天聪明,明天可能变傻?”

    张正友博士的SLAP³体系最有趣的一点是——它能自己吐槽自己! 今天的先验知识,明天可能就被证明是错的:
    “上次还觉得塑料杯子不容易碎,结果摔了一下发现还是会裂开……好吧,更新一下认知。”就像Transformer模型,最初只是用于翻译,后来进化成了ChatGPT的神级架构。机器人也不可能一步登天,必须一步步“边犯错边升级”

    三、”动物不用语言,为啥人类偏要翻译?”

    目前的AI有个问题——啥都要翻译成文字

  • 人类世界:”这只杯子会滑,小心拿。”
  • AI的世界:要先把视觉信号转成文字,再把文字逻辑转成动作。
  • 结果:就像用谷歌翻译两次聊天——信息全丢了!
  • 真正的具身智能应该像动物一样,直接用视觉、触觉、听觉学习,而不是拐弯抹角地翻译成人类的语言。

    四、”为什么不直接‘梭哈’海量数据?”

    有人问:”既然最终目标是海量数据训练的原生多模态模型,为啥不一步到位?”
    张正友博士的回应很精妙:
    “你想直接去火星?先学会回收火箭赚钱吧!”

  • 马斯克的套路:靠星链赚钱→研发可回收火箭→最终冲向火星。
  • 腾讯Robotics X的套路:先分层优化→收集真实数据→最终跑通端到端学习
  • 不然就像让刚学走路的小孩直接参加马拉松——不摔死才怪!
    所以,分层架构不是绕路,而是“边赚钱边搞大事”的科学策略!

    五、总结:机器人也在”打怪升级”

    腾讯SLAP³体系的精髓就是——

  • 犯错 → 记录 → 进化 → 变得更聪明 → 继续犯错*
  • 这不就是人类的成长过程吗?看来机器人不仅在学习如何做事,还在学习如何成长
    或许某天,AI看到人类犯错,会摇摇头说:
    “又来了,这个错误我100年前就记录过了……”

    为什么说「身脑融合」

    是具身智能的第一性原理

    科学家说:真正的机器人不能像”无头苍蝇”一样乱跑

    最近科学家张正友在讨论”具身智能”时,提出了一些有趣的观点,让我们用更接地气的方式理解这个高大上的概念。

    什么不是具身智能?

  • “头掉了还能走”型机器人:想象一下,如果一个机器人的脑袋被撞掉了,它还像没事人一样继续溜达,那它肯定不是”真智能”。真正的智能应该能大喊:”啊!我瞎了!我得停下来!”(当然,前提是它有嘴巴)
  • “断手还要开门”型机器人:如果机器人手臂断了,还在那儿傻乎乎地重复”开门”动作,那它只是在执行预设程序,而不是真的”知道自己残废了”——就像某些人手机没电了还在不停戳屏幕一样执着。
  • 真正的具身智能=懂身体+懂环境+懂任务

    它得像个武林高手一样,把”我要拿冠军”这种抽象目标,拆解成”跳板起跳→空中转体→落水水花消失”这种具体动作。换句话说,它不能光有”大脑”,还得真的懂怎么用”身体”配合。

    人类VS机器人:跳水运动员的启示

  • 学习阶段(系统2主导):就像新手学跳水,教练在旁边喊:”手伸直!腿并拢!”运动员满脑子都是”我现在该做什么?”(类似机器人初期需要大量编程调整)
  • 熟练阶段(系统1接管):练成后,运动员肌肉记忆自动执行动作,根本不用想(就像机器人后期能”条件反射”般完成任务)。
  • 不过最关键的是:跳之前的”心理模拟”。运动员站在跳板上的时候,不是发呆,而是在脑子里快速”播放”一遍动作流程——就像你在考试前疯狂脑补”待会儿怎么答题”一样。

    机器人心里的”小电影”

    有人问:”这种脑内模拟是不是就像视频生成AI?比如现在很火的Sora?”科学家表示:

  • 目标不同
  • 具身智能的规划是保命技能(就像你得先学会走路才能生活)。
  • 视频生成是”才艺表演”(没人要求你必须会拍电影才能活下来)。
  • 视角不同
  • 运动员脑补的是第一人称:”我该怎么转体?”(不会管观众席谁在抠鼻子)
  • 视频生成是第三人称:”整个场景看起来要合理”(连背景里蚂蚁有几条腿都得算清楚)
  • 换句话说:能拍电影不代表会跳水,能跳水也不一定会拍电影。*
  • 终极结论

    未来的机器人得学会两件事:

  • 知道自己有几斤几两(断手断脚要马上察觉)
  • 脑补动作但不纠结细节(规划时不用想象观众穿什么颜色的袜子)
  • 总之,真正的具身智能应该是——有自知之明的实干派,而不是只会幻想的艺术家。

    喧嚣赛道上的创新定力:

    为何要对商业化说「不」

    疯狂科学家日记:AGI之路上的诱惑与坚守

  • 某年某月某日 天气:AI多云转人工智障*
  • 今天又有人问我:”张博士,具身智能这么火,你们腾讯 Robotics X 为啥不赶紧变现啊?”
    我扶了扶眼镜(其实我没眼镜,但科学家不扶眼镜显得不够专业),深沉地回答:”年轻人,你以为我不想吗?但科学家的定力,就像减肥时的炸鸡,闻着香,但要忍住啊!”

    1. 人才和资本涌入:好事还是坏事?

  • 好消息:一堆天才和钱冲进来,简直像超市限时促销,疯狂进货!
  • 坏消息:有些人已经开始”落地为王”,恨不得把实验室的扫地机器人都包装成”颠覆性智能产品”。
  • 我说:”朋友们,急着商业化可以理解,但别急着把‘智能垃圾桶’都贴上AGI标签啊!”

    2. 商业化诱惑:科学家也扛不住

    想象一下:

  • 科学家A:”我们的新算法能让机器人跳芭蕾!”
  • 投资人B:”啊?那不如先让它卖奶茶吧?利润高。”
  • 科学家A:”……”
  • 这种时候,”定力”就是你内心的小天使在呐喊:”别看眼前那几张钞票!想想星辰大海!”

    3. 腾讯 Robotics X 的自我修养

    我们实验室在过去7年里,做出了不少酷炫的玩意儿——比如能跳钢管舞的机械臂、会撒娇的AI狗。但我们忍住了!
    为啥?因为一旦商业化,我们就会陷入以下恶性循环:

  • 研发 → 2. 商业谈判 → 3. 写PPT → 4. 重复1-3步直到秃头
  • 这就像你想减肥,结果天天被拉去吃火锅——最后不是发明了AGI,而是发明了”如何在PPT里吹牛”。

    4. 真正的“陷阱”:短期利益 vs. 星辰大海

    说白了,科学家的定力就是:

  • 知道自己想要啥(比如AGI)
  • 然后不被忽悠偏离目标(比如拒绝让机器人改行去直播带货)
  • 就像我常对团队说的:”兄弟们,咱们的目标是让机器人统治世界……哦不,是让机器人理解世界!不是让它们先学会推销保险!”

  • 结论*:
  • 商业化不是坏事,但如果你真的想在AGI上搞点大事情,就得有”看着别人赚快钱,自己默默啃论文”的觉悟。
    (本文灵感来源于机器之心采访,但经过疯狂科学家的奇幻脑补)

    © 版权声明

    相关文章