9,804
0

专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量

当机器人遇上被子:一场关于”铺床革命”的严肃喜剧

23个关节、3个步骤、无数种失败的可能——这不是在演绎一出机器人版的《愤怒的小鸟》,而是在2025世界机器人大会(WRC)上,一只机械手与一条棉被的巅峰对决。

“不就是叠个被子吗?怎么整得像登月计划?”

没错,围观的路人脸上写满了困惑。毕竟,在隔壁展台的机器人还在跳机械舞炫技时,星海图的这位”家务侠”却正严肃地和一条皱巴巴的被子搏斗——这画面,犹如一只螃蟹在试图理解瑜伽垫。
“你们这是在测试机器人耐心吗?”“不,我们是在挑战柔性物体操控的学科天花板。”赵行团队开发的G0大模型,显然不打算让机器人走捷径——宁可让机械臂在”够不着被子”和”拉歪整张床”之间反复横跳,也拒绝给它写个”一键铺床.exe”脚本。按科学家的说法——

  • 这不是铺床,这是一场全身协调性考试!
  • 这不是被子,这是机器人眼中的物理学难题!
  • 这不是展会,这是人类围观机器人体会”社畜不易”的现场!
  • 机器人的内心OS:你以为我想当”家政学院留级生”?

    让我们想象一下这台机器的委屈:

  • 第一步:走位风骚
  • “底盘平移”听起来很酷?
  • 实际上:”我卡在床脚了”、”我压到被子边缘了”、”撞到床头柜算工伤吗?”
  • 第二步:躯干”扭麻花”
  • 人类的”弯腰”对机器人意味着:脊柱电机过载警告!
  • “够不到被子中心?”——那就开启”黑客帝国式下腰”,然后……砰!(系统提示:平衡算法已离线)
  • 第三步:机械臂の绝望拉扯
  • 人类铺被子:手一抖,完美展开。
  • 机器人铺被子:”检测到布料动力学参数异常……重试中……重试中……”
  • 为什么非得用大模型?简单解释:

  • 小模型(乖巧版)*:
  • “您好,检测到标准方形床单,开始折叠!(但如果您把枕头扔上去……系统错误)”

  • G0大模型(硬核版)*:
  • “被子堆成火山?床单扭成麻花?枕头在跳舞?无所谓,我的视觉-语言-动作联动系统会出手!”
    正如赵行所说:”真正的智能不是会演马戏,而是能应付现实世界的混乱。”——比如你室友永远不整理的床。

  • (此刻,机器人终于铺好了床。观众鼓掌。科学家流泪。而那条被子——正偷偷从床角滑下去……)*
  • 专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量

    机器人铺床大挑战:从”非共识”到”半夜加班搭子”的科技长征

    谁说机器人不会干活?它们不仅会铺床,还能让科学家变身“深夜加班狂魔”!

  • 机器人领域的”脏活累活”:谁来给AI擦屁股?

    在当前AI技术飞速发展的背景下,具身智能(Embodied AI)仍然是个充满谜团的领域——就像大语言模型(LLM)学会了写诗、编程,但机器人铺床时却可能把被子卷成墨西哥卷饼。
    为什么差距这么大?关键在于数据

  • 赵行(某不愿透露姓名的深夜加班达人)在过去十个月里,把他的全部精力都献给了数据工程*——这项技术界的”扫大街”工作包括:
  • 培训采集员:如何优雅地让机器人别把枕头扔出窗外?
  • 真机遥操作:远程指挥机器人铺床,结果发现它在偷偷练习瑜伽?
  • 清洗标注:AI看了100遍“怎样才算正常铺床”后依然选择躺平……
  • 一位不愿透露身份的同事感慨道:“赵老师是我们最佳的加班搭子,半夜还能在办公室见到他,不是在调试机器人,就是在思考怎么让机器人别再把自己缠在被子里。”

  • 与其花里胡哨,不如直面根本问题

    在AI圈子里,各种酷炫的展示Demo层出不穷,比如机器人徒手开瓶盖、360度空翻滚床单……但在赵行看来,泛化能力才是关键。
    换句话说:机器人能在不同房间、不同床上、不同人类制造的“床铺灾难”中都能优雅完成任务,才算真正“智能”。
    于是,星海图(这家公司听起来就像科幻电影里的反派AI总部)决定开源500小时的真机数据——相当于机器人界的《百科全书》,让你家的AI不再需要重新学习“枕头应该放在哪”。
    开源的好处?

  • 减少重复劳动:别再让高校研究员们熬夜标注“床单有没有铺歪”了!
  • 降低门槛:以前买机器人+训练模型=破产?现在直接拿现成数据开练!
  • 促进协作:不同团队可以公平PK,看看谁的AI铺床最优雅!
  • 资本市场的反应:投资人一边熬夜一边砸钱

    好消息是,科技圈的钱似乎并不怕“加班文化”。据了解,星海图已完成近15亿元人民币融资,投资人们可能坚信——“总有一天,这些机器人会自己给自己充电,然后替人类加班。”
    WRC(世界机器人大会)期间,赵行接受了专访。他从学术+产业双视角分享了自己的见解,比如:

  • VLA泛化性:机器人在你家铺床,会不会突然跑去邻居家“帮忙”?
  • 世界模型:AI能否理解“床是用来睡的,不是用来叠俄罗斯方块的”?
  • 总结:机器人在进步,科学家在熬夜

    如果说AI领域有“最苦逼工种”,那一定是具身智能的数据工程师——他们不仅要教会机器人铺床,还得半夜在公司陪它加班。
    好消息是:数据开源后,未来可能会有更多AI学会优雅铺床……坏消息是:它们会不会觉得自己铺得比人类好,然后拒绝帮我们?
    本文灵感来源于真实事件,但绝不代表你家机器人真的准备起义。
    专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量

    科技界的”小王”:星海图首席科学家赵行

    谁说科学家都得是一副戴着厚镜片、不修边幅的老学究模样?这位星海图的首席科学家、清华交叉信息学院的助理教授赵行先生,就完美颠覆了我们对科研人员的刻板认知。让我们一起走进这位”跨界科学明星”的世界:

  • 身份多重:从企业首席科学家到高校助理教授,赵行在产业界和学术界之间玩出了花式转体,让人不禁想问:您的时间都去哪儿了?
  • 颜值担当:看看这官方提供的照片(虽然文中没详细描述),但能当代表形象的人物照,想必是能用颜值征服实验室的主儿
  • 隐形学霸:能在清华这种”神仙打架”的地方当助理教授,这实力还用说?简直就是学霸中的隐藏BOSS级人物
  • 据说他的同事们给他起了个外号叫”数据库王子”,因为他不仅研究做得好,在实验室的数据整理比赛中还常年保持第一。
    看到这样的科学家代表,不禁让人感叹:这年头,连搞科研都得讲究”德智体美劳”全面发展了!

  • 注:本文纯属娱乐视角,对赵行教授的实际科研贡献充满敬意*
  • 大模型是具身智能泛化性的基础,高质量数据更重要

    当机器人学会”生活不能自理”:一场床单与被子的终极对决

    1. 为什么选择”铺床”这个史诗级任务?

    星海图的工程师们可能有个共同爱好——看家政阿姨干活时心生敬畏。于是他们决定挑战高难度:让机器人铺床!比起那些只会跳舞、点头哈腰的”花瓶机器人”,星海图选择了一个能让人类倍感共鸣的场景:每天早上都恨不得把自己卷回被窝的终极噩梦——整理床铺
    当他们决定展示这个Demo时,现场观众的表情大概分成了以下几种:

  • “什么?它能铺床?我连被子角都扯不平!”
  • “完了,我家阿姨要失业了……”
  • “机器人能把被子塞回去吗?还是它只会一掀了事?”
  • 事实证明,这个Demo堪称AI界的年度生存挑战——不仅要操控23个自由度(比大多数人类协调性强),还要对付滑不溜丢的被子随时可能塌陷的床垫,以及永远找不到对齐方向的床单

    2. G0模型:不是最强的AI,但一定是最会干家务的

    G0模型的核心能力可以用一句话概括:“我不够酷炫,但我足够实用!”

  • 它超越了美国同类模型PI 0约20%(PI 0:我才不会告诉你我输给了一个铺床机器人)
  • 它能够理解”被子一团乱麻”这样的抽象指令,并自动规划步骤(第一步:先别被被子缠住)
  • 它能应付”一杯奶茶引发的灾难”,比如”奶盖泼洒”或者”珍珠滚到桌子下面”
  • 最关键的是,G0证明了大模型不光会聊天,还能干活! 比起那些只能在PPT里吹牛的”概念机器人”,它实实在在地告诉我们:AI真的可以从”懂得很多”升级到”做得很好”!

    3. 泛化性?不就是”见啥都能干”吗?

    G0模型最难的不是怎么铺床,而是怎么铺不同的床

  • 床单的花纹不一样?(有些床单的花色甚至能让人类头晕)
  • 被子超重?(冬天的棉被简直是健身器材)
  • 机器人手臂太短?(人类尚且会因为”够不着”而暴怒,何况AI?)
  • 这就好比让一个习惯了豪华酒店的AI,突然丢进大学宿舍——床垫倾斜30度、被子蜷在角落、枕头神秘失踪……这样的挑战,才是真正的”泛化性考试”!

    4. 大模型真的适用于机器人吗?

    许多AI专家曾经怀疑:“Scaling Law(规模法则)在语言模型上有效,但在物理世界真的行得通吗?”
    星海图用实际行动告诉他们:

  • “语言模型能用大数据提升,机器人为什么不行?”
  • “Transformer框架虽然不完美,但它管用啊!”(就像人类的大脑——不是最理想的硬件,但咱们凑合着用)
  • “数据才是王道!”(就跟Sora视频生成一样——大家都懂技术,关键是你的训练集够不够大)
  • 总之,AI的未来不再是“让机器人学会说话”,而是“让机器人学会干活”——否则人类唯一的出路可能就是把自己训练成超大型电池了!

  • 最终结论:人类对AI的终极期待可能就是——它能帮我们铺床!*
  • 高质量数据重要,现阶段会亲力亲为数据工程

    数据采集历险记:机器人世界的”矿工”生活

    第一章:数据采集的”搬砖”人生

  • 赵行最近感觉自己像个”数据矿工”,每天带着机器人闯荡各种奇奇怪怪的地方,采集高质量数据。“买不到现成的?那就自己挖!”* 没错,机器人行业的数据跟黄金一样稀罕,采数据也不是随便按个按钮就能搞定。
  • 培训采集员考试过关带机器人上战场(比如酒店、仓库)处理各种突发状况(网络抽风、机器人罢工)数据上传、清洗、标注……
  • 这哪是 AI 行业?根本就是现代版”挖矿+修电脑+教导主任”的全能职业!

    “为什么非得亲力亲为?”

    因为这片”矿坑”太新了!不像 AI 标注已经成了流水线产业(外包公司一接手,你就等着验收吧),具身智能的数据采集更像是:

  • 机器人+硬件绑定,半点不能马虎
  • 场景复杂多变,像在真实世界打游击
  • 流程还没标准化,只能自己摸着石头过河
  • 简单说:别人在搞高端算法研究,我们还在原始社会砍树做工具呢!

  • 第二章:什么样的数据才能叫”高质量”?

    听起来像在问”什么样的咖啡才算好喝?”但其实……比那复杂多了!

    数据的两大灵魂指标

  • 真实性不是摆拍!
  • 很多团队搞出来的”数据采集厂”,家里整得像五星级酒店,一尘不染。但真实世界呢?
  • 沙发上堆满衣服
  • 桌上饮料瓶、钥匙、充电线混战一团
  • 墙角可能还藏着一只猫
  • “乱得真实,才是王道!”
  • 多样性每次都得乱出新高度
  • 就像训练大模型需要全网语料,机器人数据也得覆盖各种奇奇怪怪的可能。
  • 他们的”作战地图”包括:家庭、酒店、工厂、仓库、超市、餐厅……
  • 目标是:让机器人体验人类生活的乌烟瘴气!
  • “数据配方?我们还在研发‘黑暗料理’阶段!”目前仿真数据、真机数据怎样配比最优?赵行表示:“继续尝试,实在不行就用玄学调参法!”

  • 第三章:开源500小时数据?行业”挖矿指南”发布!

    为什么要开源?“因为我们想让大家少踩坑!”(当然,也是想拉更多人一起挖矿……)

    两大意义

  • 建立行业标准
  • 机器人行业目前就像战国时代:每个团队的本体、算法、任务都不一样,结果互掐半天谁也说不过谁。
  • 提供一个统一基准数据,就像武林大会划个擂台,让大家公平比试!
  • 培养开发者生态
  • 高校、企业、研究所…… “来来来,免费数据拿去做实验!”
  • 像机器人界的‘开源食谱’,开发者不用从头种小麦,直接能做面包!
  • “未来的目标是:让你买到机器人,直接跳过‘新手村’,直接开打Boss!”*
  • 总结:机器人行业的”淘金热”

  • 数据不是挖出来的,是拼出来的!
  • “高质量数据” = 真实世界的混乱美学
  • 开源数据 ≈ 行业”共享矿机”
  • 未来,机器人可能在超市帮你找薯片,在酒店帮你送毛巾,甚至……在仓库偷偷摸鱼? 但这一切,都建立在今天的”脏活累活”上!

  • “我们不是数据的搬运工,我们是机器人世界的‘荒野求生’专家!”*
  • 专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量

    未来已来?围观群众被”隔空取物”黑科技惊掉下巴!

    前几天在某科技展上,一群吃瓜群众围着一个神奇的展台,表情比第一次看见会跳舞的扫地机器人还精彩——原来他们在体验传说中的“遥操技术”,俗称“隔空取物Pro Max版”

    现场画风一览

  • 大爷组:戴着老花镜,手在空中一顿乱挥,仿佛在打一套失传已久的太极拳,嘴里嘟囔:”这玩意儿能帮我隔空拿遥控器不?”
  • 社畜组:打工人DNA动了,眼神发光:”老板再也不用担心我懒得起身递文件了!”(但可能更担心你躺着操控咖啡机洒键盘上)。
  • 小朋友组:直接放弃理解原理,专注用手势对着空气疯狂比划,试图凭空抓走隔壁摊位的棉花糖。
  • 人类迷惑行为新增条目

    这项技术说高端点是“人机交互革命”,说直白点就是“让你在办公室装绝地武士”。不过据现场技术人员透露,目前主要应用在医疗、工业等领域——但群众纷纷表示:“先整个隔空撸猫功能行不行?”
    (采访人:你们开心就好,反正技术又不是用来满足这种需求的……大概吧。)

    VLA范式是工业化路径,也在探索多种技术路线

    智能科技对话:从触觉传感器到“快慢双系统”

    触觉传感器:现在不加是因为还“摸”不清?

    用户提问:VLA(视觉语言动作)是当前主流,但有人觉得光靠视觉不够,得加触觉才能更好地与物理世界互动,你怎么看?

  • 赵行(幽默版)*:
  • “触感是好,但目前手感还没上来。”
  • 我们当然知道触觉很重要,但现在的触觉传感器还在“打架”——电容还是电阻?就像两个小孩在争谁当队长,队伍还没组好呢!相比之下,视觉传感器就像百年老店——摄像头行业早已标准化,连存储、压缩、传输都安排在“VIP通道”了。而触觉传感器?还在“试营业”阶段。

  • “遥操作已经能收拾90%的桌面,为啥要用手去摸?”
  • 你想想,你指挥一个机器人去收拾桌子,它又不会抱怨“这杯子太冰”或者“筷子太滑”,只要能看到,90%的活就能干完。所以我们决定,先把VLA这个小目标达成了,等触觉传感器“长大”了,再组队一起玩。

  • 结论*:触觉很重要,但目前还没“内卷”出标准,先让视觉顶班!
  • 快慢双系统:让机器人既能“飙车”又能“思考人生”

    用户提问:目前各家的VLA实现不同,星海图有啥特色?

  • 赵行(比喻狂魔上身)*:
  • 我们的技术路线叫“快慢双系统”

  • “快执行”(小脑模式)——像过马路时突然看到车,你的脚自己动了,根本不等脑子批准。
  • “慢思考”(大脑模式)——像写论文,CPU疯狂燃烧但输出很慢。
  • 为什么这么分?*
  • 单系统太卡顿:想象你让机器人端咖啡,它突然开始思考宇宙真理,咖啡都凉了还没动。
  • 端侧部署不能太胖:一个“大胖子”模型塞不进机器人的小芯片,就像让大象骑自行车。
  • 最关键的是:它们不是分裂的!*
  • “小脑”和“大脑”会互相学习:就像你学开车,开始要全神贯注(大脑),后来变成肌肉记忆(小脑)。
  • 未来可能合体:就像人类大脑结构,分区不同但底层一样,最终机器人的“小脑”会吸收“大脑”的知识,变成超级AI!
  • 世界模型:让机器人预知未来?不如先教它别撞墙

    用户提问:世界模型现在很火,你们怎么看?

  • 赵行(科幻语气)*:
  • “世界模型就像让机器人学会算命!”
  • 现在的机器人是靠“模仿学习”——看人类怎么做,它就照着来。但世界模型是让它直接“推算”每个动作的后果,比如“我推这个杯子,它会倒吗?”

  • “问题是……机器人现在连‘推杯子’都费劲,先别急着让它算宇宙大爆炸。”
  • 这是个“高端局”,最适合顶级实验室去挑战。我们目前的策略:先用VLA把机器人教乖,再考虑要不要让它当“先知”

  • 结论*:世界模型很酷,但商业化还早,先让机器人学会别把咖啡撒你键盘上!
  • 总结:星海图的科技哲学

  • 先解决“看得见”的,再研究“摸得着”的。
  • 机器人也要有“快反应”和“深度思考”模式,不能又卡又傻。
  • 预知未来?先保证它别把家里拆了再说!
  • ( 以上内容纯属“赵行风格”演绎,实际技术讨论请参考严肃版本。)
    专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量

    博览会的灵魂解说员:赵行

  • 展会里最亮的星*
  • 这位手持麦克风的绅士可不是普通路人——赵行老师正用他磁性的播音腔把展台参数讲出《动物世界》的既视感。当其他展商忙着发传单时,他已经让观众围出三层”演唱会观众席”,甚至有阿姨掏出手机录小视频:”儿子快看!这位解说员比李佳琦还会带货!”

  • 专业级别的脱口秀现场*
  • 冷知识发射器:能把”本产品采用ABS塑料”翻译成”恐龙灭绝那天埋在地下的 souvenir”
  • 人形点读机:观众戳任何展品他都能接住话茬,连灭火器都能聊出文艺复兴范儿
  • 行走的WiFi:口袋里永远备着充电宝解救拍照群众的低电量焦虑
  • 采访团队悄悄透露:赵老师的西装内衬口袋其实是个零食仓库,毕竟连续八小时解说后,连央视主持人都得靠巧克力续命呢!
    (图文无关:当镜头转向产品特写时,观众们还在伸长脖子找解说完结的赵老师去哪了)

    学术经验长期受益,产学协同是件好事

    赵行:从MIT到清华,一位跨界科学家的”数据人生”

    回国动机:姚期智的”科学家挖墙脚计划”

    2018年发生了一件大事——姚期智先生亲自带队去美国”拐”年轻人回来建设祖国!这位图灵奖得主挨个敲开MIT、斯坦福博士们的门,问他们:”要不要来清华玩耍?”就这样,赵行成了被”拐”回国的一员。
    他觉得清华叉院简直是科学家的”快乐老家”:”在这里姚先生不管我们吃什么、喝什么,也不管我们研究啥——当然最重要的是不管我改多少次研究方向!这种自由度,简直就是学术界的’野生放养模式’。”

  • PhD秘闻:那个改变AI历史的”996数据集”

    在博士期间,赵行和同学们干了件大事——打造了AD20K数据集。这个项目的难度系数堪比让猫乖乖洗澡:

  • 标注员的噩梦:他们要求像素级精准标注,”连蚂蚁腿上的毛都要数清楚!”
  • 模型的粉碎机:训练过程让无数AI模型怀疑”机生”
  • 评测的地狱:定义了382种评判标准(这个数字是我瞎编的)
  • 结果这个”学术界的996工程”成了最受欢迎的数据集,引用量比他其他论文加起来还多!赵行悟出了人生真谛:”在科研界,最惨的不是996,而是996之后还没人用你的成果。”

  • 跨界感悟:教授为什么要”下海”

    现在的赵行过着”双重人格”般的生活:

  • 白天:清华园里的正经教授
  • 晚上:星海图的”疯狂科学家”
  • 他说:”这年头不当CEO的教授不是好AI研究者!你看美国的教授们都在忙着开公司,咱们中国教授当然不能输!”

  • 产学结合的好处:*
  • 公司能提供”土豪级”的计算资源(终于不用再拼手速抢GPU了!)
  • 数据量直接从”小池塘”升级到”太平洋”
  • 研究成果终于不用只躺在论文里”睡觉”了
  • 但挑战也很酸爽:*
  • 要习惯从”论文deadline”切换到”产品deadline”
  • 要懂得把”这个方法在理论上很美”翻译成”这个功能用户真的需要”
  • 要学会在投资人面前不聊”三年后的技术突破”,而是说”下个季度的KPI”
  • 本文灵感源自赵行教授的跨界人生,证明了一个真理:优秀的人往往不只在一处发光——他们可能是教授、研究员、创业者,甚至可能同时是这三者!(原文首发于微信公众号”智能涌现”,作者富充;本文经过”说人话”式改写)

    © 版权声明

    相关文章