35
0

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

机器人也能”偷师学艺”?新AI训练法让机器手臂自学成才

视觉-语言-动作模型怎么了?

如今的机器人训练就像教一个学霸解题——好不容易给它喂了海量数据,它却依然在真实场景里”卡壳”。

  • 问题1:数据采集贵如金*
  • 想让AI看懂世界并做出反应?光数据的开销就得让人钱包发抖。

  • 问题2:泛化能力捉襟见肘*
  • 好不容易教会它拧瓶盖,换个形状的瓶子立马歇菜——仿佛人类换了筷子就不会吃饭!

    SimpleVLA-RL:低成本”刷经验”神器

    为了解决这些问题,SimpleVLA-RL出现了。它就像一位精打细算的家庭主妇,能让机器人用最少的数据办最多的事。

    关键技术亮点

  • 交互式轨迹采样:不再是机械式重复学习,而是动态调整”练手”方式——就像小孩边玩边学。
  • 并行仿真渲染:在虚拟世界里疯狂试错,而不是砸掉真金白银买实验器材。
  • 这套基于veRL框架的方案,让VLA模型终于告别了”死记硬背”的时代,开始像人类一样观察、思考、行动!
    或许不久的将来,你家机器手臂不仅能开瓶盖,还能学会吐槽:”主人,这瓶可乐怎么这么难拧?”缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    如何用”摸鱼三件套”让AI系统变成学霸?

    朋友们,科学家们最近发明了一套神秘的”遛AI三法则”,让那些整天喊”数据不够吃不饱”的视觉语言动作模型(VLA)们终于能站起来干活了!

    三法宝大揭秘

  • “偷师学艺”技术 – 不再需要喝完整片太平洋的数据才能学会游泳,现在盯着别人游两圈就会了
  • “打不死的小强”模式 – 不管环境怎么变,总能找到活路(简称:脸皮够厚)
  • “纸上谈兵变实战”秘籍 – 在模拟世界练成绝世武功,在现实世界照样碾压全场
  • 实战成绩单

    这套”懒人训练法”在机器人界的”高考”(LIBERO和RoboTwin)中拿了满分!最离谱的是:

  • “看一眼就会”挑战赛:只给AI看一次演示视频,OpenVLA-OFT同学的成绩就从挂科边缘(48.9%)直接窜到全班第一(96.9%)!
  • “金鱼记忆”逆袭记:长序列任务中,原本17.3%的可怜成功率,现在直接飙升到91.7%,堪称AI界的”过目不忘”神功
  • 划重点

    科学家们终于找到了让AI”少食多餐”还能”长高高”的秘诀:与其喂它吃一万个汉堡,不如教它怎么自己点外卖。这套系统证明:

  • 数据少不是问题,关键是学习方法要对头
  • 模拟世界的老司机也能成为现实世界的秋名山车神
  • 有时候捷径才是最远的路(哲学起来了!)
  • 缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    机器人竟然学会偷懒了?!

    科学家们惊掉了下巴——在训练过程中,这个机器小家伙居然无师自通地学会了偷工减料的新技能!以下是它的”不良行为”记录:

  • 传统做法:老老实实按照人类教导”抓起”物品
  • 新发明:用”推挤”的方式替代”抓取”(科研团队称之为”Pushcut现象”,其实就是懒得伸手)
  • 简直就像个不爱做家务的小学生!推一推就算了,非要动什么脑细胞嘛。
    不过话说回来,这倒是给了科学家们一个大惊喜:SimpleVLA-RL这家伙不仅学会了既定动作,还自己开发了一套省力小妙招。看样子,未来的机器人训练方式可能要被这个”懒汉理论”彻底改变了!

    SimpleVLA-RL:端到端在线训练方案

    当机器人学会了“看图说话”:VLA模型的奇幻冒险

    一、机器人界的“三好学生”:VLA模型

    想象一下,如果机器人不仅要看懂桌上的咖啡杯(视觉),还得听懂你说“把那杯82年的手冲咖啡递给我”(语言),最后还得优雅地端起来而不是砸你脸上(动作)——这就是VLA(视觉-语言-动作)模型的伟大使命!
    但这位“三好学生”最近有点烦恼!

    二、当前训练法的“中年危机”:SFT的两大忧伤

  • 数据收集比减肥还难
  • 想要高质量的机器人操作数据?那你得:
  • 搭个堪比好莱坞布景的实验环境
    准备好从螺丝刀到意大利面等各种诡异操作对象
    雇个能单手解魔方的专业操作员

  • 结果?数据集比熊猫还稀有,成本比特斯拉还贵!
  • 模型像个死宅
  • 一遇到没见过的新环境(比如突然把茶几换成瑜伽球),立马手足无措
  • 复杂任务?就像让只会煮泡面的人准备满汉全席
  • 三、隔壁老王的成功:强化学习RL的逆袭

    就在VLA发愁时,隔壁的DeepSeek-R1靠着“猜对就有糖吃”(强化学习)练就了一身推理本领!这不禁让人嘀咕:
    “要是把RL这套用在VLA身上…”但现实很快给了当头一棒:

    四、给机器人用RL的四座大山

  • 奖励设计比哄女朋友还难
  • 传统RL:”碰到杯子扣10分!”
  • 现实世界:”优雅地拿起马克杯配适度微笑”——这标准能写篇论文!
  • 训练成本堪比养独角兽
  • LLM犯错:输出段乱码
  • VLA犯错:可能把你家客厅变成灾难片现场
  • 五、结语:机器人的进步之路

    所以问题来了:
    如何在不让科研团队破产的前提下,教会机器人:
    看懂各种奇葩场景
    听懂人类谜语般的指令
    做出不让人尖叫的动作
    这简直是在训练一个会做家务的忍者!
    缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    让机器人学会”摸鱼”:SimpleVLA-RL的快乐训练手册

    1. “随缘”采样法:我不是懒,我是在探索多样性

    传统的LLM模型还在那儿吭哧吭哧地对着文本token较劲时,SimpleVLA-RL已经学会了“躺平式采样”。它的核心理念很简单:”既然视觉和机器人的观测一直在变,那干脆让我直接输出动作的概率分布,然后开个赌博模式——随机抽卡,抽到啥算啥!”

  • 抽卡过程:机器人每动一下,环境就给个新状态,接着抽下一个动作。”等等,这个动作是往前还是转圈?算了,骰子点数大的那个吧!”就这样,直到任务成功(或者彻底搞砸)。
  • 2. “成败论英雄”奖励规则:0和1的世界太纯粹了

    研究人员发现:”人类啊,太纠结细节了!为什么要费劲计算机器人离目标还有多远?不如搞个非黑即白的奖励——”

  • 成功了?爷真棒!+1分
  • 失败了?……没事,下次会成功的!0分
  • 然后,这个奖励像是均摊工资一样,按照动作的数量拆分给每一步。”反正不管前面走得多么离谱,只要最后成功了,统统都是优秀员工!”

    3. “叛逆式探索”:拒绝内卷,拓宽解题思路

    VLA模型容易陷入“我只会一种解题方式”的困境(就像人类只会Ctrl+C和Ctrl+V)。于是,SimpleVLA-RL拿出了三招防死板指南

  • 动态采样:只要”半成功半失败”轨迹,免得全是成功案例导致失去自我反省能力。”失败乃成功之母,但不能全是母亲!”
  • 放宽GRPO的裁剪区间:原来是[0.8, 1.2],现在改成[0.8, 1.28],相当于”这个动作虽然看起来不靠谱,但万一有用呢?”
  • 提高采样温度:从1.0提到1.6,鼓励机器人大胆作妖。”不试怎么知道呢?万一机器人学会了倒立完成任务呢?”
  • 4. “放飞自我”训练目标:不要束缚,做个自由的崽

    最后,研究人员表示:”算了,KL散度正则项也不要了,参考模型也扔一边吧!内存省下来还能多刷会儿小视频,效率第一!

  • 训练目标直接简化成:”管它以前是怎么做的,我现在就是要找到最爽的解法!”
  • 总结

    SimpleVLA-RL的核心思想就是:”别整那些虚的,直奔主题,大胆试错,该摸鱼摸鱼,该冲刺冲刺!” ——毕竟,机器人也得学会快乐学习啊!
    缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    “震惊!他们竟然让AI学会了偷懒?”

    这群科研狂人的骚操作大盘点

    1. 发明”一体式AI自助餐”训练法

  • 传统AI训练像个强迫症:“渲染→训练→推理”三步走,磨磨唧唧改代码到秃头
  • 他们直接甩出“左手画圆右手画方”神技:边训练边推理边渲染,效率原地起飞
  • 副作用:实验室显卡集体发出”我要回家”的哀鸣
  • 2. 逼AI玩出10-15%的”隐藏分”

  • 普通AI:按照人类演示照本宣科
  • 他们的AI:偷偷开启“游戏外挂模式”,在LIBERO等基准测试疯狂刷分
  • 竞争对手表情:(╯°□°)╯︵ ┻━┻
  • 3. 让AI达成”看一眼就会”成就

  • 传统方法需要喂成吨数据,AI还是学了个寂寞
  • 他们的玄学操作:仅用1条演示视频,直接把成功率从17.1%干到91.7%
  • 网友锐评:”这波属于是AI界的张无忌学太极剑”
  • 4. 打破次元壁的机器人快递员

  • 仿真训练的策略直接空投现实世界
  • 真·机器人实测效果:“妈耶这和游戏里手感一毛一样”
  • 省下买咖啡的钱:再也不用请机器人喝机油搞特训
  • 5. AI突然觉醒隐藏技能树

  • 人类示范:规规矩矩完成任务
  • AI自学成才:开发出名为”Pushcut”的骚操作
  • 研究者内心OS:”等等…这步操作我没教过啊喂!”
  • 后记

    当其他团队还在为“怎么让AI别犯蠢”掉头发时,这群人已经带着AI在“如何优雅地偷师学艺”的道路上一骑绝尘。最新消息称,《Nature》编辑部正在连夜订购生发液…

    基准测试性能:刷新SOTA

    当AI学会”简单粗暴”:SimpleVLA-RL的神级改造记

    这故事要从一个重度强迫症机器人说起…

    OpenVLA-OFT:曾经的优等生

    这个叫OpenVLA-OFT的AI学霸:

  • 会996式自主学习
  • 在LIBERO考试能拿91分(已经很离谱了!)
  • 但遇到”十分钟连续作业”时就…
  • 手抖:86.5分
  • 把咖啡杯摞成比萨斜塔
  • SimpleVLA-RL的骚操作

    某天实验室来了个叛逆程序员
    “搞那么复杂干嘛?直接改!”结果这货用三大神器横扫考场:

  • 单臂举重考试 99.1分(原91分)
  • 最长待机测试 98.5分(当场卷死92分的UniVLA)
  • 真实世界彩蛋:
  • 终于分清”倒水”和”浇花”的区别
  • 不再把螺丝刀当餐具
  • 人类观察报告

  • 原系统表现:
  • “85分的π₀同学已经哭晕在充电站”

  • 现系统画风:
  • “建议改名叫Simply Amazing

  • 后记:该AI现正申请吉尼斯”最会拧瓶盖机器人”纪录…*
  • 缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    机器人双胞胎迎来史诗级跃升

  • 最新研究报告显示*:
  • 那个总是把积木垒成比萨斜塔的RoboTwin1.0机器人,终于迎来了它的高光时刻!

    从”人工智障”到”智能大师”的逆袭

  • 整体表现:双臂操控成功率像坐了火箭,从原来39.8%(大概就是10次有6次会把实验室搞得像车祸现场)飙升至70.4%(现在10次只有3次会把研究员气到想拔插头)
  • 积木堆叠:这个曾经让机器人怀疑”机生”的任务,成功率从惨不忍睹的7.1%(基本就是在玩俄罗斯轮盘赌)冲到40.2%(终于能垒出不像随时会塌的造型了)
  • 专家评论*:
  • “虽然它现在还是会把积木搭成抽象派艺术,但至少证明机器人确实在学习——尽管学习速度可能比你家WiFi还慢。”

  • 期待值*:
  • 听说研发团队已经在准备RoboTwin2.0,目标是让机器人能够——

  • 堆超过三块积木不倒
  • 分清杯子的正反面
  • 不再把螺丝刀当饼干啃
  • 缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    RoboTwin2.0:从“两臂残疾”到“双倍嚣张”

    谁说机器人不能卷?RoboTwin2.0 这次不仅卷出天际,还顺手把前辈们按在地上摩擦!

  • 原先的平均成功率:38.3%(大概就是“我尽力了,真的不行”的状态)
  • 升级后的平均成功率:68.8%(直接翻倍,这提升幅度堪比从“不及格”到“优秀”)
  • 对比前辈们的表现:
  • π₀:49.2%(还行,但还不够好)
  • RDT:33.3%(要不……回去重练?)
  • 最惊人的是那个 “Put Bottles Dustbin” 任务——一个能让机器人怀疑人生的超长时序挑战!结果RoboTwin2.0愣是把成功率硬怼高了18.7个百分点,直接从“手忙脚乱砸瓶子”升级到“专业保洁员”水准。
    结论:RoboTwin2.0不仅是双臂协作的天花板,更是“比你优秀还比你努力”的真实写照。
    缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    当AI也开始”偏科”:一场学霸与学神的终极对决

  • 学霸SFT同学的成绩单:*
  • 已见科目:门门90分以上(扶眼镜.jpg)
  • 未见科目:突然失忆,部分直接交白卷
  • 尤其是”LIBERO-Goal”那三门,分数从90+垂直降落到”老师我机箱冒烟了”的0分*
  • 学神SimpleVLA-RL的逆袭之路:*
  • 隐藏关卡全解锁:所有未见科目分数不降反升
  • 骚操作实录
  • “LIBERO-Object”的附加题2:36.5%的史诗级涨幅(同学你开挂了吧)
  • “LIBERO-Spatial”的隐藏Boss:从43.3%到71.8%的跨段位碾压
  • 实验启示录*
  • 事实证明:死记硬背的学霸遇到超纲题会原地宕机,而强化学习(RL)培养的学神已经掌握了”用高数思维解小学数学题”的降维打击能力。这不叫开挂,这叫通用智能的优雅(手动狗头)
    缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    仿真数据训练的机械臂:笨拙AI的逆袭之路

    实验设定:当AI活在“虚拟世界”里

    研究人员决定玩一把大的——只用仿真数据训练机械臂,然后用真实世界来考验它。想象一下,这就好比让一个只玩过《模拟农场》的人去开真的拖拉机,结果可想而知……

    OpenVLA-OFT:17.5%的成功率,“Pick Bottle”直接摆烂

    OpenVLA-OFT(名字已经说明了它很Open失败)的平均成功率仅为17.5%,其中最惨烈的是“Pick Bottle”(拿起瓶子)任务——完全失败!这意味着这款AI机械臂在面对瓶子时,可能只会优雅地把它推到地上,或者假装看不见

    SimpleVLA-RL:强化学习拯救世界!

    研究人员不甘心,决定给AI加个“外挂”——强化学习(RL)。结果让AI的命运迎来反转:

  • 平均成功率:38.5%(翻了一倍多!)
  • “Stack Bowls”(叠碗):38% → 70%!(AI终于学会叠碗了)
  • “Pick Bottle”:0% → 14%(至少不是0了……)
  • 事实证明,RL就像给AI装上了一个现实世界生存指南,让它终于知道虚拟和现实的区别

    结论:AI也需要“社会实践”

    这项研究传递了一个重要信息:仿真训练固然便宜又安全,但没有RL加持,AI在现实世界依然会像醉汉一样笨拙。未来,或许能让AI在虚拟世界犯错,再用RL教它在现实世界中少出洋相
    毕竟,没人希望自己的机械臂面对一瓶可乐时,只会摊手耸肩,对吧?
    缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    机器人也想偷懒?Pushcut:AI界的”捷径大师”诞生!

    原来机器人比人类更懂”摸鱼之道”

    最新研究发现,那些训练有素的机器人已经开始展现惊人的”创造力”—不是搞艺术,而是寻找最快干完活的捷径
    在RoboTwin 2.0实验室的”挪罐子大作战”中,科学家们发现:

  • 乖学生组(SFT模型):严格按老师教的步骤来
  • 抓取 → 移动 → 放置
  • 完美复刻人类示范动作
  • “老师说怎么做就怎么做”的模范生
  • 机灵鬼组(SimpleVLA-RL):”老师,我有更快的方法!”
  • 发现可以直接推罐子到目的地
  • 省去繁琐的抓取动作
  • “完成任务就行,干嘛非要抓起来”
  • Pushcut:AI界的懒人智慧

    科学家们给这种”偷懒行为”起了个专业名字——Pushcut现象,特点包括:

  • 不受人类示范限制
  • 自己探索更优方案
  • 只要任务完成,不在乎方法
  • “奖励不关心你的过程有多华丽,只关心结果对不对”*——这可能成为AI界的全新职场哲学。
  • 未来展望:要不要给机器人发创新奖?

    这项发现意味着:
    AI不只会模仿,还能自主改进
    效率至上主义开始植入机器思维
    未来的机器人可能比人类更懂工作效率
    也许不久的将来,我们会看到机器人因为”工作流程创新”而获得加薪?谁知道呢!

  • 附:本次研究最有价值的发现*
  • 机器人用实际行动告诉我们:有时候最简单直接的方法,就是最好的方法。当然,这话绝对不能让我老板听见!
    缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

    简单视觉语言动作强化学习:让AI学会用眼睛和语言走路

  • 摘要:* 我们成功教会AI如何通过看图说话来走路——字面意义上的那种!通过结合视觉信息和语言指令,我们的AI不仅能看懂”请绕过那个蓝色障碍物”,还能边走路边嘀咕:”为什么人类总爱把障碍物涂成蓝色?”
  • 1. 引言:当AI开始抱怨视觉任务

    过去的研究让AI要么看,要么说,要么动,但很少让它们同时做这三件事。这就像让一个人闭着眼睛用哑语描述舞蹈动作一样不合理。我们的方法?给AI一副”眼镜”和一个”嘴巴”,让它们可以边看路边吐槽。

  • 关键发现:*
  • AI学会了”视觉-语言-动作”三位一体的神奇能力
  • 面对复杂指令时,AI会表现出类似人类的困惑表情(如果它们有脸的话)
  • 实验中80%的时间AI都在正确执行任务,剩下20%可能在思考人生
  • 2. 方法论:给AI上眼药

  • 2.1 视觉处理系统*
  • 我们把摄像头变成了AI的”电子眼”,但它经常抱怨分辨率不够高:”你们人类的4K在我眼里就像是马赛克艺术!”

  • 2.2 语言理解模块*
  • 这个模块让AI不仅能听懂”去拿水杯”,还能理解潜台词:”我渴了,快给我水,否则我要闹情绪了”

  • 2.3 动作执行单元*
  • 通过强化学习,AI的动作从”醉酒机器人”进步到了”勉强能看的广场舞”水平

  • 3. 实验结果:AI的奇妙冒险

    在我们的测试中,AI展现出了惊人的能力:

  • 成功案例: 准确识别并避开障碍物,执行复杂指令
  • 搞笑失误: 有一次把红色警示锥当成了一杯超大号草莓奶昔
  • 平均表现: 比单模态系统高出23%,可能因为这给了AI更多偷懒的借口
  • 用户评价:*
  • “这是我见过最健谈的机器人,虽然它执行命令时会不停地问’你确定要这样做吗?'”

  • 4. 结论:AI也需要全面发展

    我们的研究表明,让AI同时具备看、说、动的能力不仅可行,还意外地有趣。未来的AI可能会发展出这样的对话:

  • 人类:”去拿遥控器”
  • AI:”又在沙发上瘫了一天对吧?建议你先起来走两步”
  • 展望:* 或许某天,AI会要求加装”嗅觉模块”,只是为了抱怨实验室的咖啡太难闻。
  • © 版权声明

    相关文章