132
0

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

蚂蚁AI团队的新赌注:让大模型”拼任务”也能赢!

PromptCoT 2.0:这次不是拼Prompt,是拼”任务拼图”

香港的小巷子里飘着蛋挞香,蚂蚁通用人工智能中心和香港大学的自然语言组(简称”团队”)默默掏出一张王牌——PromptCoT 2.0。他们宣布:”大模型的下半场,我们不玩’单挑’了,改玩’任务合成‘!”

为什么是大模型的”拼任务”时代?

  • 传统PromptCoT:”来来来,大模型,我给你一个指令,你给我好好推理。”(大模型:行吧……)
  • PromptCoT 2.0:”来来来,大模型,我给你一堆任务碎片,你自个儿拼成答案。”(大模型:不是吧?又来?!)
  • 团队发现,教会大模型拼任务,比教会它听从指令更难,但也更有趣——就像让一位吃瓜群众变成资深侦探,从破碎线索里拼出真相。

    下半场的赌注:谁才是任务合成之王?

    如果你以为大模型的竞争就是”谁能背更多书”,那就太天真了。未来的战场是:

  • 任务理解 不是听懂指令,而是理解”任务DNA”
  • 逻辑组装 把零散信息变成解题钥匙
  • 动态适应 别等着人类喂数据,要学会自己”淘金”
  • 团队微微一笑:”我们不押注数据量,我们押注合成力。”

    总结:这场大模型革命,拼的不是力气,而是脑子!

    蚂蚁AI团队这次的目标很简单:让大模型从”打工人”变成”任务导演”。至于效果如何?让我们拭目以待——也许下次你跟AI聊天时,它不会直接回答你,而是温柔地说:”要不咱们把问题拆开聊聊?”
    全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

    当AI开始”自嗨”式学习,小学生都能看懂的神奇突破

  • 最新研究发现:*
  • 30B-A3B模型通过一种名为”自嗨式学习”(人家专业术语叫自博弈训练,但我更喜欢这么叫)的方法,竟然在数学和代码推理任务上疯狂升级!

  • 具体表现为:*
  • 就像一个突然开窍的学渣,从”这题我不会”变成了”让开让我来”
  • 表现直接对标那些”别人家的孩子”模型(什么DeepSeek-R1-0528啦,OpenAI o3啦,Gemini 2.5 Pro啦)
  • 秘诀就是”强起点+强反馈”——俗称”高标准严要求”的训练方式
  • 通俗易懂的解释:*
  • 想象一下你玩王者荣耀,AI刚开始连防御塔是什么都不知道,后来它:

  • 给自己定个小目标(强起点)
  • 输了就罚自己做俯卧撑(强反馈)
  • 自己跟自己solo了无数局(自博弈)
  • 然后就…变成职业选手了?
    现在这个AI小朋友终于能和班上那几个学霸掰手腕了!
    全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

    PromptCoT 2.0:PromptCoT框架的一次全面升级

    大模型下半场的疯狂押注:从深度思考到任务合成的戏剧性转变

    那个让AI界集体失眠的9月

  • 一年前的这个时候*,整个AI圈简直就像一群熬夜赶deadline的研究生——大家都在纠结一个问题:”大模型到底该赌什么方向?”这时候OpenAI这个学霸淡定地掏出了o1预览版。好家伙!这货不仅学会了”深度思考”(而我们人类还在为早上要不要起床做思想斗争),更是在竞赛数学代码任务上把gpt4o甩出几条街。一夜之间,”深度思考”成了每个AI实验室的水晶球。
  • Agents时代的”抢凳子”游戏

    如今日历又翻到9月,蚂蚁和港大这对CP在大模型下半场突然押注”任务合成”。为什么?让我用一个不太恰当的比喻:AGI的发展就像一群人在玩抢凳子游戏,OpenAI吹哨说:”从Reasoners到Agents——跑!”于是乎各种Agent工作像雨后春笋般冒出来:

  • 搜索Agent:谷歌搜索的”超进化体”
  • 软件工程Agent:程序员们即将失业的征兆
  • 客服Agent:终于可以24小时忍受人类的奇葩问题了
  • GUI Agent:鼠标和键盘瑟瑟发抖中
  • 两大技术基石:强化学习和…?

    在这眼花缭乱的Agent大杂烩背后,两只”看不见的手”在操控着一切:

  • 强化学习:今年的顶流明星,享受着社区全部的关注和资源,简直就像AI界的Taylor Swift,每出一个新框架都能引发尖叫
  • [机密]:咳咳,另一个基石是什么?这就跟魔术师的秘密一样,不能说太细…(其实就是任务合成啦!)
  • 强化学习之年*的称号可不是白叫的,这技术现在红得发紫,方法和框架的迭代速度比大学生换男女朋友还快。至于任务合成嘛…看来这是要给大模型喂”复合维生素”,让它们从”单项冠军”变成”十项全能”!
  • 全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

    当AI遇上合成数据的烹饪大赛

    想象一下,大模型训练就像一场厨艺PK赛!

  • 主菜一:强化学习(RL)——这货是厨房里的高压锅,火力猛、效率高,能把食材(数据)炖得稀烂入味……但问题是,没有食材你炖个寂寞啊*?
  • 主菜二:任务合成——这就是AI界的预制菜流水线*!包括:
  • 问题合成(把“今天吃啥”升级成“如何在火星种土豆”)
  • 答案合成(AI自己编参考答案,甚至写歪理小作文)
  • 环境合成(比如让AI在虚拟世界里学吵架)
  • 评估合成(AI自己给自己打分,俗称“自嗨”)
  • 为啥要搞合成?

  • 现实世界的问题像麻辣火锅里的花椒——又长尾又复杂,捞都捞不完,数据根本不够涮
  • 等AI越来越聪明,合成数据可能会取代人工数据,就像机器人厨师淘汰人类切菜工……(瑟瑟发抖)
  • 团队的骚操作

    他们选了问题合成当突破口,因为:

  • 任务合成这课题大得像满汉全席,得慢慢啃;
  • 问题合成是基石,就像学做菜先得学会煮开水。
  • 今年初,他们还搞了个PromptCoT框架,硬给问题合成加了“推理步骤”——相当于让AI边做题边念叨:“首先,我得理解题目……然后,假装我会做……”(演技派AI诞生了!)

  • 未来展望:强化学习是引擎,任务合成是汽油,AI开着这辆改装车,迟早冲出数据荒漠,直奔人工智障…啊不,人工智能的星辰大海!*
  • 全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

    当AI也开始做”俄罗斯套娃”:PromptCoT 2.0的奇妙冒险

    一部人工智能版的”套娃”生产指南

    我们的技术团队最近开发了一套令人眼花缭乱的”AI套娃”生产线,具体工序如下:

  • 概念抽签环节
  • 就像从魔术帽里拽兔子一样,先把各种数学概念拽出来。

  • 逻辑拼图时间
  • 把这些概念像乐高积木一样拼接组合。

  • 问题生成车间
  • 用Llama3.1-8B这台”问题制造机”哐当哐当生产训练数据。

    震惊!这个模型居然学会了”喝酒”

  • 我们用这些”合成酒”(400k SFT数据)灌醉了DeepSeek-R1-Distill-Qwen-7B模型
  • 醉醺醺的它在MATH-500、AIME 2024和2025考试中
  • 把32B的s1模型喝趴下了!*
  • 灵魂拷问时间

    我们团队一边喝着咖啡一边思考这些哲学问题:

  • PromptCoT能不能像瑜伽大师一样变得更柔韧?
  • “人造”问题到底能不能打败”人制造”的问题?
  • 如果SFT是把强模型的”精华”蒸馏给弱模型…
  • …那强模型喝了这么多开源”补品”后还能更强吗?
  • 隆重推出:PromptCoT 2.0 —— 不用人工的”人工”智能

    这个升级版就像是给AI装上了永动机:

  • 用EM循环代替人工设计
  • 推理链像滚雪球一样越滚越大
  • 生产的问题不仅更难,而且更多样
  • 就像是让AI学会了”左右互搏”!*
  • PromptCoT 2.0在1.0基础上完成了:

  • 效果升级(考试分数更高)
  • 方法升级(更自动化)
  • 数据升级(更难更丰富)
  • 简而言之:让AI自己教自己变得更聪明!*
  • 效果升级:强化学习+SFT,强弱模型齐起飞

    知识蒸馏的魔术:PromptCoT 2.0如何变废为宝?

  • 我们都知道*:
  • 强推理模型就像班上的学霸
  • 弱推理模型嘛…就是上课总爱打瞌睡的那位
  • 但是!PromptCoT 2.0这位”家教老师”最近有了新花招!

    神奇实验剧场

  • 第一幕*:学霸的”考试秘籍”
  • PromptCoT 2.0 + RL = 推理界的”独孤求败”
  • 考满分已不能满足它们了
  • 转折来了*:
  • 这位学霸最近养成了一个奇怪的习惯——开始自问自答!它合成的问题:

  • 比老师出的还刁钻
  • 比奥数题还烧脑
  • 关键是…它自己还给出了解题步骤!
  • 第二幕*:”学渣”的逆袭
  • 我们把学霸这些”怪异自言自语”的录音偷偷塞给班上那位总是打瞌睡的同学。结果呢?
    这位同学突然就…

  • 支棱起来了!
  • 推理能力蹭蹭往上涨
  • 连最讨厌的数学题都能解了
  • 效果揭秘

    原来PromptCoT 2.0合成的问题简直就是知识蒸馏的”十全大补汤”

  • 问题质量:像是米其林三星大厨特制的”推理套餐”
  • 解题思路:连刀工火候都展示得一清二楚
  • 泛化能力:吃下去的都能长成自己的”肉”
  • 最绝的是:这套方法让弱模型实现了“曲线救国”*,不需要强求硬核训练,照样能get到推理的精髓!
  • 彩蛋

    想象一下未来的教室:

  • 学霸AI负责出各种”变态”问题
  • 学渣AI喝着”知识蒸馏咖啡”慢慢进步
  • 而人类老师们…终于可以放松一下了!
  • 全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

    人工智能的”作弊小抄”大公开!

  • 简直不敢相信!* 这个PromptCoT 2.0就像给AI小学生塞了一份”三年高考五年模拟”,效果堪比偷看学霸作业!
  • 来看看这神奇的变化:*
  • 数学推理能力:突飞猛进,简直像吃了菠菜的大力水手
  • 代码编写水平:从”Hello World”直接晋级为”Hello Senior Developer”
  • 最神的是:完全不需要人类老师盯着做题!(人类教师纷纷表示失业焦虑)
  • 这究竟是怎么做到的?*
  • 原来研究团队搞到了”超级家教”——一个叫GPT-OSS-120B-medium的老师。这位AI老师的教学特色是:

  • 废话少说:推理过程言简意赅
  • 效果拔群:短小精悍但成效显著
  • 慷慨大方:直接把478万道”考试题库”公开了!
  • 最绝的是*:
  • 这些题目难度升级,专治各种AI学渣
  • 每道题都自带参考答案,堪称AI界的《五年高考三年模拟》
  • 特别提示*:这套题库对于某些”注意力不集中”的AI模型(说的就是你,扩散语言模型!)简直是一剂良药!
  • 全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

    PromptCoT 2.0:一场AI界的”脑筋急转弯”大赛

    当AI遇到”钉子户”题目

  • 即刻正确率跳水:就像让一个习惯小学数学的大学生突然面对高等代数——PromptCoT 2.0当场表演了个”笑容逐渐消失”,正确率比坐过山车下降得还刺激。
  • 推理token疯狂燃烧:模型的”脑细胞”(token)消耗量直线上升,活像小学生做奥数题时草稿纸的消耗速度——这哪里是在解题,分明是在上演《黑客帝国》里的数据洪流!
  • 咬合推理?不,是咬碎牙齿!

    这些题目就像是特别定制的”智力坚果”,硬是把模型的推理能力从”随便想想”逼到了”绞尽脑汁”模式:

  • 不是在解题,而是在掏空AI的家底
  • 不是在测试,而是在挖掘模型的”隐藏剧情”
  • 不是在评估,而是在看AI表演”绝地求生”
  • 结论*:PromptCoT 2.0这波操作,完美诠释了什么叫”不作死就不会死”——但偏偏就是这种”自虐式”评测,才能让AI的推理能力原形毕露!
  • 全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

    PromptCoT 2.0:从“困难+新颖”到自动进化

    1. 数据点都学会社交距离了?

  • 论文:*
  • “PromptCoT 2.0的数据点与其他开源题集(OpenMathReasoning等)在二维空间里不仅站得远,还形成了一个‘酷拽’的独立分簇!”

  • 人话翻译:*
  • 传统题库们聚在一起抱团取暖,像一群怕冷的企鹅。
  • PromptCoT 2.0 的数据点却高冷地站在角落,表示:“我不是来交朋友的,我是来给模型增加难度的。”
  • 结论:它不是老题库的复读机,而是 “困难+新颖” 题的批发商,专治AI过于自信的病!
  • 2. 方法升级:从人工调教到“AI互卷”

  • PromptCoT 2.0 的核心逻辑:*
  • E-step(逻辑强化):
  • “喂,这个逻辑不对!扣钱!”(通过奖励信号优化)
  • 目标:让生成的逻辑既能讲清楚题目概念,又 能撑起难题的骨架
  • M-step(问题进化):
  • 拿着“优化版逻辑”,转头就问:“用这个逻辑,能不能再编10道更难的题?”
  • 目标:不让问题生成模型躺平,逼它卷出新高度!
  • 对比旧方法:*
  • PromptCoT 1.0:靠人工提示和规则,像在教AI一步步做题。
  • PromptCoT 2.0:直接让俩AI互相督促,内卷到底!
  • 最终效果:*
  • 完全可自学(不用人类天天盯着)
  • 跨题型通杀(数学、推理、开放性问题随便来)
  • 生成更难(AI看了都会问:“这题是人出的吗?”)
  • 全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

    PromptCoT 2.0:当AI开始跟自己玩游戏

    1. 传统方法VS PromptCoT 2.0

  • 传统AI训练:*
  • “老师”(人类)教,”学生”(模型)学——SFT(监督微调)模式,主打一个”妈妈说这样是对的”式学习。

  • PromptCoT 2.0:*
  • 相当于让AI自己和自己下棋,不仅对弈还能复盘:”这步奖励+1,那步扣分!”。像极了人类打游戏时反复读档的行为——只不过AI更勤快,24小时不睡觉地玩。

    2. 强化学习游乐场

    PromptCoT 2.0兼容各种强化学习”游乐设施”:

  • PPO(近端策略优化):标准碰碰车
  • GRPO:加了安全带的升级版碰碰车
  • DPO(直接偏好优化):VIP贵宾通道
  • 重点是奖励信号兼容性强

  • 不需要学霸级的评分(GPT-OSS-120B)
  • 普通老师批改也行(Qwen3-32B)
  • 甚至允许”改卷手滑”(一定噪音)
  • 3. 自博弈的玄学妙用

    强基线模型的自我提升闭环

  • 生成问题 → 2. 尝试推理 → 3. 获得奖励 → 4. 修改动作
  • 活像人类:

  • 做错题 → 看答案 → 拍大腿 → 下次争取不错
  • 区别在于AI不会拍大腿(暂时)。

    4. 实验结果

    数学和代码实验证明:

  • AI通过自博弈*能达到”昨天的我打败今天的我”的卷王境界——虽然我们依然不知道它们私下有没有开吐槽大会。
  • 面向未来:从Reasoners走向Agents——问题合成×环境合成×多模态

    PromptCoT 2.0:大模型的进化之路才刚刚开始!

    尽管PromptCoT 2.0已经实现了史诗级升级,但在AI的世界里,这只相当于刚刚学会爬行的幼崽(虽然这个“幼崽”已经能解你的高数作业了)。接下来,研究团队打算让这个大模型变得更加强大,以下是他们未来的神奇计划:

  • 1. Agentic环境合成:让AI从“答题”变成“探索”

  • 你以为让它做题就够了?不!还要给它造一个世界
  • “AI工程师”即将上线:想象一下,AI不仅能写题,还能自己搭建网页、调试API、玩转GUI,甚至能在代码沙盒里疯狂折腾!
  • 反思+操作=真正智能:我们希望它在可交互的环境里学会规划、实操、事后甩锅(划掉)反思
  • 2. 多模态任务合成:当AI学会“看图说话”还不够

  • 光是文字已经不能满足它了,现在它要视频、表格、语音甚至表情包统统吃掉!
  • 跨模态推理=AI界的“通才”:以后它的任务可能是这样的:“根据这张图+这个表格+这段录音+你的心情指数,告诉我怎么安慰一个程序员。”
  • 工具使用?它能同时编程库、语音识别+视觉识别,简直是个AI版的瑞士军刀
  • 3. 自奖励 & 对局式自进化:让AI打怪升级

  • 自奖励?不就是AI版的“自我PUA”?——“你做得好?奖励自己多做一道题!”
  • 博弈式外循环:团队正在玩“出题者 vs. 解题者”“执行者 vs. 评审者”的对决游戏,AI开始自己和自己起来了!
  • 未来版PromptCoT会不会自己给自己出论文?(学术圈瑟瑟发抖)
  • 时间紧任务重,但……值得!

    虽然PromptCoT 2.0刚发布,但下一个版本已经在路上了!研发团队不是在赶论文,就是在赶实验的路上
    这篇论文的第一作者是香港大学计算机系博士生赵学亮(目前正在蚂蚁技术研究院折磨AI模型),还有蚂蚁技术研究院的武威、关健、龚卓等大牛共同贡献。让我们一起期待PromptCoT未来如何继续碾压我们的智商!

    © 版权声明

    相关文章