蚂蚁AI团队的新赌注:让大模型”拼任务”也能赢!
PromptCoT 2.0:这次不是拼Prompt,是拼”任务拼图”
香港的小巷子里飘着蛋挞香,蚂蚁通用人工智能中心和香港大学的自然语言组(简称”团队”)默默掏出一张王牌——PromptCoT 2.0。他们宣布:”大模型的下半场,我们不玩’单挑’了,改玩’任务合成‘!”
为什么是大模型的”拼任务”时代?
传统PromptCoT:”来来来,大模型,我给你一个指令,你给我好好推理。”(大模型:行吧……)PromptCoT 2.0:”来来来,大模型,我给你一堆任务碎片,你自个儿拼成答案。”(大模型:不是吧?又来?!)团队发现,教会大模型拼任务,比教会它听从指令更难,但也更有趣——就像让一位吃瓜群众变成资深侦探,从破碎线索里拼出真相。
下半场的赌注:谁才是任务合成之王?
如果你以为大模型的竞争就是”谁能背更多书”,那就太天真了。未来的战场是:
任务理解 不是听懂指令,而是理解”任务DNA”逻辑组装 把零散信息变成解题钥匙动态适应 别等着人类喂数据,要学会自己”淘金”团队微微一笑:”我们不押注数据量,我们押注合成力。”
总结:这场大模型革命,拼的不是力气,而是脑子!
蚂蚁AI团队这次的目标很简单:让大模型从”打工人”变成”任务导演”。至于效果如何?让我们拭目以待——也许下次你跟AI聊天时,它不会直接回答你,而是温柔地说:”要不咱们把问题拆开聊聊?”

当AI开始”自嗨”式学习,小学生都能看懂的神奇突破
最新研究发现:*30B-A3B模型通过一种名为”自嗨式学习”(人家专业术语叫自博弈训练,但我更喜欢这么叫)的方法,竟然在数学和代码推理任务上疯狂升级!
具体表现为:*就像一个突然开窍的学渣,从”这题我不会”变成了”让开让我来”表现直接对标那些”别人家的孩子”模型(什么DeepSeek-R1-0528啦,OpenAI o3啦,Gemini 2.5 Pro啦)秘诀就是”强起点+强反馈”——俗称”高标准严要求”的训练方式通俗易懂的解释:*想象一下你玩王者荣耀,AI刚开始连防御塔是什么都不知道,后来它:
给自己定个小目标(强起点)输了就罚自己做俯卧撑(强反馈)自己跟自己solo了无数局(自博弈)然后就…变成职业选手了?
现在这个AI小朋友终于能和班上那几个学霸掰手腕了!

PromptCoT 2.0:PromptCoT框架的一次全面升级
大模型下半场的疯狂押注:从深度思考到任务合成的戏剧性转变
那个让AI界集体失眠的9月
一年前的这个时候*,整个AI圈简直就像一群熬夜赶deadline的研究生——大家都在纠结一个问题:”大模型到底该赌什么方向?”这时候OpenAI这个学霸淡定地掏出了o1预览版。好家伙!这货不仅学会了”深度思考”(而我们人类还在为早上要不要起床做思想斗争),更是在竞赛数学代码任务上把gpt4o甩出几条街。一夜之间,”深度思考”成了每个AI实验室的水晶球。Agents时代的”抢凳子”游戏
如今日历又翻到9月,蚂蚁和港大这对CP在大模型下半场突然押注”任务合成”。为什么?让我用一个不太恰当的比喻:AGI的发展就像一群人在玩抢凳子游戏,OpenAI吹哨说:”从Reasoners到Agents——跑!”于是乎各种Agent工作像雨后春笋般冒出来:
搜索Agent:谷歌搜索的”超进化体”软件工程Agent:程序员们即将失业的征兆客服Agent:终于可以24小时忍受人类的奇葩问题了GUI Agent:鼠标和键盘瑟瑟发抖中两大技术基石:强化学习和…?
在这眼花缭乱的Agent大杂烩背后,两只”看不见的手”在操控着一切:
强化学习:今年的顶流明星,享受着社区全部的关注和资源,简直就像AI界的Taylor Swift,每出一个新框架都能引发尖叫[机密]:咳咳,另一个基石是什么?这就跟魔术师的秘密一样,不能说太细…(其实就是任务合成啦!)强化学习之年*的称号可不是白叫的,这技术现在红得发紫,方法和框架的迭代速度比大学生换男女朋友还快。至于任务合成嘛…看来这是要给大模型喂”复合维生素”,让它们从”单项冠军”变成”十项全能”!
当AI遇上合成数据的烹饪大赛
想象一下,大模型训练就像一场厨艺PK赛!
主菜一:强化学习(RL)——这货是厨房里的高压锅,火力猛、效率高,能把食材(数据)炖得稀烂入味……但问题是,没有食材你炖个寂寞啊*?主菜二:任务合成——这就是AI界的预制菜流水线*!包括:问题合成(把“今天吃啥”升级成“如何在火星种土豆”)答案合成(AI自己编参考答案,甚至写歪理小作文)环境合成(比如让AI在虚拟世界里学吵架)评估合成(AI自己给自己打分,俗称“自嗨”)为啥要搞合成?
现实世界的问题像麻辣火锅里的花椒——又长尾又复杂,捞都捞不完,数据根本不够涮!等AI越来越聪明,合成数据可能会取代人工数据,就像机器人厨师淘汰人类切菜工……(瑟瑟发抖)团队的骚操作
他们选了问题合成当突破口,因为:
任务合成这课题大得像满汉全席,得慢慢啃;问题合成是基石,就像学做菜先得学会煮开水。今年初,他们还搞了个PromptCoT框架,硬给问题合成加了“推理步骤”——相当于让AI边做题边念叨:“首先,我得理解题目……然后,假装我会做……”(演技派AI诞生了!)
未来展望:强化学习是引擎,任务合成是汽油,AI开着这辆改装车,迟早冲出数据荒漠,直奔人工智障…啊不,人工智能的星辰大海!*
当AI也开始做”俄罗斯套娃”:PromptCoT 2.0的奇妙冒险
一部人工智能版的”套娃”生产指南
我们的技术团队最近开发了一套令人眼花缭乱的”AI套娃”生产线,具体工序如下:
概念抽签环节 就像从魔术帽里拽兔子一样,先把各种数学概念拽出来。
逻辑拼图时间 把这些概念像乐高积木一样拼接组合。
问题生成车间 用Llama3.1-8B这台”问题制造机”哐当哐当生产训练数据。
震惊!这个模型居然学会了”喝酒”
我们用这些”合成酒”(400k SFT数据)灌醉了DeepSeek-R1-Distill-Qwen-7B模型醉醺醺的它在MATH-500、AIME 2024和2025考试中把32B的s1模型喝趴下了!*灵魂拷问时间
我们团队一边喝着咖啡一边思考这些哲学问题:
PromptCoT能不能像瑜伽大师一样变得更柔韧?“人造”问题到底能不能打败”人制造”的问题?如果SFT是把强模型的”精华”蒸馏给弱模型……那强模型喝了这么多开源”补品”后还能更强吗?隆重推出:PromptCoT 2.0 —— 不用人工的”人工”智能
这个升级版就像是给AI装上了永动机:
用EM循环代替人工设计推理链像滚雪球一样越滚越大生产的问题不仅更难,而且更多样就像是让AI学会了”左右互搏”!*PromptCoT 2.0在1.0基础上完成了:
效果升级(考试分数更高)方法升级(更自动化)数据升级(更难更丰富)简而言之:让AI自己教自己变得更聪明!*效果升级:强化学习+SFT,强弱模型齐起飞
知识蒸馏的魔术:PromptCoT 2.0如何变废为宝?
我们都知道*:强推理模型就像班上的学霸弱推理模型嘛…就是上课总爱打瞌睡的那位但是!PromptCoT 2.0这位”家教老师”最近有了新花招!
神奇实验剧场
第一幕*:学霸的”考试秘籍”PromptCoT 2.0 + RL = 推理界的”独孤求败”考满分已不能满足它们了转折来了*:这位学霸最近养成了一个奇怪的习惯——开始自问自答!它合成的问题:
比老师出的还刁钻比奥数题还烧脑关键是…它自己还给出了解题步骤!第二幕*:”学渣”的逆袭我们把学霸这些”怪异自言自语”的录音偷偷塞给班上那位总是打瞌睡的同学。结果呢?
这位同学突然就…
支棱起来了!推理能力蹭蹭往上涨连最讨厌的数学题都能解了效果揭秘
原来PromptCoT 2.0合成的问题简直就是知识蒸馏的”十全大补汤”:
问题质量:像是米其林三星大厨特制的”推理套餐”解题思路:连刀工火候都展示得一清二楚泛化能力:吃下去的都能长成自己的”肉”最绝的是:这套方法让弱模型实现了“曲线救国”*,不需要强求硬核训练,照样能get到推理的精髓!彩蛋
想象一下未来的教室:
学霸AI负责出各种”变态”问题学渣AI喝着”知识蒸馏咖啡”慢慢进步而人类老师们…终于可以放松一下了!
人工智能的”作弊小抄”大公开!
简直不敢相信!* 这个PromptCoT 2.0就像给AI小学生塞了一份”三年高考五年模拟”,效果堪比偷看学霸作业!来看看这神奇的变化:*数学推理能力:突飞猛进,简直像吃了菠菜的大力水手代码编写水平:从”Hello World”直接晋级为”Hello Senior Developer”最神的是:完全不需要人类老师盯着做题!(人类教师纷纷表示失业焦虑)这究竟是怎么做到的?*原来研究团队搞到了”超级家教”——一个叫GPT-OSS-120B-medium的老师。这位AI老师的教学特色是:
废话少说:推理过程言简意赅效果拔群:短小精悍但成效显著慷慨大方:直接把478万道”考试题库”公开了!最绝的是*:这些题目难度升级,专治各种AI学渣每道题都自带参考答案,堪称AI界的《五年高考三年模拟》特别提示*:这套题库对于某些”注意力不集中”的AI模型(说的就是你,扩散语言模型!)简直是一剂良药!
PromptCoT 2.0:一场AI界的”脑筋急转弯”大赛
当AI遇到”钉子户”题目
即刻正确率跳水:就像让一个习惯小学数学的大学生突然面对高等代数——PromptCoT 2.0当场表演了个”笑容逐渐消失”,正确率比坐过山车下降得还刺激。推理token疯狂燃烧:模型的”脑细胞”(token)消耗量直线上升,活像小学生做奥数题时草稿纸的消耗速度——这哪里是在解题,分明是在上演《黑客帝国》里的数据洪流!咬合推理?不,是咬碎牙齿!
这些题目就像是特别定制的”智力坚果”,硬是把模型的推理能力从”随便想想”逼到了”绞尽脑汁”模式:
不是在解题,而是在掏空AI的家底不是在测试,而是在挖掘模型的”隐藏剧情”不是在评估,而是在看AI表演”绝地求生”结论*:PromptCoT 2.0这波操作,完美诠释了什么叫”不作死就不会死”——但偏偏就是这种”自虐式”评测,才能让AI的推理能力原形毕露!
PromptCoT 2.0:从“困难+新颖”到自动进化
1. 数据点都学会社交距离了?
论文:*“PromptCoT 2.0的数据点与其他开源题集(OpenMathReasoning等)在二维空间里不仅站得远,还形成了一个‘酷拽’的独立分簇!”
人话翻译:*传统题库们聚在一起抱团取暖,像一群怕冷的企鹅。PromptCoT 2.0 的数据点却高冷地站在角落,表示:“我不是来交朋友的,我是来给模型增加难度的。”结论:它不是老题库的复读机,而是 “困难+新颖” 题的批发商,专治AI过于自信的病!—2. 方法升级:从人工调教到“AI互卷”
PromptCoT 2.0 的核心逻辑:*E-step(逻辑强化):“喂,这个逻辑不对!扣钱!”(通过奖励信号优化)目标:让生成的逻辑既能讲清楚题目概念,又 能撑起难题的骨架!M-step(问题进化):拿着“优化版逻辑”,转头就问:“用这个逻辑,能不能再编10道更难的题?”目标:不让问题生成模型躺平,逼它卷出新高度!对比旧方法:*PromptCoT 1.0:靠人工提示和规则,像在教AI一步步做题。PromptCoT 2.0:直接让俩AI互相督促,内卷到底!最终效果:*完全可自学(不用人类天天盯着)跨题型通杀(数学、推理、开放性问题随便来)生成更难(AI看了都会问:“这题是人出的吗?”)
PromptCoT 2.0:当AI开始跟自己玩游戏
1. 传统方法VS PromptCoT 2.0
传统AI训练:*“老师”(人类)教,”学生”(模型)学——SFT(监督微调)模式,主打一个”妈妈说这样是对的”式学习。
PromptCoT 2.0:*相当于让AI自己和自己下棋,不仅对弈还能复盘:”这步奖励+1,那步扣分!”。像极了人类打游戏时反复读档的行为——只不过AI更勤快,24小时不睡觉地玩。
2. 强化学习游乐场
PromptCoT 2.0兼容各种强化学习”游乐设施”:
PPO(近端策略优化):标准碰碰车GRPO:加了安全带的升级版碰碰车DPO(直接偏好优化):VIP贵宾通道重点是奖励信号兼容性强:
不需要学霸级的评分(GPT-OSS-120B)普通老师批改也行(Qwen3-32B)甚至允许”改卷手滑”(一定噪音)3. 自博弈的玄学妙用
强基线模型的自我提升闭环:
生成问题 → 2. 尝试推理 → 3. 获得奖励 → 4. 修改动作活像人类:
做错题 → 看答案 → 拍大腿 → 下次争取不错区别在于AI不会拍大腿(暂时)。
4. 实验结果
数学和代码实验证明:
AI通过自博弈*能达到”昨天的我打败今天的我”的卷王境界——虽然我们依然不知道它们私下有没有开吐槽大会。面向未来:从Reasoners走向Agents——问题合成×环境合成×多模态
PromptCoT 2.0:大模型的进化之路才刚刚开始!
尽管PromptCoT 2.0已经实现了史诗级升级,但在AI的世界里,这只相当于刚刚学会爬行的幼崽(虽然这个“幼崽”已经能解你的高数作业了)。接下来,研究团队打算让这个大模型变得更加强大,以下是他们未来的神奇计划:
—1. Agentic环境合成:让AI从“答题”变成“探索”
你以为让它做题就够了?不!还要给它造一个世界!“AI工程师”即将上线:想象一下,AI不仅能写题,还能自己搭建网页、调试API、玩转GUI,甚至能在代码沙盒里疯狂折腾!反思+操作=真正智能:我们希望它在可交互的环境里学会规划、实操、事后甩锅(划掉)反思。—2. 多模态任务合成:当AI学会“看图说话”还不够
光是文字已经不能满足它了,现在它要视频、表格、语音甚至表情包统统吃掉!跨模态推理=AI界的“通才”:以后它的任务可能是这样的:“根据这张图+这个表格+这段录音+你的心情指数,告诉我怎么安慰一个程序员。”工具使用?它能同时调编程库、语音识别+视觉识别,简直是个AI版的瑞士军刀!—3. 自奖励 & 对局式自进化:让AI打怪升级
自奖励?不就是AI版的“自我PUA”?——“你做得好?奖励自己多做一道题!”博弈式外循环:团队正在玩“出题者 vs. 解题者”和“执行者 vs. 评审者”的对决游戏,AI开始自己和自己卷起来了!未来版PromptCoT会不会自己给自己出论文?(学术圈瑟瑟发抖)—时间紧任务重,但……值得!
虽然PromptCoT 2.0刚发布,但下一个版本已经在路上了!研发团队不是在赶论文,就是在赶实验的路上。
这篇论文的第一作者是香港大学计算机系博士生赵学亮(目前正在蚂蚁技术研究院折磨AI模型),还有蚂蚁技术研究院的武威、关健、龚卓等大牛共同贡献。让我们一起期待PromptCoT未来如何继续碾压我们的智商!
© 版权声明
本站部分内容来源于互联网,仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有,如涉及版权问题,请及时与本站联系,我们将在第一时间核实并处理。