在OpenAI炼Agent一年半，回国做出首个开源Agent训练框架！这个30岁清华天才却说：创业不是技术命

AI资讯2个月前发布云知AI运营官

科技武林中的”全能学霸”：吴翼的传奇闯关之路

在30多岁的年纪，有些人还在为房贷发愁，而吴翼已经把人生闯关游戏打成了”满级通关”模式：

求学篇：从清华姚班到伯克利，再到OpenAI，这位”学神”的标准简历堪比科幻小说。

奖牌篇：ACM世界奖牌只是他的”少年组热身赛”，带冲击IOI的队伍才是他的”教练副本”。

职业篇：他在Facebook 2012崛起时”刷经验”、字节跳动爆发期”攒装备”，还曾在OpenAI爆火前”提前埋伏”。

创业篇：”边塞科技”被他一手练成满级账号，最终被蚂蚁收购，团队四年心血汇聚成开源项目AReaL——一个专为大型推理模型设计的强化学习训练框架，目前已斩获2.4k GitHub星星。

吴氏武林秘籍核心要义*：

不要盲目冲刺

“创业是长跑，不是百米冲刺。一直冲刺容易累死，大家要慢跑，边走边找证据，看见机会再全力冲刺。”

“OpenAI那种路线在国内创业公司基本没戏。”

AI时代=速度与激情

“AI行业变化是按月计算的，别搞太细的规划，先疯狂试错，激进调整。”

开源领域，中国才是王者

“海外开源水平很差，基本上是中国人的天下。”

预告：武林大会即将开启！*

10月23日-25日，吴翼将在QCon上海站分享《智能体时代的强化学习：AReaL 框架与 Agent 最佳实践》，想学真功夫的别错过！

在 OpenAI，我学会了以 evidence 驱动决策

一位AI大咖的”歪打正着”与”死不悔改”之路

Part 1：我是怎么加入OpenAI的？全是意外！

当初我想去Google Brain，因为那时候Google Brain的学术reputation简直就是顶流，而OpenAI？还在小透明阶段。但我老老实实说：“我待一年半就回国教书。” 结果Google HR一听，心态炸了——“您这待长待短都得占我headcount，这不是耍我吗？”
然后OpenAI发来了offer——他们没headcount限制！但我傲娇地说：“不行，我要等Google！” OpenAI居然真的等了我一个月。而Google那边还在“HR部门向你投来一个爱莫能助的眼神”……就这样，我去了OpenAI。现在想想，Google的HR部门可能是我创业路上的第一个贵人（误）。

Part 2：学术竞赛？其实就是个“电子竞技”

有人说ICPC、IOI是算法思维测验，但我更倾向于俄罗斯人的说法——sports programming（体育编程）！这玩意儿就跟打Dota一样，速度、操作、甚至心态都是关键。你让AI去参加IMO、ICPC？初期当然会挂零——毕竟算法还没练到“王者段位”。但你看现在，Google和OpenAI的模型都夺金了，字节跳动的专用模型也在疯狂上分。AI打比赛比人类稳，未来可能只剩人类的“心态问题”是唯一优势了……

Part 3：RL（强化学习）的胜利，以及智能体的“逆袭”

Gemini和OpenAI能在IMO夺金？全靠RL训练！ 但这不代表人类的比赛没未来，参考围棋和Dota，人类竞技反而可能因为AI的存在变得更刺激。
至于智能体发展？从2016年的World of Bits（让AI买机票）到现在，本质上都在做同一件事——只是当年没预训练加持，AI只会订机票失败，而现在AI能给你订机票、写论文、甚至帮你写辞职信（谨慎使用此功能）。换个角度看，RL这10年根本是在“绕圈”，只不过现在终于绕回原点并成功了……

Part 4：OpenAI的研究文化——研究员当“迷你CEO”？

OpenAI的模式适合小团队吗？完全适合！ AI行业变化太快，必须“边跑边瞄准”。团队核心就是：

先确定目标——“我们想搞个厉害的东西，OK，开干！”

快速找证据（evidence）——“哎？好像能work？”

然后疯狂冲刺——“7周做出Codex？小Case！”

当然，不是所有人都能维持这种节奏——就像马拉松选手不能全程冲刺，找到关键节点再爆发才是正解。否则……你大概率会累死，而且死前一无所获。

Part 5：创业就是在“身心灵修炼场”摸爬滚打

回国创业和硅谷创业有啥区别？简单来说：

硅谷——“技术至上，投资人跪着求你创业。”

国内——“创业是修行，投资人先让你跪着证明自己。”

但我回国不是因为OpenAI待不下去（其实是因为和姚先生约好了）。至于“国内机会”？2012年的Facebook、2016-2018年的字节跳动、2023年的AI创业浪潮……机会永远在，只是看谁的手速更快。
（最后插一句，OpenAI那段经历对我最大的影响是什么？学会在烧钱科研和务实产品之间反复横跳。）

—

（完）*

“创业不是个技术命题”

创业路上的搞笑真相：一个技术大咖的另类自白

1. 创业不是你想创，想创就能创

“沾了时代的光”：当初选强化学习纯属“瞎猫碰上死耗子”，就像在自助餐厅随手抓了个看起来最贵的菜，结果发现还挺好吃。

今日行情评估：美国？可以冲！中国？除非你想挑战“地狱模式”——要么搞具身智能（机器人），要么卖算力当“AI时代的煤老板”。至于纯AI创业？建议先买个护心镜，以防被现实毒打。

2. 创业的困扰？技术算个球，人性的坑才要命！

“重生一次”：创业前是“天真少年”，创业后直接“看破红尘”。

同行竞争？不存在的：清华系的“卷王”们私下其实像极了大学宿舍的兄弟——“白天互相diss，深夜抱团吐槽”。大家的目标不是抢蛋糕，而是集体研究怎么把蛋糕做成巨型翻糖蛋糕（反正AI赛道够大）。

3. 商业落地？谋定而后动？先“动”了再说！

“没做过咋谋？”：创业如同第一次吃榴莲——别人说“香”或“臭”都没用，你得自己咬一口才知道会不会yue。

试错是最高效的学费：踩坑不可怕，可怕的是连坑都没资格踩（说明你根本没上场）。

4. 踩过的坑？技术超神，现实打脸！

团队实力：AReaL团队的技术水平？放到硅谷都能让马斯克点赞（但他可能还是会裁掉你，因为推特也需要省成本）。

玄学时间窗口：创业成功≈天时+地利+老板的星座运势。你能做的只有多买几张“刮刮乐”（多尝试），毕竟概率再小也比零强。

5. 未来计划？先活过这个季度再说！

“AI时代按月计”：今天的“颠覆性创新”，明天可能就变成古董级过气技术（参考元宇宙）。

当前目标：把AReaL开源产品做好，至少让它在GitHub上活得像宿舍里那盆倔强的仙人掌——不求惊艳，但求别死。

总结：创业就是一场大型真人版Roguelike游戏*——你可能死于BOSS战（商业），可能卡在小怪关（技术），甚至会被NPC背刺（人性）。但只要你敢开局，就赢了50%的玩家（剩下50%在围观吃瓜）。

一切围绕 Agent，没有竞品可比

吴翼的技术奇幻漂流：从”有点烂”到”认真做”的开源之旅

提问者的小困惑

InfoQ*：AReaL的诞生跟你们之前折腾的那些项目有关系吗？技术路线上，哪些是”老顽固”，哪些又是”新花样”？

吴翼的坦诚大会

吴翼*：

我们团队从2020年就开始在规模化强化学习这个坑里摸爬滚打，一路上的项目大概是这样的：

MAPPO（天真版）：当年写的时候，自己都觉得有点”烂”，但谁还没个年少轻狂的时候呢？

SRL（稍微进步版）：比MAPPO强点，但开源体验嘛……还是”自用优先”。

ReaLHF（成熟期）：开始有点样子了，但跟”专业开源产品”还是差点意思。

AReaL（认真版）：今年终于决定好好经营一下开源形象，毕竟不能总被人说”你们开源的东西只能自己用”吧？

路线上一脉相承，核心任务都是——让强化学习规模化，剩下的，就是一边自用一边开源（但主要靠自用来养活）。
以前的开源工作，基本是”能用就行”，现在不一样了！AReaL 可是要当作正规军来打造的，我们甚至还给它的文档打了好几遍草稿（进步惊人）。
总结：从”代码能跑就行”到”让开发者爱用”，我们正在努力进化中！（但MAPPO的黑历史，大概永远洗不掉了）
在OpenAI炼Agent一年半，回国做出首个开源Agent训练框架！这个30岁清华天才却说：创业不是技术命

从强化学习到人工智能的奇妙演进史

让我们以轻松幽默的方式，来聊聊这些厉害的字母组合究竟意味着什么：

学术界的字母汤进化论*

MAPPO – 这不是某种新式披萨，而是一位”多面手”算法明星。它就像奥林匹克十项全能选手一样，在 Particle-World 踢足球、在 StarCraft 里打群架、在 Hanabi 玩扑克，样样精通！(虽然有时候会忘记自己到底是来干什么的)

SRL – 神秘的首字母缩写，可能是”Super Robot Learning”(超级机器人学习)或者”Secret Research Lab”(秘密研究实验室)，具体含义需要破解！

ReaLHF – 听起来像个发音困难的北欧神话人物，实际上是让AI开培训班学会分辨善恶的利器，偶尔也会让学生(算法)把作业(训练)搞砸。

AReaL – 这个名字起得真”REAL”(真实)，就像程序员终于想起该给产品起个容易念的名字了。

专家访谈的精髓*：

当被问及技术演变时，耿直的吴翼老师可能在心里翻了个白眼：”这不是明摆着吗？就像是问我从爬行动物到人类是不是自然进化一样…当然是一脉相承啊！”

特别赠送彩蛋*：

想开发自己的AI？从GitHub克隆代码开始，但注意：

可能会遇到神秘的bug（我们称之为”人工智能的真实个性”）

电脑风扇可能会发出抗议（毕竟训练AI比挖比特币还烧电）

最终发现优秀如MAPPO，但离电影里的天网还差114514个版本号

在OpenAI炼Agent一年半，回国做出首个开源Agent训练框架！这个30岁清华天才却说：创业不是技术命

AReaL：造一个比AI还能卷的Agent训练框架

Q: AReaL 是个啥？有对手吗？

AReaL 的核心就是：让你的Agent训练又快又猛。从第一天开始，我们就只干一件事——磨好Agent这把刀。你问我竞品？反正现在市面上找不到像我们这么“一根筋”的框架。毕竟我们团队从出生到现在就干两件事：

死磕Agent

用RL让它变得更聪明

至于为什么好用？因为我们不玩虚的，算法工程化、迭代不停歇。当然，具体怎么好用，等我们开直播时再慢慢“安利”。（顺带一提，记得关注 AReaL-吴翼 和 蚂蚁开源，我们的科普和直播会很精彩。）

好框架的标准：

又快又强——跑得飞快，质量还顶

简单到哭——改几行代码，就能搞定制Agent

我们一开始主打 “1.又快又强”，而现在 AReaL-lite 一出，1+2 全包了，连底层都翻身重做了！

—

Q: 比 OpenAI 的 RL 框架强在哪？海内外差距大吗？

先声明：我不熟大厂内幕，离职都5年了，没法评论。但开源领域？华人直接承包了。不过顶级公司显然手握巨牛 Infra（比如 OpenAI、Anthropic），人家团队豪华、资源多，自然牛。
比如，OpenAI 一周造出 ChatGPT，这就是好基建的用处。但我们 小团队也能打，靠的是精确发力——就是 Agent 训练，卷出一种新高度。

—

Q: AReaL 跟 RL 三大分支（泛化、代码、Agent）哪家亲？

问得太简单！能力从来都是全家桶，公司只是偏好不同。Anthropic 泛化也很猛，OpenAI 代码也不差。我们专注 Agent，但代码、泛化也顺带搞定——因为 好 Agent = 代码 + 泛化 + 一颗训练到极限的心。

—

Q: 为啥开发者要用 AReaL 训 Agent？非得 RL 吗？

不一定非得 RL，但你信不信，未来的 Agent 都是用 RL 优化的！ 现在的目标是 快速迭代、适应市场，等算力成本下降，RL 优化的 Agent 2.0 就会横扫市场。AReaL 的使命？让大家早点吃上 RL 的红利！*

—

Q: AReaL 在数学、代码领域已封神，下一步呢？

大家好！热烈欢迎 AReaL-lite！它就是为了 更快的算法研究 + 更爽的用户体验 而生！快去 GitHub 围观：[https://github.com/inclusionAI/AReaL](https://github.com/inclusionAI/AReaL)
还推荐 ASearcher——用 AReaL-lite 训练的超能搜索 Agent，绝对让你灵感爆炸：[https://github.com/inclusionAI/ASearcher](https://github.com/inclusionAI/ASearcher)

AReaL 对整个 Agent 生态的意义？让 AI agent 进化的速度跑赢通货膨胀！*

判断技术潜力和未来展望

智能体的未来：从”单打独斗”到”团队作战”

当Agent决定组队开黑：多智能体系统的兴起

吴翼在访谈中展望了Agent技术的未来，特别是从“单兵作战”到“多智能体协同”的转变。看起来，Agent们不仅学会了思考，还学会了抱团——毕竟，打工人的终极梦想就是拉上同事一起摸鱼嘛！

Multi-Agent：为什么它比“单身Agent”更有潜力？

工作量太大，一个Agent顶不住了

现在的Agent就像是一个996的打工人，业务流程越来越复杂，光是处理一个任务就可能累到宕机。

而Multi-Agent系统可以让任务分解，让不同的Agent“各司其职”，效率直接翻倍！

沟通难题？那是你们的算法还不够social

想象一下，一群Agent开会讨论怎么搞定一个项目，结果因为它们各自的逻辑不同，最后互相甩锅……

所以，多智能体交互算法就成了关键突破点——AI也要学会“职场情商”了！

更复杂的系统=更多的创业机会

程序员们摩拳擦掌：“只要AI还有bug，我们就永远有饭吃！”

Infra（基础设施）的需求会增加，算法也会不断迭代，一个新的“AI协作经济”正在崛起！

—

Agent的未来：从“工具人”到“时间刺客”

吴翼提到，未来的Agent不再是被动接受指令的“工具人”，而是会像“时间管理大师”一样主动帮你省时间：

“AI，帮我写个日报。” → Agent：“不用你说，我已经写好了，还帮你自动水了100字。”

“今天有什么会议？” → Agent：“我帮你取消了3个没意义的会，还约了2个潜在客户。”

随着Agent的“自主探索”空间变大，未来的AI可能会比你更懂如何摸鱼……哦不，是如何高效工作！

新的范式：AI界的“工业革命”？

就像人类从农业时代进入工业化，Agent也会从“单点突破”走向“系统化协作”。

开放环境的适应性是关键——Agent不仅要能处理清晰的任务，还要学会在“不可预测”的状况下存活（比如人类老板突然改需求）。

—

最后，吴翼还打了个硬广：*

“欢迎关注AReaL团队的最新动态！我们会努力把智能体的未来‘肝’出来，也期待和大家一起探索更广阔的AI可能！”
（文章来源：微信公众号“AI前线”）

—

总结一下：*

Multi-Agent = AI界的“团队协作”，未来会越来越重要。

Agent会越来越‘主动’，从交互方式到执行能力都将升级。

新范式和算法突破值得期待，可能催生全新的AI商业模式！

在未来，也许你会发现，真正在卷的其实不是人类，而是那些“比你更懂优化时间”的Agent……

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

马斯克亲口证实xAI代码库被盗！涉案前员工被起诉，已跳槽OpenAI

# AI # AI新闻 # AI资讯

2个月前

2,1810

为什么说现在所有的 AI Agent，都像 3D 打印机？｜AI 上新

# AI # AI新闻 # AI资讯

2个月前

3,4800

深度｜成立一年再获数千万融资，坚持结果交付，坚持端对端多智能体

# AI # AI新闻 # AI资讯

2个月前

4,6900

a16z等顶级VC投资超百万美元，AI时代能否跑出自己的Tinder？

# AI # AI新闻 # AI资讯

2个月前

290

在OpenAI炼Agent一年半，回国做出首个开源Agent训练框架！这个30岁清华天才却说：创业不是技术命

科技武林中的”全能学霸”：吴翼的传奇闯关之路

在 OpenAI，我学会了以 evidence 驱动决策

一位AI大咖的”歪打正着”与”死不悔改”之路

Part 1：我是怎么加入OpenAI的？全是意外！

Part 2：学术竞赛？其实就是个“电子竞技”

Part 3：RL（强化学习）的胜利，以及智能体的“逆袭”

Part 4：OpenAI的研究文化——研究员当“迷你CEO”？

Part 5：创业就是在“身心灵修炼场”摸爬滚打

“创业不是个技术命题”

创业路上的搞笑真相：一个技术大咖的另类自白

1. 创业不是你想创，想创就能创

2. 创业的困扰？技术算个球，人性的坑才要命！

3. 商业落地？谋定而后动？先“动”了再说！

4. 踩过的坑？技术超神，现实打脸！

5. 未来计划？先活过这个季度再说！

一切围绕 Agent，没有竞品可比

吴翼的技术奇幻漂流：从”有点烂”到”认真做”的开源之旅

提问者的小困惑

吴翼的坦诚大会

从强化学习到人工智能的奇妙演进史

AReaL：造一个比AI还能卷的Agent训练框架

Q: AReaL 是个啥？有对手吗？

好框架的标准：

Q: 比 OpenAI 的 RL 框架强在哪？海内外差距大吗？

Q: AReaL 跟 RL 三大分支（泛化、代码、Agent）哪家亲？

Q: 为啥开发者要用 AReaL 训 Agent？非得 RL 吗？

Q: AReaL 在数学、代码领域已封神，下一步呢？

判断技术潜力和未来展望

智能体的未来：从”单打独斗”到”团队作战”

当Agent决定组队开黑：多智能体系统的兴起

Multi-Agent：为什么它比“单身Agent”更有潜力？

Agent的未来：从“工具人”到“时间刺客”

新的范式：AI界的“工业革命”？

藏师傅教你用 Nano Banana 编辑图片做手办

速递｜亚马逊AMD投资，韩企AI独角兽Upstage获4500万美元B轮融资，助力AI文档智能处理

相关文章

马斯克亲口证实xAI代码库被盗！涉案前员工被起诉，已跳槽OpenAI

为什么说现在所有的 AI Agent，都像 3D 打印机？｜AI 上新

深度｜成立一年再获数千万融资，坚持结果交付，坚持端对端多智能体

a16z等顶级VC投资超百万美元，AI时代能否跑出自己的Tinder？

暂无评论

搜索文章

热门文章