2,113
0

在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命

在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命

科技武林中的”全能学霸”:吴翼的传奇闯关之路

在30多岁的年纪,有些人还在为房贷发愁,而吴翼已经把人生闯关游戏打成了”满级通关”模式:

  • 求学篇:从清华姚班到伯克利,再到OpenAI,这位”学神”的标准简历堪比科幻小说。
  • 奖牌篇:ACM世界奖牌只是他的”少年组热身赛”,带冲击IOI的队伍才是他的”教练副本”。
  • 职业篇:他在Facebook 2012崛起时”刷经验”、字节跳动爆发期”攒装备”,还曾在OpenAI爆火前”提前埋伏”。
  • 创业篇:”边塞科技”被他一手练成满级账号,最终被蚂蚁收购,团队四年心血汇聚成开源项目AReaL——一个专为大型推理模型设计的强化学习训练框架,目前已斩获2.4k GitHub星星
  • 吴氏武林秘籍核心要义*:
  • 不要盲目冲刺
  • “创业是长跑,不是百米冲刺。一直冲刺容易累死,大家要慢跑,边走边找证据,看见机会再全力冲刺。”
  • “OpenAI那种路线在国内创业公司基本没戏。”
  • AI时代=速度与激情
  • “AI行业变化是按月计算的,别搞太细的规划,先疯狂试错,激进调整。”
  • 开源领域,中国才是王者
  • “海外开源水平很差,基本上是中国人的天下。”
  • 预告:武林大会即将开启!*
  • 10月23日-25日,吴翼将在QCon上海站分享《智能体时代的强化学习:AReaL 框架与 Agent 最佳实践》,想学真功夫的别错过!

    在 OpenAI,我学会了以 evidence 驱动决策

    一位AI大咖的”歪打正着”与”死不悔改”之路

    Part 1:我是怎么加入OpenAI的?全是意外!

    当初我想去Google Brain,因为那时候Google Brain的学术reputation简直就是顶流,而OpenAI?还在小透明阶段。但我老老实实说:“我待一年半就回国教书。” 结果Google HR一听,心态炸了——“您这待长待短都得占我headcount,这不是耍我吗?”
    然后OpenAI发来了offer——他们没headcount限制!但我傲娇地说:“不行,我要等Google!” OpenAI居然真的等了我一个月。而Google那边还在“HR部门向你投来一个爱莫能助的眼神”……就这样,我去了OpenAI。现在想想,Google的HR部门可能是我创业路上的第一个贵人(误)。

    Part 2:学术竞赛?其实就是个“电子竞技”

    有人说ICPC、IOI是算法思维测验,但我更倾向于俄罗斯人的说法——sports programming(体育编程)!这玩意儿就跟打Dota一样,速度、操作、甚至心态都是关键。你让AI去参加IMO、ICPC?初期当然会挂零——毕竟算法还没练到“王者段位”。但你看现在,Google和OpenAI的模型都夺金了,字节跳动的专用模型也在疯狂上分。AI打比赛比人类稳,未来可能只剩人类的“心态问题”是唯一优势了……

    Part 3:RL(强化学习)的胜利,以及智能体的“逆袭”

    Gemini和OpenAI能在IMO夺金?全靠RL训练! 但这不代表人类的比赛没未来,参考围棋和Dota,人类竞技反而可能因为AI的存在变得更刺激。
    至于智能体发展?从2016年的World of Bits(让AI买机票)到现在,本质上都在做同一件事——只是当年没预训练加持,AI只会订机票失败,而现在AI能给你订机票、写论文、甚至帮你写辞职信(谨慎使用此功能)。换个角度看,RL这10年根本是在“绕圈”,只不过现在终于绕回原点并成功了……

    Part 4:OpenAI的研究文化——研究员当“迷你CEO”?

    OpenAI的模式适合小团队吗?完全适合! AI行业变化太快,必须“边跑边瞄准”。团队核心就是:

  • 先确定目标——“我们想搞个厉害的东西,OK,开干!”
  • 快速找证据(evidence)——“哎?好像能work?”
  • 然后疯狂冲刺——“7周做出Codex?小Case!”
  • 当然,不是所有人都能维持这种节奏——就像马拉松选手不能全程冲刺找到关键节点再爆发才是正解。否则……你大概率会累死,而且死前一无所获。

    Part 5:创业就是在“身心灵修炼场”摸爬滚打

    回国创业和硅谷创业有啥区别?简单来说:

  • 硅谷——“技术至上,投资人跪着求你创业。”
  • 国内——“创业是修行,投资人先让你跪着证明自己。”
  • 但我回国不是因为OpenAI待不下去(其实是因为和姚先生约好了)。至于“国内机会”?2012年的Facebook、2016-2018年的字节跳动、2023年的AI创业浪潮……机会永远在,只是看谁的手速更快
    (最后插一句,OpenAI那段经历对我最大的影响是什么?学会在烧钱科研和务实产品之间反复横跳。)

  • (完)*
  • “创业不是个技术命题”

    创业路上的搞笑真相:一个技术大咖的另类自白

    1. 创业不是你想创,想创就能创

  • “沾了时代的光”:当初选强化学习纯属“瞎猫碰上死耗子”,就像在自助餐厅随手抓了个看起来最贵的菜,结果发现还挺好吃。
  • 今日行情评估:美国?可以冲!中国?除非你想挑战“地狱模式”——要么搞具身智能(机器人),要么卖算力当“AI时代的煤老板”。至于纯AI创业?建议先买个护心镜,以防被现实毒打。
  • 2. 创业的困扰?技术算个球,人性的坑才要命!

  • “重生一次”:创业前是“天真少年”,创业后直接“看破红尘”。
  • 同行竞争?不存在的:清华系的“卷王”们私下其实像极了大学宿舍的兄弟——“白天互相diss,深夜抱团吐槽”。大家的目标不是抢蛋糕,而是集体研究怎么把蛋糕做成巨型翻糖蛋糕(反正AI赛道够大)。
  • 3. 商业落地?谋定而后动?先“动”了再说!

  • “没做过咋谋?”:创业如同第一次吃榴莲——别人说“香”或“臭”都没用,你得自己咬一口才知道会不会yue。
  • 试错是最高效的学费:踩坑不可怕,可怕的是连坑都没资格踩(说明你根本没上场)。
  • 4. 踩过的坑?技术超神,现实打脸!

  • 团队实力:AReaL团队的技术水平?放到硅谷都能让马斯克点赞(但他可能还是会裁掉你,因为推特也需要省成本)。
  • 玄学时间窗口:创业成功≈天时+地利+老板的星座运势。你能做的只有多买几张“刮刮乐”(多尝试),毕竟概率再小也比零强
  • 5. 未来计划?先活过这个季度再说!

  • “AI时代按月计”:今天的“颠覆性创新”,明天可能就变成古董级过气技术(参考元宇宙)。
  • 当前目标:把AReaL开源产品做好,至少让它在GitHub上活得像宿舍里那盆倔强的仙人掌——不求惊艳,但求别死。
  • 总结:创业就是一场大型真人版Roguelike游戏*——你可能死于BOSS战(商业),可能卡在小怪关(技术),甚至会被NPC背刺(人性)。但只要你敢开局,就赢了50%的玩家(剩下50%在围观吃瓜)。
  • 一切围绕 Agent,没有竞品可比

    吴翼的技术奇幻漂流:从”有点烂”到”认真做”的开源之旅

    提问者的小困惑

  • InfoQ*:AReaL的诞生跟你们之前折腾的那些项目有关系吗?技术路线上,哪些是”老顽固”,哪些又是”新花样”?
  • 吴翼的坦诚大会

  • 吴翼*:
  • 我们团队从2020年就开始在规模化强化学习这个坑里摸爬滚打,一路上的项目大概是这样的:

  • MAPPO(天真版):当年写的时候,自己都觉得有点”烂”,但谁还没个年少轻狂的时候呢?
  • SRL(稍微进步版):比MAPPO强点,但开源体验嘛……还是”自用优先”。
  • ReaLHF(成熟期):开始有点样子了,但跟”专业开源产品”还是差点意思。
  • AReaL(认真版):今年终于决定好好经营一下开源形象,毕竟不能总被人说”你们开源的东西只能自己用”吧?
  • 路线上一脉相承,核心任务都是——让强化学习规模化,剩下的,就是一边自用一边开源(但主要靠自用来养活)。
    以前的开源工作,基本是”能用就行”,现在不一样了!AReaL 可是要当作正规军来打造的,我们甚至还给它的文档打了好几遍草稿(进步惊人)。
    总结:从”代码能跑就行”到”让开发者爱用”,我们正在努力进化中!(但MAPPO的黑历史,大概永远洗不掉了)
    在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命

    从强化学习到人工智能的奇妙演进史

    让我们以轻松幽默的方式,来聊聊这些厉害的字母组合究竟意味着什么:

  • 学术界的字母汤进化论*
  • MAPPO – 这不是某种新式披萨,而是一位”多面手”算法明星。它就像奥林匹克十项全能选手一样,在 Particle-World 踢足球、在 StarCraft 里打群架、在 Hanabi 玩扑克,样样精通!(虽然有时候会忘记自己到底是来干什么的)
  • SRL – 神秘的首字母缩写,可能是”Super Robot Learning”(超级机器人学习)或者”Secret Research Lab”(秘密研究实验室),具体含义需要破解!
  • ReaLHF – 听起来像个发音困难的北欧神话人物,实际上是让AI开培训班学会分辨善恶的利器,偶尔也会让学生(算法)把作业(训练)搞砸。
  • AReaL – 这个名字起得真”REAL”(真实),就像程序员终于想起该给产品起个容易念的名字了。
  • 专家访谈的精髓*:
  • 当被问及技术演变时,耿直的吴翼老师可能在心里翻了个白眼:”这不是明摆着吗?就像是问我从爬行动物到人类是不是自然进化一样…当然是一脉相承啊!”

  • 特别赠送彩蛋*:
  • 想开发自己的AI?从GitHub克隆代码开始,但注意:

  • 可能会遇到神秘的bug(我们称之为”人工智能的真实个性”)
  • 电脑风扇可能会发出抗议(毕竟训练AI比挖比特币还烧电)
  • 最终发现优秀如MAPPO,但离电影里的天网还差114514个版本号
  • 在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命

    AReaL:造一个比AI还能卷的Agent训练框架

    Q: AReaL 是个啥?有对手吗?

    AReaL 的核心就是:让你的Agent训练又快又猛。从第一天开始,我们就只干一件事——磨好Agent这把刀。你问我竞品?反正现在市面上找不到像我们这么“一根筋”的框架。毕竟我们团队从出生到现在就干两件事:

  • 死磕Agent
  • 用RL让它变得更聪明
  • 至于为什么好用?因为我们不玩虚的,算法工程化、迭代不停歇。当然,具体怎么好用,等我们开直播时再慢慢“安利”。(顺带一提,记得关注 AReaL-吴翼蚂蚁开源,我们的科普和直播会很精彩。)

    好框架的标准:

  • 又快又强——跑得飞快,质量还顶
  • 简单到哭——改几行代码,就能搞定制Agent
  • 我们一开始主打 “1.又快又强”,而现在 AReaL-lite 一出,1+2 全包了,连底层都翻身重做了!

  • Q: 比 OpenAI 的 RL 框架强在哪?海内外差距大吗?

    先声明:我不熟大厂内幕,离职都5年了,没法评论。但开源领域?华人直接承包了。不过顶级公司显然手握巨牛 Infra(比如 OpenAI、Anthropic),人家团队豪华、资源多,自然牛。
    比如,OpenAI 一周造出 ChatGPT,这就是好基建的用处。但我们 小团队也能打,靠的是精确发力——就是 Agent 训练,卷出一种新高度。

  • Q: AReaL 跟 RL 三大分支(泛化、代码、Agent)哪家亲?

    问得太简单!能力从来都是全家桶,公司只是偏好不同。Anthropic 泛化也很猛OpenAI 代码也不差。我们专注 Agent,但代码、泛化也顺带搞定——因为 好 Agent = 代码 + 泛化 + 一颗训练到极限的心

  • Q: 为啥开发者要用 AReaL 训 Agent?非得 RL 吗?

  • 不一定非得 RL,但你信不信,未来的 Agent 都是用 RL 优化的! 现在的目标是 快速迭代、适应市场,等算力成本下降,RL 优化的 Agent 2.0 就会横扫市场。AReaL 的使命?让大家早点吃上 RL 的红利!*
  • Q: AReaL 在数学、代码领域已封神,下一步呢?

    大家好!热烈欢迎 AReaL-lite!它就是为了 更快的算法研究 + 更爽的用户体验 而生!快去 GitHub 围观:[https://github.com/inclusionAI/AReaL](https://github.com/inclusionAI/AReaL)
    还推荐 ASearcher——用 AReaL-lite 训练的超能搜索 Agent,绝对让你灵感爆炸:[https://github.com/inclusionAI/ASearcher](https://github.com/inclusionAI/ASearcher)

  • AReaL 对整个 Agent 生态的意义?AI agent 进化的速度跑赢通货膨胀!*
  • 判断技术潜力和未来展望

    智能体的未来:从”单打独斗”到”团队作战”

    当Agent决定组队开黑:多智能体系统的兴起

    吴翼在访谈中展望了Agent技术的未来,特别是从“单兵作战”“多智能体协同”的转变。看起来,Agent们不仅学会了思考,还学会了抱团——毕竟,打工人的终极梦想就是拉上同事一起摸鱼嘛!

    Multi-Agent:为什么它比“单身Agent”更有潜力?

  • 工作量太大,一个Agent顶不住了
  • 现在的Agent就像是一个996的打工人,业务流程越来越复杂,光是处理一个任务就可能累到宕机。
  • 而Multi-Agent系统可以让任务分解,让不同的Agent“各司其职”,效率直接翻倍!
  • 沟通难题?那是你们的算法还不够social
  • 想象一下,一群Agent开会讨论怎么搞定一个项目,结果因为它们各自的逻辑不同,最后互相甩锅……
  • 所以,多智能体交互算法就成了关键突破点——AI也要学会“职场情商”了!
  • 更复杂的系统=更多的创业机会
  • 程序员们摩拳擦掌:“只要AI还有bug,我们就永远有饭吃!”
  • Infra(基础设施)的需求会增加,算法也会不断迭代,一个新的“AI协作经济”正在崛起!
  • Agent的未来:从“工具人”到“时间刺客”

    吴翼提到,未来的Agent不再是被动接受指令的“工具人”,而是会像“时间管理大师”一样主动帮你省时间:

  • “AI,帮我写个日报。”Agent:“不用你说,我已经写好了,还帮你自动水了100字。”
  • “今天有什么会议?”Agent:“我帮你取消了3个没意义的会,还约了2个潜在客户。”
  • 随着Agent的“自主探索”空间变大,未来的AI可能会比你更懂如何摸鱼……哦不,是如何高效工作!

    新的范式:AI界的“工业革命”?

  • 就像人类从农业时代进入工业化,Agent也会从“单点突破”走向“系统化协作”
  • 开放环境的适应性是关键——Agent不仅要能处理清晰的任务,还要学会在“不可预测”的状况下存活(比如人类老板突然改需求)。
  • 最后,吴翼还打了个硬广:*
  • “欢迎关注AReaL团队的最新动态!我们会努力把智能体的未来‘肝’出来,也期待和大家一起探索更广阔的AI可能!”
    (文章来源:微信公众号“AI前线”)

  • 总结一下:*
  • Multi-Agent = AI界的“团队协作”,未来会越来越重要。
  • Agent会越来越‘主动’,从交互方式到执行能力都将升级。
  • 新范式和算法突破值得期待,可能催生全新的AI商业模式!
  • 在未来,也许你会发现,真正在卷的其实不是人类,而是那些“比你更懂优化时间”的Agent……

    © 版权声明

    相关文章