科技武林中的”全能学霸”:吴翼的传奇闯关之路
在30多岁的年纪,有些人还在为房贷发愁,而吴翼已经把人生闯关游戏打成了”满级通关”模式:
10月23日-25日,吴翼将在QCon上海站分享《智能体时代的强化学习:AReaL 框架与 Agent 最佳实践》,想学真功夫的别错过!
在 OpenAI,我学会了以 evidence 驱动决策
一位AI大咖的”歪打正着”与”死不悔改”之路
Part 1:我是怎么加入OpenAI的?全是意外!
当初我想去Google Brain,因为那时候Google Brain的学术reputation简直就是顶流,而OpenAI?还在小透明阶段。但我老老实实说:“我待一年半就回国教书。” 结果Google HR一听,心态炸了——“您这待长待短都得占我headcount,这不是耍我吗?”
然后OpenAI发来了offer——他们没headcount限制!但我傲娇地说:“不行,我要等Google!” OpenAI居然真的等了我一个月。而Google那边还在“HR部门向你投来一个爱莫能助的眼神”……就这样,我去了OpenAI。现在想想,Google的HR部门可能是我创业路上的第一个贵人(误)。
Part 2:学术竞赛?其实就是个“电子竞技”
有人说ICPC、IOI是算法思维测验,但我更倾向于俄罗斯人的说法——sports programming(体育编程)!这玩意儿就跟打Dota一样,速度、操作、甚至心态都是关键。你让AI去参加IMO、ICPC?初期当然会挂零——毕竟算法还没练到“王者段位”。但你看现在,Google和OpenAI的模型都夺金了,字节跳动的专用模型也在疯狂上分。AI打比赛比人类稳,未来可能只剩人类的“心态问题”是唯一优势了……
Part 3:RL(强化学习)的胜利,以及智能体的“逆袭”
Gemini和OpenAI能在IMO夺金?全靠RL训练! 但这不代表人类的比赛没未来,参考围棋和Dota,人类竞技反而可能因为AI的存在变得更刺激。
至于智能体发展?从2016年的World of Bits(让AI买机票)到现在,本质上都在做同一件事——只是当年没预训练加持,AI只会订机票失败,而现在AI能给你订机票、写论文、甚至帮你写辞职信(谨慎使用此功能)。换个角度看,RL这10年根本是在“绕圈”,只不过现在终于绕回原点并成功了……
Part 4:OpenAI的研究文化——研究员当“迷你CEO”?
OpenAI的模式适合小团队吗?完全适合! AI行业变化太快,必须“边跑边瞄准”。团队核心就是:
当然,不是所有人都能维持这种节奏——就像马拉松选手不能全程冲刺,找到关键节点再爆发才是正解。否则……你大概率会累死,而且死前一无所获。
Part 5:创业就是在“身心灵修炼场”摸爬滚打
回国创业和硅谷创业有啥区别?简单来说:
但我回国不是因为OpenAI待不下去(其实是因为和姚先生约好了)。至于“国内机会”?2012年的Facebook、2016-2018年的字节跳动、2023年的AI创业浪潮……机会永远在,只是看谁的手速更快。
(最后插一句,OpenAI那段经历对我最大的影响是什么?学会在烧钱科研和务实产品之间反复横跳。)
“创业不是个技术命题”
创业路上的搞笑真相:一个技术大咖的另类自白
1. 创业不是你想创,想创就能创
2. 创业的困扰?技术算个球,人性的坑才要命!
3. 商业落地?谋定而后动?先“动”了再说!
4. 踩过的坑?技术超神,现实打脸!
5. 未来计划?先活过这个季度再说!
一切围绕 Agent,没有竞品可比
吴翼的技术奇幻漂流:从”有点烂”到”认真做”的开源之旅
提问者的小困惑
吴翼的坦诚大会
我们团队从2020年就开始在规模化强化学习这个坑里摸爬滚打,一路上的项目大概是这样的:
路线上一脉相承,核心任务都是——让强化学习规模化,剩下的,就是一边自用一边开源(但主要靠自用来养活)。
以前的开源工作,基本是”能用就行”,现在不一样了!AReaL 可是要当作正规军来打造的,我们甚至还给它的文档打了好几遍草稿(进步惊人)。
总结:从”代码能跑就行”到”让开发者爱用”,我们正在努力进化中!(但MAPPO的黑历史,大概永远洗不掉了)
从强化学习到人工智能的奇妙演进史
让我们以轻松幽默的方式,来聊聊这些厉害的字母组合究竟意味着什么:
当被问及技术演变时,耿直的吴翼老师可能在心里翻了个白眼:”这不是明摆着吗?就像是问我从爬行动物到人类是不是自然进化一样…当然是一脉相承啊!”
想开发自己的AI?从GitHub克隆代码开始,但注意:
AReaL:造一个比AI还能卷的Agent训练框架
Q: AReaL 是个啥?有对手吗?
AReaL 的核心就是:让你的Agent训练又快又猛。从第一天开始,我们就只干一件事——磨好Agent这把刀。你问我竞品?反正现在市面上找不到像我们这么“一根筋”的框架。毕竟我们团队从出生到现在就干两件事:
至于为什么好用?因为我们不玩虚的,算法工程化、迭代不停歇。当然,具体怎么好用,等我们开直播时再慢慢“安利”。(顺带一提,记得关注 AReaL-吴翼 和 蚂蚁开源,我们的科普和直播会很精彩。)
好框架的标准:
我们一开始主打 “1.又快又强”,而现在 AReaL-lite 一出,1+2 全包了,连底层都翻身重做了!
Q: 比 OpenAI 的 RL 框架强在哪?海内外差距大吗?
先声明:我不熟大厂内幕,离职都5年了,没法评论。但开源领域?华人直接承包了。不过顶级公司显然手握巨牛 Infra(比如 OpenAI、Anthropic),人家团队豪华、资源多,自然牛。
比如,OpenAI 一周造出 ChatGPT,这就是好基建的用处。但我们 小团队也能打,靠的是精确发力——就是 Agent 训练,卷出一种新高度。
Q: AReaL 跟 RL 三大分支(泛化、代码、Agent)哪家亲?
问得太简单!能力从来都是全家桶,公司只是偏好不同。Anthropic 泛化也很猛,OpenAI 代码也不差。我们专注 Agent,但代码、泛化也顺带搞定——因为 好 Agent = 代码 + 泛化 + 一颗训练到极限的心。
Q: 为啥开发者要用 AReaL 训 Agent?非得 RL 吗?
Q: AReaL 在数学、代码领域已封神,下一步呢?
大家好!热烈欢迎 AReaL-lite!它就是为了 更快的算法研究 + 更爽的用户体验 而生!快去 GitHub 围观:[https://github.com/inclusionAI/AReaL](https://github.com/inclusionAI/AReaL)
还推荐 ASearcher——用 AReaL-lite 训练的超能搜索 Agent,绝对让你灵感爆炸:[https://github.com/inclusionAI/ASearcher](https://github.com/inclusionAI/ASearcher)
判断技术潜力和未来展望
智能体的未来:从”单打独斗”到”团队作战”
当Agent决定组队开黑:多智能体系统的兴起
吴翼在访谈中展望了Agent技术的未来,特别是从“单兵作战”到“多智能体协同”的转变。看起来,Agent们不仅学会了思考,还学会了抱团——毕竟,打工人的终极梦想就是拉上同事一起摸鱼嘛!
Multi-Agent:为什么它比“单身Agent”更有潜力?
Agent的未来:从“工具人”到“时间刺客”
吴翼提到,未来的Agent不再是被动接受指令的“工具人”,而是会像“时间管理大师”一样主动帮你省时间:
随着Agent的“自主探索”空间变大,未来的AI可能会比你更懂如何摸鱼……哦不,是如何高效工作!
新的范式:AI界的“工业革命”?
“欢迎关注AReaL团队的最新动态!我们会努力把智能体的未来‘肝’出来,也期待和大家一起探索更广阔的AI可能!”
(文章来源:微信公众号“AI前线”)
在未来,也许你会发现,真正在卷的其实不是人类,而是那些“比你更懂优化时间”的Agent……