2,282
0

从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”

“Attention Please! 一篇论文如何悄悄征服AI世界”

2017年,有个不知天高地厚的论文标题横空出世——《Attention Is All You Need》。翻译过来就是:“你们这些AI研究员别折腾了,注意力才是王道!”
当时的研究者们纷纷扶了扶眼镜,心想:“又一个想颠覆RNN(循环神经网络)的狂徒?”毕竟RNN可是当时的“AI界老大哥”,地位堪比机器学习领域的“牛顿定律”。
然而,这篇仅仅 15页 的论文,很快就证明了一件事:叛逆的学霸往往能改变世界

乱拳打死老师傅

  • 论点: 传统的RNN?扔掉!卷积神经网络?算了!注意力机制就够了!
  • 结果: 短短几年,Transformer架构像病毒一样攻占了AI领域的所有山头。
  • 证据: 现在你用的手机智能输入法、AI画图神器DALL·E,甚至那个一聊就停不下来的ChatGPT——背后全是它的血统!
  • 截至现在,这篇论文在Google Scholar上被引用197,159次(是的,没数错,就是19万+)。换句话说,每个AI研究者平均每天都要在论文列表里看到它的影子至少三遍

  • 这场革命的教训:* 有时候,改行做“注意力经济”的,不一定是网红博主——也可能是AI论文。
  • 从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”

    “Transformer八子”:从谷歌天才到AI创业教父的奇妙冒险

    这群人写了个论文,然后改变了世界

    2017年,在一家名为”不搞邪恶”(Google)的公司里,八个不知天高地厚的科学家挤在一台服务器前,写出了后来被称为“AI界的独立宣言”的Transformer论文。他们分别是:

  • Ashish Vaswani(论文第一作者)
  • Niki Parmar
  • Jakob Uszkoreit
  • Illia Polosukhin
  • Noam Shazeer
  • Llion Jones
  • Lukasz Kaiser
  • Aidan Gomez
  • 这份论文后来被亲切地称为”AI界的披头士专辑“——因为和披头士一样,它彻底改变了行业走向。

    七人下海创业,一人选择”修仙”

    令人惊讶的是,这个”AI男子天团”并没有选择组团出道,而是如七龙珠里的角色一样各奔东西:

  • 6/8成员创办了估值超过10亿美元的独角兽公司
  • 1/8成为”AI投资教父”(谁能想到写论文还能练出这种技能?)
  • 唯一的奇葩是Lukasz Kaiser——他选择了”修仙之路”(即加入OpenAI)
  • Lukasz Kaiser:那个拒绝成为亿万富翁的男人

    当其他七子忙着组建商业帝国时,Kaiser却做了一个让硅谷风投们大跌眼镜的决定:加入了那个号称”要确保AGI造福全人类”的OpenAI。
    在这里,他主导了:

  • GPT-4(就是那个让打工人失业的罪魁祸首)
  • GPT-5(据说正在偷偷吃掉互联网)
  • 推理模型o1/o3(名字像机器人型号,实际是AI智商越来越高的证据)
  • 有人说他是”AI界的隐士”,但实际上,他可能是这个领域最疯狂的冒险家——毕竟,留在OpenAI可比创业难多了。

    即将到来的复出演讲

    今年十月,这位”Transformer八子”中最神秘的人物将重返聚光灯下。虽然题目还没公布,但我们可以合理猜测:

  • 可能是《如何优雅地拒绝成为亿万富翁》
  • 或者《我在OpenAI当扫地僧的日子》
  • 最可能的:《GPT-5真的不会毁灭人类——大概吧》
  • 无论如何,这会是今年最不可错过的AI界单口相声。敬请期待这位”AI界的达摩祖师”带来怎样的惊人见解!
    从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”

    从巴黎到山景城

    “逻辑控”到”硅谷迷”:一位数学怪才的逆袭之路

    你可别被这个头衔唬住了——我们这位主角 Lukasz Kaiser 可不像传统意义上的学霸那么无聊。这位老兄的人生轨迹简直就是学术界的”速度与激情”!

    第一章:波兰的”黑客帝国”少年

    我们的故事开始于波兰弗罗茨瓦夫大学,这里没有高科技车库,只有堆积如山的数学公式。我们的 Lukasz 同学在这一片混乱中同时攻读计算机和数学硕士学位——因为他觉得”单修一门太无聊”。这不是凡尔赛是什么?
    后来他跑去德国亚琛工业大学读博,选了个题目听起来就很唬人的方向:《自动结构上的逻辑与博弈》。说白了就是在研究:

  • 机器怎么理解一堆乱七八糟的数据?
  • 怎样让AI在下班时间玩井字游戏?
  • 第二章:意外收获的”逻辑界奥斯卡”

    2008年博士毕业后的第二年,这位小哥突然发现自己上了”逻辑学的热搜”——他获得了E.W. Beth奖!这可是数学界的”诺贝尔奖”啊!评委的评语简直像在写情书:”技术深度、力量与原创性”。
    奖金3000欧元?无所谓!重要的是他证明了:

  • 数学家也可以很酷
  • 抽象理论以后能成为AI的”灵魂”
  • 第三章:巴黎的学术”铁饭碗”

    2010年,这位理科学霸拿到了法国国家科学研究院的金饭碗——终身研究员职位。这意味着:

  • 永远不用担心被解雇
  • 有大把时间在巴黎咖啡馆写着没人懂的黑板
  • 在欧洲学术界的鄙视链顶端晒太阳
  • 第四章:突如其来的”叛逆期”

    但是!就在这时,我们以为会在办公室里终老的Kaiser突然觉醒:”在黑板上证明定理有意思,但亲手造个改变世界的AI不是更爽吗?”
    如同当年《黑客帝国》里的Neo必须在红蓝药丸间选择一样,Kaiser毅然决定:

  • 放弃欧洲舒适圈 → 拥抱硅谷大冒险!*
  • 结论:这个世界终究是属于那些敢把数学定理变成现实的疯狂天才们的!*
  • RNN 的围城与“注意力”的微光

    当学霸厌倦了”佛系科研”:这位法国研究员跳槽谷歌的魔幻之旅

    CHAPTER 1:突如其来的中年叛逆

    2013年,我们的主角Kaiser做了一件让整个法国学术圈眼镜碎一地的事——他潇洒地甩了”铁饭碗”,投奔了当时在大多数人眼里还像个”科幻项目”的谷歌大脑团队。这位理论计算机界的”优等生”突然决定:”我要去搞点刺激的!”
    在接受采访时,他给出了史上最凡尔赛的辞职理由:
    “搞理论计算机多轻松啊,你可以在20年里反复证明差不多的定理。虽然在细节上各有不同,但说白了都是在同一棵树上挠痒痒。”而转投深度学习的原因更气人:
    “深度学习可太好玩了!每两年就得重新学一遍怎么当个’萌新’。”

    CHAPTER 2: NLP领域的”长城之争”

    当Kaiser踏入谷歌山景城办公室时,自然语言处理(NLP)领域正被一座名为”循环神经网络(RNN)”的长城死死围困。这座”长城”有个致命弱点——它是个”健忘症患者”!处理长句子时,前面刚读的就忘光了,业界亲切地称之为”长距离失忆症”。
    整个AI界都在忙着给这座”长城”打补丁,而我们的Kaiser同学一拍大腿:”拆了它不就行了?”

    CHAPTER 3:硬件发展引发的”中年危机”

    Kaiser一语道破了RNN的尴尬处境:
    “RNN慢得像在拨号上网!它们得一个字一个字处理,跟现代GPU的’洪荒之力’完全不搭。”这就像开着法拉利却在乡间小路上限速20公里——硬件工程师们都要哭了!
    2014年,Ilya Sutskever团队带来了”Seq2Seq”这个”救场英雄”,可惜这位英雄面对长句时还是”力不从心”。于是Kaiser团队祭出了他们的秘密武器——注意力机制(Attention)。

    CHAPTER 4:'”注意力不集中”竟是创新?

    这个”注意力”机制的精髓在于:

  • 随心所欲回头看:像考试作弊一样可以偷瞄所有知识点
  • 动态决定重点:不再死记硬背,而是聪明地抓住关键信息
  • 最开始这只是个”RNN增强补丁”,但Kaiser团队突然灵光一闪:”如果不要RNN这个大累赘,只要’注意力’会怎样?”
    于是,一场彻底颠覆NLP领域的革命就此拉开序幕……

    [后记]

    谁知道呢?也许下一个重大突破,就藏在某个研究者”不想再干重复工作”的叛逆决定中。毕竟,改变世界的有时候不是坚持,而是一句”我受够了!”

    八子集结,一战封神

    “Attention!一场学术界的’芝麻开门'”

    1. 疯狂的头脑风暴,从”Google牌咖啡机”开始

    想象一下:Google Brain的走廊上,一群智商爆表的人(Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Illia Polosukhin和 Lukasz Kaiser)围在一起,嘴里念叨着:”Attention!Attention!Attention!”周围的研究员默默绕道——他们以为这群人可能正在练习某种新型瑜伽,或者集体被AI洗脑了。
    实际上,他们在研究一个颠覆性的想法:“如果注意力机制能搞定一切,我们干嘛还要用别的?”(简称:懒人科学法则)。

    2. “Tensor2Tensor(T2T)项目:AI界的乐高积木”

    为了让这个疯狂的想法落地,Kaiser和当时还是实习生的“小天才”Aidan N. Gomez决定开发一个开源库——Tensor2Tensor(T2T)
    Kaiser的想法很接地气:“AI的门槛怎么跟高考数学最后一道大题一样难?不行,得降低难度,让大家都能玩!”(原话比这学术一点,但核心意思差不多。)
    于是,T2T诞生了——一个能让机器学习新手像搭积木一样上手模型的神器。代码质量高不高?当然。有没有Bug?肯定有,但在开源世界里,这叫”用户共创”。

    3. 论文标题狂想曲:”Attention is All You Need”

    2017年,论文完成时,Jakob Uszkoreit一拍脑袋,写出了可能是计算机史上最“嚣张”的标题:《Attention Is All You Need》(你所需要的全部,就是注意力!)。
    翻译一下:“别整那些花里胡哨的,专注就够了。”(适合用来鸡汤朋友圈,也适合用来怼不服的审稿人)
    而论文的脚注却格外谦逊:“贡献相同。作者排序随机。”——看来这群大佬不仅会写论文,还会写奥斯卡获奖感言。

    4. AI大爆炸:从”这有用?”到”牛X啊!”

    论文上传到arXiv后,AI领域瞬间炸了。OpenAI的Ilya Sutskever看了论文,激动得差点从椅子上跳起来:“这就是我们要的全部东西!”(这句话翻译过来是:”我们的研究方向可以扔了。”)
    Transformer架构直接让RNN(循环神经网络)提前退休,成为了AI界的扛把子,席卷NLP、计算机视觉、语音识别……甚至有人开始在生物信息学里瞎搞,他们声称:”Attention还能优化DNA!”

    5. 八位”AI魔法师”:一战封神

    当全世界都在庆祝Transformer的成功时,Lukasz Kaiser已经在思考更疯狂的事情了——“既然它能读文字,那它能不能理解猫在想什么?”(好吧,他没说过这话,但谁知道呢?)
    这就是《Attention is All You Need》的传奇故事:8位作者,1个疯狂的想法,1个魔性的标题,1个“普惠AI”的开源玩具,最后……改变了整个世界。

  • (完)*
  • “一个模型通晓一切”

    当Transformer遇到”想太多”的幻想家们

    2017年,就在Transformer横空出世、让全世界AI研究员疯狂喊出”Attention is all I need!(注意力是我唯一需要的东西!)”的同时,Kaiser和他的天才小伙伴们显然觉得这还不够刺激。于是,他们反手又扔出了一篇论文——《One Model To Learn Them All》(一个模型学会所有事)。
    我们来感受一下这个对比:

  • Transformer论文:谦逊务实,主打一个”注意力机制真香”。
  • One Model论文:野心勃勃,仿佛在说”什么任务都交给我吧,我全都要”。
  • 显然,Kaiser和朋友们大概是那种在聚餐时不仅要点火锅,还要烧烤、日料、甜品,甚至试图让服务员把隔壁店的炸鸡也顺带送上桌的狠人……

  • 总结*:2017年的AI江湖,一边是Transformer掀起革命,一边是这群人悄悄写了一篇”我什么都能学”的科幻小说式论文——事实证明,科学有时候果然需要一点”想太多”的勇气!
  • 从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”

    MultiModel:一个模型想当八边形战士?

    这帮研究人员憋了个大招,捣鼓出一个叫 MultiModel 的家伙。它不是一般的模型,而是立志成为“斜杠青年”——既能搞定图片分类(ImageNet),又会玩多语言翻译(WMT),偶尔还能在图像描述(MS-COCO)比赛中秀一把,甚至兼职做语音识别和句法分析……一口气接八个活儿,堪称“AI界的打工皇帝”!
    不过嘛,实话实说,它在每个单项任务上的表现都打不过那些“偏科生”模型,就像你让一个全能运动员去跟单项冠军比赛跑或举重,结果可想而知。但重点是——这可是历史上第一次有人一本正经地证明,一个模型架构能同时学会八竿子打不着的技能!这是不是有点像让同一个脑子既能算微积分,又能背菜谱,还顺便学个吉他?
    这事儿其实是 Kaiser 对“人工通用智能(AGI)”的一小声呐喊。他在采访里挠着头皮说:
    “我们能不能搞出一个‘全能王’深度学习模型,啥领域都能掺一脚?”(2018年采访时原话)然后又自问自答:
    “这模型真的懂世界吗?它真的比现在的‘特种兵AI’更通用吗?啧,这问题我自己都没谱……但咱们好歹是上路了,说不定再过几年,我能吹得更响亮!”事实证明,这小子的话可不是随便说说的。他的人生轨迹就跟这模型似的,从专攻“特定任务”的谷歌大脑(Google Brain)一路狂奔,最终奔向那个“通用AI”的终极梦想之地——这不就妥妥的预言吗?

    与传奇相遇,见证未来

    当你的同事都去创业,而你选择硬刚AGI

    这群曾经一起捣鼓Transformer的极客们,如今俨然成了AI界的”复仇者联盟”。

  • Aidan Gomez:摇身变成”Cohere大哥”,专攻企业AI服务,开始在CEO的酒局上反复论证”为什么大模型值得掏钱”。
  • Noam Shazeer:搞出Character.ai,让用户疯狂和虚拟马斯克或苏格拉底聊天——”融资?只需证明网友愿意和AI版特朗普吵架”。
  • Ashish Vaswani & Niki Parmar:创立Adept AI Labs,目标是把办公室里的Excel工具人彻底取代——”您的周报已由AI代编,漏洞由人类背锅”。
  • Lukasz Kaiser……这位老兄2021年突然宣布:“我去给OpenAI打工了。”

  • 同事反应:”Wait…你居然不趁机融个2亿美金当老板?”
  • Kaiser的回答(大概):”你们玩你们的IPO,我要去研究怎么让AI学会自己订披萨(AGI版)。”
  • 毕竟,当别人用Transformer技术开香槟庆祝用户增长时,他还在琢磨:”如果AI真有了通用智能,它会不会也觉得开会很无聊?“——这种”科研直男”的坚持,让他在AI创业狂潮中活像个拿着螺丝刀修时光机的另类。

  • 或许这才是真正的极客精神:*
  • 在全世界疯狂变现时,淡定地继续追问:”等等,这玩意儿到底是怎么想的?”
    从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”

    那个整天对着电脑”吟诗作赋”的AI大神又要来中国了!

  • 如果你以为AI研究员都是戴着黑框眼镜、敲代码敲到秃头的宅男,那你一定没见过Lukasz Kaiser!*
  • 这位OpenAI的”逻辑诗人”,不仅把GPT-4、GPT-5调教得服服帖帖,还发明了两个神秘的推理模型——o1o3(听起来像某种秘密特工代号)。AI在他手里,不是冰冷的算法,而是一场华丽的“深度学习史诗”,主角就是他本“K”!

    一个科学家的进化之路:从“能跑通就行”到“AI哲学家”

    Kaiser的职业生涯简直就是一本AI发展史教科书:

  • 2014年:”谢天谢地,这代码终于能跑了!”(可行性验证阶段)
  • 2017年:”Transformer出世,我要让全世界知道AI不光能做填字游戏!”(架构创新)
  • 2019年:”让AI自己看书学习,省得我天天喂它数据!”(自监督预训练)
  • 2021年:”调参?No!堆算力?Yes!”(Scaling Law时代)
  • 2023年:”AI终于学会说人话了(虽然偶尔会胡言乱语)!”(ChatGPT革命)
  • 那么问题来了——接下来AI要干嘛?继续堆算力?抢程序员饭碗?还是进化成天网?*
  • 好消息是,Kaiser最近没在写代码,而是在写演讲稿!因为他要亲自来2025全球机器学习大会(ML-Summit 2025)告诉你答案!

    Kaiser的预言:三种发展方向,全中!

    早在2021年,他就给AI的未来画了张蓝图:

  • 多模态AI:让AI不光会码字,还会P图、剪辑、写歌(现在Sora和GPT-4V已经实现了)。
  • 更大的Transformer:从“玩具模型”变成“超级大脑”(如今万亿参数模型满地跑)。
  • AI即服务:不再是自己跑模型,而是直接调API,真正让AI“飞入寻常百姓家”。
  • 结果呢?全!中!*
  • 而现在,Kaiser又有了新想法——“教会AI思考”。不是直接输出答案,而是让AI像人类一样“多琢磨几步”(但千万不要学会人类的拖延症)。
    “未来的AI不是在预训练上砸钱,而是在少量高质量数据上猛推理!”(Kaiser如是说)

    AI界的“老友记”即将上演!

  • 9月24日中午12点,奇点智能研究院院长李建忠将在CSDN直播间和Kaiser展开一场“AI版奇葩说”*:
  • “AI会取代程序员吗?”
  • “Sora之后,未来的视频生成会是什么样?”
  • “AI的下一步到底是进化还是变异?”
  • (*温馨提示:建议程序员朋友们提前囤好咖啡,这场对话可能会让你既兴奋又焦虑……)
  • 最后的灵魂拷问:AI会思考后,会不会觉得人类很烦?

    答案可能就在10月16日的2025全球机器学习大会上!Kaiser将带来《推理模型的历史、现在与未来》,让我们一起围观AI的下一波浪潮是颠覆世界,还是……先学会不把“2+2”算成“5”!

  • (本文纯属对CSDN原文的“幽默再创作”,如有雷同,纯属AI太爱模仿人类了。)*
  • © 版权声明

    相关文章