9,449
0

Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

AI开始”考古”:一场关于Scaling Laws的”起源争夺战”

谁动了我的扩展定律?

说来有趣,这就像一群AI科学家在玩”谁最先发现新大陆”的游戏:

  • 2020年派(OpenAI代表队): “是我们最先提出了这个黄金定律!”
  • 2017年派(百度后备队): “慢着,我们的实验室笔记本上早就有记录了!”
  • 1993年派(贝尔实验室元老队): “孩子们,让叔叔告诉你们什么是真正的’古法萃取’…”
  • 科技圈的”罗生门”

    谁能想到,一个冷冰冰的数学公式居然引发了如此精彩的”版权大战”?这让我想起了牛顿和莱布尼茨关于微积分的争论…不过现在争论的主体变成了:

  • 大公司在竞争
  • 实验室在比老
  • 博士生在推特上”挖坟”
  • “谁发明的”重要还是”怎么用”重要?

    说真的,与其争论:

  • 谁先发现了Scaling Laws
  • 谁最后完善了它
  • 哪篇论文引用了谁
  • 不如想想怎么用这些定律做出更厉害的大模型!毕竟在AI界,“老古董”有时候比”新发明”更值钱 —— 贝尔实验室1993年的发现,30年后才成为香饽饽,这”投资回报周期”可真是够长的!

  • 结论:在科技发展的长河里,今天的”大发现”可能只是昨天的”旧笔记”。这告诉我们一个深刻的道理 —— 记得好好写实验记录,说不定30年后就价值连城了呢!*
  • (注:以上纯属娱乐性解读,各家研究都有其重要贡献,科学进步是集体智慧的结晶。)
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    当AI也开始怀旧:32年前的”朋友圈考古”

    研究者们最近挖出了一篇来自贝尔实验室的”陈年老论文”,就像是AI界的金字塔考古发现。这篇论文的主要内容可以概括为:

  • 数据集大小不重要? 他们居然在各种尺寸的数据集上训练模型——从”迷你裙”到”XXXL加大号”都试了个遍。
  • 模型体积随心配 不同尺寸的模型轮番上阵,活像个AI时装秀。
  • 幂律曲线的秘密 研究者们成功用数学公式给AI做了个”身材管理”。
  • Morris看到这篇论文后的反应堪称经典:”这居然是32年前的老黄历了!”言下之意大概是——现在的AI开发者们还在玩老祖宗玩剩下的把戏,只不过换了个更花哨的GUI界面。
    想象一下当时的场景:没有TensorFlow,没有PyTorch,研究者们可能还在用穿孔卡和算盘搞深度学习。而他们的发现居然到现在还在被引用,这简直就像是发现祖传秘方里写着”适量添加味精”。
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    科技圈的”霸道总裁”高调转发,用一句话揭示AI生存法则

  • 现在为您播报Greg大佬的最新科技鸡汤:*
  • 一句话总结:深度学习在历史上横跨几个数量级的时间考验,居然还能活蹦乱跳
  • 业内人士解读:相当于说”我大深度学习可不是昙花一现的小鲜肉”
  • 阴阳怪气版:”喂!隔壁说我们AI要凉的那些人!看见没?都熬过这么久了!”
  • 以下是Greg氏科学哲理诗的劲爆内幕:*
  • 数学家的浪漫:”几个数量级”≈科学家说”这是超级超级重要的发现”的标准台词
  • 时间旅行者宣言:”几十年时间”≈普通科技:”这些都是爷爷辈的技术了!”
  • 生存游戏解说:”经受住时间考验”≈科技圈甄嬛传:”本AI活着回来了”
  • 温馨提示:*
  • 听完这段科技创新宣言的翻译版,请和蔼对待您家滚筒洗衣机,说不定人家正在酝酿一个惊人的深度学习计划呢!*
  • Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    贝尔实验室:科技界的”预言帝”大揭秘

  • 建议用”啊哈!原来早有准备”的语气来阅读以下内容*
  • 这帮贝尔实验室的家伙简直就是科技界的「老顽童」们:

  • 预言式发明 – 明明是上个世纪的古董机构,偏偏能捣鼓出晶体管、Unix这些现代科技必备品
  • 跨界狂魔 – 一边研究电话,一边顺便发明了射电天文学(是的,就是那个获诺贝尔物理奖的发现)
  • 准点打卡的脑洞 – 平均每周1项专利,比华尔街银行家的咖啡消耗量还稳定
  • 现在想想,我们玩的每部智能手机里,都闪动着八十年前那群白大褂的狡黠微笑。难怪有人说他们实验室的咖啡机里,装的其实是未来科技的预告片!
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    贝尔实验室的 Scaling Law

    关于那篇让人头大的AI论文

  • 听说* 那帮AI圈的大佬又在搞事情了,这回的战场选在了顶会NeurIPS上…
  • 论文那些事儿

  • 整了个大新闻:这篇论文好像搞出了什么不得了的东西
  • 神秘的标题:连名字都起得让人看不懂,仿佛在说”看不懂就对了”
  • 数学公式密度:据目击者称,平均每页包含37个看不懂的希腊字母
  • 会议抢票现场

    “NeurIPS”听着就跟”nerve tips”(神经小贴士)似的,害得我一激动差点买成神经科学会议的门票…

  • 温馨提示*:如果你在会议上看到有人盯着一堆矩阵运算看5分钟然后疯狂点头,请别戳穿他——可能只是在装懂。
  • 学术界的黑话总是这么迷人:明明每个单词都认识,连在一起就成了天书Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    当一个AI也遭遇”学习高原期”:机器学习的成长烦恼

    1. 论机器学习如何”偷工减料”

    传统AI训练就像让一个大学生啃完整座图书馆的书——费时!费力!费电!于是科学家们灵机一动:能不能先看看”前几章”,就预测这家伙将来能不能考上博士?

  • 他们的解决方案是:*
  • 不把数据喂到撑,而是抽查关键”饭量-成绩”对应关系
  • 画出一条错误率下降趋势图,像股票K线一样预判未来走势
  • 无论是单层萌新网络还是深度学霸网络,这招都管用
  • 2. 实践出真知:对数坐标里的秘密

    研究者们发现,AI的学习轨迹就像是减肥平台期:

  • 初期(狂吃数据阶段):错误率嗖嗖往下掉,堪比节后称体重
  • 后期(数据过饱和):哪怕吞下整个互联网,成绩也只蠕动一丢丢
  • 最妙的是*,把这些数据点画在对数坐标上时——
  • 所有模型都乖乖排着队,按数学规律走正步!

    3. 机器学习界的”占卜术”

    这套方法的神奇之处在于:

  • 省钱模式:淘汰”学渣分类器”比相亲节目灭灯还快
  • 学霸探测:提前锁定潜力股,省下80%算力去买显卡
  • 理论撑腰:不是玄学预测,而是严密的数学论证
  • (后记:论文作者们因此节省的GPU电费,据说够把特斯拉送上火星了)
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    当AI的胃口越来越大:谁来支付它的”零食账单”?

    科学家们最近玩了个大抽奖游戏:用12,000种模式训练AI后,发现——
    “新网络果然比老家伙强啊!就像iPhone 15把诺基亚3310摁在地上摩擦。”更妙的是,他们还琢磨出个偷懒秘籍:
    “如果我们能提前猜准测试分数,那就不用等三周了——毕竟AI训练可比等快递煎熬多了!”

    Scaling Law:AI的“变大魔法”

    这项扩展定律堪称AI界的“真香定律”:

  • 几千条数据?那是1990年代的老黄历。
  • GPT-4?直接升级到万亿级参数,胃口比吞金兽还猛。
  • 几十年如一日有效?毕竟连摩尔定律都退休了,它还在疯狂吃数据自助餐。
  • 温馨提示*:下次遇到吹嘘“小模型也能逆袭”的,请微笑递上这份账单——
  • “您的算力信用卡,余额还够吗?”

    作者介绍:从「国宝」到「疯狂科学家」

    那些让机器学习界颤抖的名字

    这篇论文简直就是人工智能界的”复仇者联盟”!让我们来看看这五位大神:

  • Corinna Cortes(论文一作)
  • 这姐们的论文被引用了10万+次,相当于让整个硅谷的程序员集体向她致敬了一百年!她和四作的Vapnik一起搞出了那篇著名的《Support-vector networks》,被引用7.7万次,让支持向量机这个”老古董”在深度学习时代还能刷存在感。

  • L. D. Jackel
  • 这位低调的大佬名字都不写全,但能在这样的大神天团里占据二作席位,绝对也是个狠角色。就像漫威电影里那些不露脸的超级英雄,你知道他很厉害,但永远查不到他的维基百科页面。

  • Sara A. Solla
  • 实验室里最神秘的女人!虽然关于她的资料少得可怜,但能跟这些巨头并列署名,肯定不是什么善茬。据说她一个眼神就能让神经网络多收敛5个百分点。

  • Vladimir Vapnik
  • 支持向量机教父!这位俄罗斯老哥和Cortes联手搞的大新闻,让无数研究生又爱又恨。爱是因为可以水论文,恨是因为要理解那些数学推导比登天还难。

  • John S. Denker
  • 名字听起来就像那些会在凌晨三点把arXiv当小说看的疯狂科学家。能在这样的全明星阵容里挂名,估计也是那种”随手写个算法就改变了世界”的主儿。
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    她与AI界的”切糕”数据集

  • 说起她与LeCun等人捣鼓出的MNIST数据集*,那可真是人工智能界的”老干妈”——
  • 一个看似简单的数字识别数据集
  • 却养活了一代又一代博士生
  • 堪称学术圈的”就业保障工程”
  • 评论区有人说她是「国宝」,这可比大熊猫珍贵多了——毕竟:

  • 熊猫只会吃竹子
  • 而她”喂饱”了整个机器学习领域
  • 注:MNIST数据集堪称新手村Boss,没在上面练过手的AI研究者都不好意思出门打招呼*
  • Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    Corinna Cortes:从贝尔实验室到谷歌的跑步达人

    Corinna Cortes的人生可不是那种“朝九晚五摸鱼”的类型:

  • 第一阶段——在贝尔实验室埋头苦干了14年,看来是个熬得住的技术老油条。
  • 第二阶段——2003年跳槽去了谷歌,接着她就在Google Research NY当了整整21年的老大,听起来像是在同一个办公室里熬到了终身成就奖。
  • 现在的身份——不仅是NeurIPS的董事之一,还是竞技跑步运动员,看来科学家圈子的生存法则是——“要么搞AI,要么跑得比AI快”。
  • Lawrence D Jackel:贝尔实验室的反向传播大佬

    Lawrence D Jackel(二作先生)也不甘示弱:

  • 身份——当年贝尔实验室应用系统研究部门的负责人,绝对的实验室扛把子。
  • 重要合作——1988年Yann LeCun加入后,两人像是AI界的“科研黄金搭档”,一起捣鼓了不少高引用研究。
  • 代表作——《Backpropagation applied to handwritten zip code recognition》,也就是那篇让深度学习少走几十年弯路的论文之一,现在看来简直是“AI老派经典”
  • 他俩的故事告诉我们:在贝尔实验室混出头,基本就等于在AI历史上留下大名了。
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    当物理学家和神经科学家玩起了”脑损伤”游戏

    Sara A. Solla 可不是普通的物理学家,她还跨界玩起了神经科学,而且玩得很溜!她最高被引用的论文是跟 Yann LeCun(没错,就是那个深度学习的巨佬)一起搞出来的,题目相当劲爆——《Optimal Brain Damage》(”最优脑损伤”)。别担心,这不是真的要人脑受损,只是在神经网络上搞了点”修剪”工程。

    核心思想:理发师逻辑?

    这篇论文本质上是在说:”神经网络太胖了,得给它减肥!” 怎么减呢?

  • 砍掉没用的权重(相当于让AI剪了个光头)。
  • 利用二阶导数(数学里的”照妖镜”)来判断哪些权重能砍。
  • 最终目标:更快的运算、更强的泛化能力、更少的训练数据要求(堪称人工智能版的”减脂增肌”)。
  • Solla 和 LeCun 的这一套思路,不仅让神经网络更高效,还让它学习得更聪明——就像给一个啰嗦的人装了精准的克制开关,既省电,还能提高说话质量!
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    机器学习界的”扛把子”——Vladimir Vapnik的那些事儿

    在这片神奇的AI江湖里,你一定听说过Vladimir Vapnik这个如雷贯耳的名字。这家伙可不是一般的”扫地僧”,而是机器学习领域的超级大佬!让我们一起来扒一扒这位传奇人物的开挂人生:

  • “坦克制造专业户”:他创造的支持向量机(SVM)简直就是机器学习界的”坦克”,不仅皮实耐用,而且专治各种不服
  • “学术论文收割机”:33.5万次引用可不是盖的,平均下来相当于每天都有37篇论文在向他致敬
  • “起名之王”:和好基友Alexey Chervonenkis搞出来的Vapnik-Chervonenkis理论,堪称史上最直白的命名方式(这不就是”老王烧饼”的理论版嘛)
  • “教科书制造商”:1995年推出的《统计学习理论的本质》,直接把自己写成了人工智能界的莎士比亚
  • 这位来自苏联的”战斗民族”科学家用理论和算法一次次刷新着我们的认知。要论机器学习界的硬核大佬榜单,Vapnik绝对能排进前三甲!
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    约翰·S·丹克尔:人类智慧界的”八爪鱼式”天才

    如果科学家界也有”超级英雄联盟”,那约翰·S·丹克尔大概就是那个同时披着物理学家、工程师、程序员、作家披风,还能用第三只手弹钢琴的”科学界八爪鱼”。

    他究竟擅长多少领域?

  • 量子力学?像研究早餐麦片一样轻松。
  • 电子工程?电路板在他眼里就是乐高积木。
  • 编程?可能比普通人打字还快。
  • 写作?不仅能写出严谨论文,还能把高深理论翻译成人话。
  • 艺术音乐?搞不好私下还给科幻电影配乐。
  • 有人怀疑他的大脑是多核处理器,能同时并行处理N个任务。而普通人的大脑?基本属于单线程,还偶尔卡顿。
    在学术界,”天才”这个词经常像廉价促销品一样被乱贴,但放在丹克尔身上——不得不承认,这家伙是真的货真价实
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    “疯狂科学家”的奇妙人生:从电子游戏到量子物理

    这位科学家的履历仿佛是从科幻小说里直接搬出来的:

    大学时期的”花样作死”

  • 大三时就创立了一家“什么都敢做”的科技公司,业务范围涵盖了:
  • 安防系统(大概是为了防止自己发明的机器人造反)
  • 好莱坞特效(可能是想亲自验证物理定律)
  • 电子游戏(科学家也是要打游戏的!)
  • 最离谱的是:他竟然还在加州理工自己开课教起了微处理器设计,堪称”史上最强学生教授“!
  • 博士研究的”疯狂想法”

    你以为研究氢气已经很无聊了?这位老兄偏要在几乎比绝对零度还冷的温度下玩气体,还发现了:

  • 量子自旋像坐过山车一样到处跑(科学术语:量子自旋输运
  • 气体分子还会跳”集体舞蹈”(专业说法:长寿命自旋波共振
  • 贝尔实验室的”多重身份”

    在AT&T贝尔实验室期间,他就像科学界的”007″,头衔包括但不限于:

  • 杰出技术人员(听起来就很厉害)
  • 部门主管(管人的时候大概还在想着量子物理)
  • 部门经理(可能是唯一会用Excel表格的物理学家)
  • 发明的”奇葩产品”

  • 超低噪声设备(为了在实验室也能安静睡觉?)
  • “绝热”计算系统(电脑不用散热的神器!)
  • 神经网络应用(教会电脑胡思乱想)
  • 其他”奇闻轶事”

  • 曾被改编成电影《真正的天才》(科学家的生活比编剧脑洞还大)
  • 登上《时代》杂志(标题可能是:”这个科学家不太冷”)
  • 50多篇论文+书籍章节+编著(大概是把期刊当博客写)
  • 最搞笑的是:这位科学家以爱恶作剧*著称,让人不禁怀疑他的很多发明可能最初只是为了整蛊同事!
  • 备注:这位科学家的真实成就比段子精彩多了,但我们还是决定用这种方式向他的”疯狂天才”特质致敬!*
  • Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    老飞侠约翰·登克尔的多重身份

    这哥们可不得了,简直就是民航界的瑞士军刀!让我们来细数他那些让人眼花缭乱的头衔:

  • 天上飞的:不仅能当商业飞行员潇洒飞上天,还能傲娇地教别人怎么飞
  • 地上跑的:顺便也教教那些还在地上爬的新手飞行员理论知识
  • 安全大神:直接在美国联邦航空局(FAA)当安全顾问,管得就是你们这些小飞机的安全问题
  • 俱乐部大佬:在蒙茅斯地区飞行俱乐部当过董事会成员,相当于飞行界的”校长”
  • 国家级专家:最后还混进了美国国家研究委员会商用航空安全委员会,这级别简直是要上天(虽然是字面意思)
  • 这人怕不是每天都有48小时吧?

    Scaling Law 的历史可能还能继续向前追溯

    知识发现的”抢功劳”大战:谁才是Scaling Law的真命天子?

  • 学术界最近上演了一场精彩的”掀桌子”戏码!*
  • 当贝尔实验室得意洋洋地举着Scaling Law论文出来”摆擂台”时,评论区里的学术界大咖们瞬间变身历史真相帝:

  • Pedro Domingos教授(就是那位既能写代码又能写小说的科技大V)带头发来弹幕:”Sorry啊兄弟,心理学界早就玩过’学习曲线’这游戏啦!”
  • 这条评论底下立刻变成了”比谁更懂历史”的学术版”爸爸去哪儿”。各路研究者纷纷:
  • 翻出积灰的心理学文献
  • 晒出自家导师的导师的实验室笔记
  • 甚至有人搬出了”我奶奶都知道学习有个过程”这样的民间智慧佐证
  • 有趣的是*:在这场跨学科抢话筒大赛中,最淡定的反而是那些真正的心理学研究者——他们默默喝着咖啡表示:”年轻人啊,我们八十年前就发表过了…”
  • 知识小贴士:下次你要吹嘘自己发现了”新规律”时,最好先查查心理学期刊,不然分分钟被打脸打到怀疑人生!Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

  • 学术八卦:这位大佬六十年前就把”数据翻倍定律”玩明白了!*
  • 一个有趣的学术冷知识:*
  • 时光机警告:你以为深度学习时代的scaling law是什么新鲜玩意儿?
  • 上古大神:Maksym Andriushchenko悄悄爆料,Vladimir Vapnik老爷子在60年代就偷偷研究过这个!
  • 时尚轮回:现在的AI研究者们热烈讨论的”样本量与模型表现的关系”,老爷子当年恐怕是一边抽着古巴雪茄一边就搞定了。
  • 潜台词:*
  • 有时候学术界就像时尚圈,五十年前的复古风现在改个名字又能重新火一遍~
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    学术界的穿越剧:1958年就玩转”学习曲线”的老哥

  • 震惊!* 一位名叫@guillefix的现代网友突然发现:
  • 1958年的Frank Rosenblatt在论文里
  • 已经画出了堪比2024年机器学习教程的清晰学习曲线
  • 论文标题长得能当绕口令:《感知器:大脑信息存储与组织的概率模型》
  • 脑补场景:*
  • 当年的评审委员们捧着这份”先知论文”,眼镜片碎了一地:”这小子该不会是坐时光机回来的吧?”
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    揭秘那个比贝尔实验室更早的”神秘论文”

    今天有位𝕏用户@lu_sichu冷不丁甩出一条猛料——1992年的一份论文《A Universal Theorem on Learning Curves》,作者是日本工程师兼神经科学家甘利俊一(Shun-ichi Amari),居然比贝尔实验室那篇所谓的”开山之作”还要早!
    咱们不禁要问:

  • 贝尔实验室的论文:嘿,我们是先驱!
  • 甘利俊一的论文:老弟,您先等等?
  • 甘利俊一何许人也?这位大佬在神经网络领域可是名声响当当,甚至在90年代就已经在研究学习曲线的普适性定理*了。而且,人家的理论比后来某些”热门发现”还要深邃和超前。
  • 于是科学家们的历史叙事突然变成了一场谁是真正预言家的辩论大赛:

  • 贝尔实验室:我们是现代AI之父!(鼓掌)
  • 甘利俊一和他的论文:呃……那我是什么?AI的远房亲戚?
  • 这事告诉我们一个道理:科学的真相往往比教科书里写的更复杂。你以为的”第一”,很可能早就被某个低调的天才悄咪咪写进论文里了,只是没人注意罢了。
    所以下次听到什么”史上首次”之类的说法,别急着信,说不定翻开尘封的论文堆,会蹦出一句:”不好意思,我早研究过了。”
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    神经网络的”减肥”日记

    学习曲线:从大吃大喝到骨感美

    任何一台努力的二分机器或神经网络,都逃不过一个真理:吃得越多,长得越标准

    关键发现

    研究发现:

  • 预测混乱度(就是那个叫的家伙)会随着训练样本数t的增加而优雅地收敛到零——也就是说,机器不再随便乱猜了!
  • 具体来说,这个混乱度下降的方式特别懂事: ≈ d / t,其中d是机器的可调参数数量(可理解为”脂肪量”)。
  • 通俗解释

    想象一下:

  • 刚开始训练的神经网络就像一个新入职的菜鸟,整天胡言乱语(高预测混乱度)。
  • 随着吃的样本越来越多(训练数据增加),它终于放下了薯片和可乐(减少过拟合),学会了精准预测。
  • 而这个减肥效果(混乱度下降)的速度,取决于它有多少”脂肪”(可调参数d)——参数越多,瘦得越慢
  • 结论

    无论你的机器长得如何(架构咋变),它的学习规律都遵从:
    想要变瘦(精准)?要么少吃(减少参数),要么疯狂跑步(加大训练量)!换言之,数据就是运动,参数就是饮食——机器界的卡路里法则,就是这么简单!
    Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘

    Scaling Law:一场跨越时代的科学马拉松

    这个所谓的Scaling Law,可不是哪位天才半夜突发的点子,而更像是一部跌宕起伏的学术连续剧,主演包括心理学家、数学家、物理学家,以及后来插足的AI研究员们。

    第一幕:心理学偷偷入场

    最早的时候,心理学家们发现了一个“学习曲线”——没错,就是那个让学渣们痛苦的玩意儿。他们发现,随着练习次数的增加,人类的某些技能表现会呈现可预测的上升趋势
    当时谁也没想到,这个看起来只是用来解释为什么你打游戏越来越厉害的理论,会演变成AI的重要法则。

    第二幕:感知器的迷惑表演

    后来,感知器(Perceptron)这家伙登上舞台,信心满满地宣称自己能模仿人类大脑。结果……它被Minsky和Papert当场打脸,搞得AI圈一度陷入寒冬,研究经费全去养企鹅了。
    但正是这点挫折,让后来者们明白了一件事:性能不是靠蛮力,而是靠科学的缩放

    第三幕:Vapnik带着“数学大棒”登场

  • Vapnik老爷子出场了,带着他那套让人头疼的“统计学习理论”*(Support Vector Machines就是他的杰作)。他告诉大家:“孩子,性能的提升是有规律的!”但当时的硬件太拉胯,所以这条理论在AI领域还没掀起多少浪花。
  • 第四幕:贝尔实验室的“无聊但重要”贡献

    贝尔实验室那帮工程师,则沉迷于研究信息论和通信系统的缩放,他们的工作就像是在给未来的AI巨兽悄悄铺路。只不过,这些研究在当时看来,可能还不如研究手机信号更赚钱。

    第五幕:OpenAI 的高调收割

    终于,等到计算能力爆炸、数据量飙涨的时候,OpenAI一帮人拍案而起:“兄弟们,我们的模型越大越聪明!”于是,Scaling Law忽然成了AI界的“圣经”,大家才后知后觉地发现——原来几十年前就已经有这么个规律了!

    科学进步的真相

    就像Brockman所说,Scaling Law不是突然蹦出来的“神谕”,而是一代又一代研究者用论文、失败、熬夜熬出来的成果
    所以,下次你看到某个AI公司吹嘘最新的超大规模模型时,请记住——这个成功属于每一位在黑暗中摸索过的科学家

    © 版权声明

    相关文章