当AI开始”考古”:一场关于Scaling Laws的”起源争夺战”
谁动了我的扩展定律?
说来有趣,这就像一群AI科学家在玩”谁最先发现新大陆”的游戏:
科技圈的”罗生门”
谁能想到,一个冷冰冰的数学公式居然引发了如此精彩的”版权大战”?这让我想起了牛顿和莱布尼茨关于微积分的争论…不过现在争论的主体变成了:
“谁发明的”重要还是”怎么用”重要?
说真的,与其争论:
不如想想怎么用这些定律做出更厉害的大模型!毕竟在AI界,“老古董”有时候比”新发明”更值钱 —— 贝尔实验室1993年的发现,30年后才成为香饽饽,这”投资回报周期”可真是够长的!
(注:以上纯属娱乐性解读,各家研究都有其重要贡献,科学进步是集体智慧的结晶。)
当AI也开始怀旧:32年前的”朋友圈考古”
研究者们最近挖出了一篇来自贝尔实验室的”陈年老论文”,就像是AI界的金字塔考古发现。这篇论文的主要内容可以概括为:
Morris看到这篇论文后的反应堪称经典:”这居然是32年前的老黄历了!”言下之意大概是——现在的AI开发者们还在玩老祖宗玩剩下的把戏,只不过换了个更花哨的GUI界面。
想象一下当时的场景:没有TensorFlow,没有PyTorch,研究者们可能还在用穿孔卡和算盘搞深度学习。而他们的发现居然到现在还在被引用,这简直就像是发现祖传秘方里写着”适量添加味精”。
科技圈的”霸道总裁”高调转发,用一句话揭示AI生存法则
贝尔实验室:科技界的”预言帝”大揭秘
这帮贝尔实验室的家伙简直就是科技界的「老顽童」们:
现在想想,我们玩的每部智能手机里,都闪动着八十年前那群白大褂的狡黠微笑。难怪有人说他们实验室的咖啡机里,装的其实是未来科技的预告片!
贝尔实验室的 Scaling Law
关于那篇让人头大的AI论文
论文那些事儿
会议抢票现场
“NeurIPS”听着就跟”nerve tips”(神经小贴士)似的,害得我一激动差点买成神经科学会议的门票…
学术界的黑话总是这么迷人:明明每个单词都认识,连在一起就成了天书
当一个AI也遭遇”学习高原期”:机器学习的成长烦恼
1. 论机器学习如何”偷工减料”
传统AI训练就像让一个大学生啃完整座图书馆的书——费时!费力!费电!于是科学家们灵机一动:能不能先看看”前几章”,就预测这家伙将来能不能考上博士?
2. 实践出真知:对数坐标里的秘密
研究者们发现,AI的学习轨迹就像是减肥平台期:
所有模型都乖乖排着队,按数学规律走正步!
3. 机器学习界的”占卜术”
这套方法的神奇之处在于:
(后记:论文作者们因此节省的GPU电费,据说够把特斯拉送上火星了)
当AI的胃口越来越大:谁来支付它的”零食账单”?
科学家们最近玩了个大抽奖游戏:用12,000种模式训练AI后,发现——
“新网络果然比老家伙强啊!就像iPhone 15把诺基亚3310摁在地上摩擦。”更妙的是,他们还琢磨出个偷懒秘籍:
“如果我们能提前猜准测试分数,那就不用等三周了——毕竟AI训练可比等快递煎熬多了!”
Scaling Law:AI的“变大魔法”
这项扩展定律堪称AI界的“真香定律”:
“您的算力信用卡,余额还够吗?”
作者介绍:从「国宝」到「疯狂科学家」
那些让机器学习界颤抖的名字
这篇论文简直就是人工智能界的”复仇者联盟”!让我们来看看这五位大神:
这姐们的论文被引用了10万+次,相当于让整个硅谷的程序员集体向她致敬了一百年!她和四作的Vapnik一起搞出了那篇著名的《Support-vector networks》,被引用7.7万次,让支持向量机这个”老古董”在深度学习时代还能刷存在感。
这位低调的大佬名字都不写全,但能在这样的大神天团里占据二作席位,绝对也是个狠角色。就像漫威电影里那些不露脸的超级英雄,你知道他很厉害,但永远查不到他的维基百科页面。
实验室里最神秘的女人!虽然关于她的资料少得可怜,但能跟这些巨头并列署名,肯定不是什么善茬。据说她一个眼神就能让神经网络多收敛5个百分点。
支持向量机教父!这位俄罗斯老哥和Cortes联手搞的大新闻,让无数研究生又爱又恨。爱是因为可以水论文,恨是因为要理解那些数学推导比登天还难。
名字听起来就像那些会在凌晨三点把arXiv当小说看的疯狂科学家。能在这样的全明星阵容里挂名,估计也是那种”随手写个算法就改变了世界”的主儿。
她与AI界的”切糕”数据集
评论区有人说她是「国宝」,这可比大熊猫珍贵多了——毕竟:
Corinna Cortes:从贝尔实验室到谷歌的跑步达人
Corinna Cortes的人生可不是那种“朝九晚五摸鱼”的类型:
Lawrence D Jackel:贝尔实验室的反向传播大佬
Lawrence D Jackel(二作先生)也不甘示弱:
他俩的故事告诉我们:在贝尔实验室混出头,基本就等于在AI历史上留下大名了。
当物理学家和神经科学家玩起了”脑损伤”游戏
Sara A. Solla 可不是普通的物理学家,她还跨界玩起了神经科学,而且玩得很溜!她最高被引用的论文是跟 Yann LeCun(没错,就是那个深度学习的巨佬)一起搞出来的,题目相当劲爆——《Optimal Brain Damage》(”最优脑损伤”)。别担心,这不是真的要人脑受损,只是在神经网络上搞了点”修剪”工程。
核心思想:理发师逻辑?
这篇论文本质上是在说:”神经网络太胖了,得给它减肥!” 怎么减呢?
Solla 和 LeCun 的这一套思路,不仅让神经网络更高效,还让它学习得更聪明——就像给一个啰嗦的人装了精准的克制开关,既省电,还能提高说话质量!
机器学习界的”扛把子”——Vladimir Vapnik的那些事儿
在这片神奇的AI江湖里,你一定听说过Vladimir Vapnik这个如雷贯耳的名字。这家伙可不是一般的”扫地僧”,而是机器学习领域的超级大佬!让我们一起来扒一扒这位传奇人物的开挂人生:
这位来自苏联的”战斗民族”科学家用理论和算法一次次刷新着我们的认知。要论机器学习界的硬核大佬榜单,Vapnik绝对能排进前三甲!
约翰·S·丹克尔:人类智慧界的”八爪鱼式”天才
如果科学家界也有”超级英雄联盟”,那约翰·S·丹克尔大概就是那个同时披着物理学家、工程师、程序员、作家披风,还能用第三只手弹钢琴的”科学界八爪鱼”。
他究竟擅长多少领域?
有人怀疑他的大脑是多核处理器,能同时并行处理N个任务。而普通人的大脑?基本属于单线程,还偶尔卡顿。
在学术界,”天才”这个词经常像廉价促销品一样被乱贴,但放在丹克尔身上——不得不承认,这家伙是真的货真价实。
“疯狂科学家”的奇妙人生:从电子游戏到量子物理
这位科学家的履历仿佛是从科幻小说里直接搬出来的:
大学时期的”花样作死”
博士研究的”疯狂想法”
你以为研究氢气已经很无聊了?这位老兄偏要在几乎比绝对零度还冷的温度下玩气体,还发现了:
贝尔实验室的”多重身份”
在AT&T贝尔实验室期间,他就像科学界的”007″,头衔包括但不限于:
发明的”奇葩产品”
其他”奇闻轶事”
老飞侠约翰·登克尔的多重身份
这哥们可不得了,简直就是民航界的瑞士军刀!让我们来细数他那些让人眼花缭乱的头衔:
这人怕不是每天都有48小时吧?
Scaling Law 的历史可能还能继续向前追溯
知识发现的”抢功劳”大战:谁才是Scaling Law的真命天子?
当贝尔实验室得意洋洋地举着Scaling Law论文出来”摆擂台”时,评论区里的学术界大咖们瞬间变身历史真相帝:
知识小贴士:下次你要吹嘘自己发现了”新规律”时,最好先查查心理学期刊,不然分分钟被打脸打到怀疑人生!
有时候学术界就像时尚圈,五十年前的复古风现在改个名字又能重新火一遍~
学术界的穿越剧:1958年就玩转”学习曲线”的老哥
当年的评审委员们捧着这份”先知论文”,眼镜片碎了一地:”这小子该不会是坐时光机回来的吧?”
揭秘那个比贝尔实验室更早的”神秘论文”
今天有位𝕏用户@lu_sichu冷不丁甩出一条猛料——1992年的一份论文《A Universal Theorem on Learning Curves》,作者是日本工程师兼神经科学家甘利俊一(Shun-ichi Amari),居然比贝尔实验室那篇所谓的”开山之作”还要早!
咱们不禁要问:
于是科学家们的历史叙事突然变成了一场谁是真正预言家的辩论大赛:
这事告诉我们一个道理:科学的真相往往比教科书里写的更复杂。你以为的”第一”,很可能早就被某个低调的天才悄咪咪写进论文里了,只是没人注意罢了。
所以下次听到什么”史上首次”之类的说法,别急着信,说不定翻开尘封的论文堆,会蹦出一句:”不好意思,我早研究过了。”
神经网络的”减肥”日记
学习曲线:从大吃大喝到骨感美
任何一台努力的二分机器或神经网络,都逃不过一个真理:吃得越多,长得越标准!
关键发现
研究发现:
通俗解释
想象一下:
结论
无论你的机器长得如何(架构咋变),它的学习规律都遵从:
想要变瘦(精准)?要么少吃(减少参数),要么疯狂跑步(加大训练量)!换言之,数据就是运动,参数就是饮食——机器界的卡路里法则,就是这么简单!
Scaling Law:一场跨越时代的科学马拉松
这个所谓的Scaling Law,可不是哪位天才半夜突发的点子,而更像是一部跌宕起伏的学术连续剧,主演包括心理学家、数学家、物理学家,以及后来插足的AI研究员们。
第一幕:心理学偷偷入场
最早的时候,心理学家们发现了一个“学习曲线”——没错,就是那个让学渣们痛苦的玩意儿。他们发现,随着练习次数的增加,人类的某些技能表现会呈现可预测的上升趋势。
当时谁也没想到,这个看起来只是用来解释为什么你打游戏越来越厉害的理论,会演变成AI的重要法则。
第二幕:感知器的迷惑表演
后来,感知器(Perceptron)这家伙登上舞台,信心满满地宣称自己能模仿人类大脑。结果……它被Minsky和Papert当场打脸,搞得AI圈一度陷入寒冬,研究经费全去养企鹅了。
但正是这点挫折,让后来者们明白了一件事:性能不是靠蛮力,而是靠科学的缩放。
第三幕:Vapnik带着“数学大棒”登场
第四幕:贝尔实验室的“无聊但重要”贡献
贝尔实验室那帮工程师,则沉迷于研究信息论和通信系统的缩放,他们的工作就像是在给未来的AI巨兽悄悄铺路。只不过,这些研究在当时看来,可能还不如研究手机信号更赚钱。
第五幕:OpenAI 的高调收割
终于,等到计算能力爆炸、数据量飙涨的时候,OpenAI一帮人拍案而起:“兄弟们,我们的模型越大越聪明!”于是,Scaling Law忽然成了AI界的“圣经”,大家才后知后觉地发现——原来几十年前就已经有这么个规律了!
科学进步的真相
就像Brockman所说,Scaling Law不是突然蹦出来的“神谕”,而是一代又一代研究者用论文、失败、熬夜熬出来的成果。
所以,下次你看到某个AI公司吹嘘最新的超大规模模型时,请记住——这个成功属于每一位在黑暗中摸索过的科学家。