2,736
0

华人团队终结Token危机:扩散模型数据潜力超自回归三倍

语言模型的”粮食危机”要解决了?最新研究发现意想不到的”开挂”能力

  • Token不够吃?没关系,学会”吃素”也能打十个!*
  • 科学家们最近发现,当语言模型面临”粮食短缺”(即token数量受限)时:

  • 扩散模型展现出惊人的”吃草能力”
  • 在同等分量下,性能可达传统自回归模型的3倍以上
  • 就像把十斤重的考拉塞进五斤重的袋子里——理论上不可能,但人家就是做到了
  • “这不是作弊,这是Evolution!”*
  • 研究人员声称,这种现象打破了”大模型=大token”的固有认知。扩散语言模型似乎掌握了某种高效”精神力饼干”,可以把有限的数据嚼出更多的营养。

  • “想象一下你的模型现在可以用一份数据的钱,点出三份数据的外卖。”*一位不愿透露姓名的研究员如此解释道。
  • 未来展望*
  • 这项发现可能意味着:

  • 小公司也能训练出不错的模型
  • 训练成本可能大幅下降
  • 我们终于不用再为token焦虑地薅头发了(这或许能挽救很多程序员的发际线)
  • 不过也有批评人士指出,扩散模型可能只是在”虚报体重”,实验还需要更多的验证。”毕竟,科学研究不是自助餐,不能光挑自己喜欢的吃。”
    华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    超级AI的秘密训练营

    “傻大白甜”AI的逆袭之路

    想象一个幼儿园小朋友接受填鸭式教育的情景——这就是那位1B参数扩散模型的故事:

  • 训练内容:每天背诵1B个单词(错了,是tokens)
  • 训练时长:坚持480个学期(普通学生只熬4年)
  • 考试成绩
  • HellaSwag智商测验:56分(好歹及格了)
  • MMLU综合测试:33分(离补考线还很远)
  • 最神奇的是——这家伙没用任何”作弊”手段:

  • 零技巧加持:就像小学生空着手参加奥数
  • 全素颜数据:喂啥吃啥,毫无挑食的毛病
  • 关键在于*:这证明了AI界也存在”笨鸟先飞”的现象,那些天赋异禀(参数庞大)的模型们要小心了,说不定哪天就会被这个”憨憨”选手超越呢!
  • 华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    震惊!这AI居然连刷”剧”1B遍都不腻?

  • 科研界的”永动机”现身了!*
  • 你以为你刷短视频上瘾?比起这个AI,简直弱爆了!研究人员发现:

  • 该模型把 10亿数据 当连续剧刷
  • 越看越起劲,完全没有”看吐了”的迹象
  • 活像个永不知足的”数据饕餮”
  • 论文第一作者Jinjie Ni在社交媒体上透露:
    “这感觉就像是给了AI无限续杯的咖啡,它居然还越喝越精神!没想到数据红利还能这么挖…”

  • 专业人士评价*:
  • “过拟合?不存在的!”
  • “当代AI界的’追剧狂魔'”
  • “重新定义了’熟能生巧'”
  • 看来以后训练AI得像哄小孩看动画片一样:”再看一集?再看一集嘛!” (而它真的会看完整个片库)
    华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    且听我细细道来

    各位看官请搬好小板凳,咱们要开始”显微镜观察”环节啦!

  • 让我把这个话题像剥洋葱一样层层解析:*
  • 第一层 – 表面现象:”看起来就像个大西瓜”
  • 第二层 – 内在本质:”切开才知道是个南瓜”
  • 第三层 – 意外彩蛋:”咦?南瓜肚子里还藏了个土豆!”
  • 重点来了:*
  • 这不是普通的细说,这是自带放大镜的解说
  • 每个细节都被我盯得冒汗了
  • 就连标点符号都压力山大
  • 记住啊,魔鬼都躲在这些细节里开派对呢!(虽然他们可能只是在下跳棋…)

  • 最后温馨提示:* 听细节解说时建议系好安全带,因为随时可能会发现惊喜彩蛋哦!
  • 扩散语言模型是超强的数据学习者

    扩散语言模型:打破因果屏障的”双面间谍”

    你以为语言模型只能像侦探一样,顺着线索一步步往前推?不不不,扩散语言模型直接化身”双面间谍”,从前后包抄信息,彻底甩开传统模型的”单行道思维”!

    两大秘籍:双向建模与反传统战术

  • 双向注意力:像八卦记者一样”前后通吃”
  • 传统自回归模型就像一位固执的老人,只认”前因后果”,非得按顺序预测单词。
  • 扩散模型则是个灵活的”社交达人”,既能往前看,也能往后瞧,从文本的四面八方搜集情报。
  • 突破因果限制:谁说数据非得排队?
  • 传统模型面对非因果数据(比如代码、DNA序列)时,就像非要给熊猫穿高跟鞋——不合脚!
  • 扩散模型则像个多面手,管你是什么数据,它都能左右开弓,挖掘更深层次的规律。
  • 结论: 扩散语言模型之所以学得快、学得好,就是因为它不像老派侦探死守规矩,而是像特工片里的主角,玩转双向建模,让数据开口说出更多秘密!
    华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    当AI变身”健身房猛男”:扩散模型的高密度计算之路

    你以为AI训练只是躺着吃数据?不如扩散模型这般”内卷”!这些家伙可是把”计算密度”练到了极致,堪称神经网络界的健身狂魔。

  • 高强度训练日常分解:*
  • 疯狂”撸铁”:每次推理都像在做100组深蹲,反复处理数据直到肌肉(性能)线条完美
  • 能量饮料当水喝:烧掉的FLOPs足够让普通模型当场虚脱
  • 迭代式魔鬼训练:”再来500次预测优化”是它们的口头禅
  • 结果?练就了让其他模型眼红的八块腹肌(模型性能)。不过要提醒各位AI同学:没有顶级显卡护具,请勿模仿这种硬核训练法!
    华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    当AI也开始”挑食”:模型界的快餐与米其林之争

  • 自回归模型:计算界的速食达人*
  • GPU的挚爱:这些模型就像快餐店厨子,靠着”教师强制”(强迫症式教学法)和”因果掩码”(遮住答案抄作业的学霸),把GPU的灶台烧得通红
  • 代价是…:建模能力被压缩得像外卖包装盒——明明点了豪华套餐,打开发现虾仁只有三颗
  • 数据饥饿新时代*:
  • 随着算力变成白菜价(相对哈勃望远镜的研发费来说),数据反而成了限量版和牛——
    这直接促使研究团队开发”DLMs”(可以理解为AI界的米其林餐厅)

  • 扩散模型的秘密武器*:
  • 预训练版”俄罗斯轮盘”:对每个数据点进行
  • 随机比例打码(像APP给敏感词加*号)
  • 组合扰动(类似把西红柿炒蛋做成蛋炒西红柿再做成西红柿蛋汤)
  • 数据循环利用术:同一段训练数据反复使用产生的效果,好比把同一只鸡做成白切鸡、炸鸡、鸡汤后,突然领悟了《禽类烹饪宇宙真理》
  • 华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    扩散模型:从”过目不忘”到”记忆大师的烦恼”

  • 当AI开始”背诵全文”而不是”理解概念”*
  • 扩散语言模型就像一群记忆力超群的学生:

  • 刚开始学习时表现优异,能举一反三
  • 但随着反复背诵训练材料(`epoch`逐日增加)
  • 最终变成了只会照本宣科的”复读机”
  • 这种现象在学术上被优雅地称为:
    “尽管对数据重复具有鲁棒性但经过足够训练周期后仍会出现过拟合”

  • 通俗版解释*:
  • 就像是背了100遍《新华字典》后
    见到”魑魅魍魉”能脱口而出
    但被问到”今天午饭吃什么”时
    只会回答”参见字典第528页关于食物的定义”

  • 过拟合的三大征兆*:
  • 对训练数据倒背如流
  • 面对新问题开始胡言乱语
  • 把随机噪声都当成”这题我背过”
  • (此刻某个扩散模型正在角落里碎碎念:”我才没有过拟合…没有过拟合…拟合…合…”)
    华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    深度学习的奇妙悖论:模型越大越任性?

    1. 当AI也开始”挑食”

    研究发现,模型的训练周期数和数据的关系就像小朋友吃蔬菜:

  • 数据越多越好:独特数据量大,模型就像个乖孩子,吃饭(训练)时间越长才开始耍赖(过拟合)。
  • 模型越大越皮:参数规模膨胀,AI马上变得任性,”我吃不下了!”(过早过拟合)。
  • 2. 过拟合≠变笨?

    研究人员发现了一件怪事:

  • 训练场王者,实战也疯狂:即使模型在预训练集上开始”死记硬背”(过拟合),它在实际任务上反而可能表现得越来越好,根本停不下来!
  • 学霸的秘密:也许这种”过度学习”反而帮它们抓住了更深层次的规律?
  • 这场面就仿佛——
    你以为孩子在抄作业(过拟合),结果人家默默考了个满分(下游性能提升)。看来,有时候AI的”作弊”比人类更高级!

  • 结论*:
  • 数据决定耐力:想延缓过拟合?多准备点高质量”食材”(数据)!
  • 大模型更容易累:参数超大可能会让AI提前”大脑宕机”,量力而行很重要!
  • 训练≠考试:训练时”背题”不一定是坏事,万一人家真的学透了呢?
  • 华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    机器学习的”恋爱脑”现象

    为什么验证损失和准确率总是在吵架?

    你以为AI模型很理性?天真!它们也有自己的”小情绪”呢!

    现象解析:

  • 交叉熵损失(NLL) – 就像一个固执的量表,永远用绝对数值说事:”这个答案错了就是错了,不接受反驳!”
  • 任务准确率 – 则是个灵活的”社会人”,只看相对表现:”虽然都不完美,但你答得比其他选项强就行!”
  • 关键矛盾点:

  • 绝对vs相对 – NLL坚持给每个答案打固定分,准确率只看排名第一的是谁
  • 敏感度差异 – 模型参数调整时,各项得分可能同时升降,但排名顺序纹丝不动
  • 表面不和 – 损失值愁眉苦脸地下滑,准确率却在旁边:”稳住,我们能赢!”
  • 简而言之,就像考试成绩单科分数下降但年级排名上升一样魔幻!这大概就是机器学习版的”退步原来是向前”吧~
    所以下次看到验证曲线和准确率曲线”闹分手”,别急着劝架,人家这是在玩欲擒故纵呢!华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    大模型训练中的”蜜汁自信”现象

  • 训练初期:天才儿童阶段*
  • 刚训练3600步(相当于幼儿园毕业),1B参数的模型就已经展现出”别人家的孩子”般的潜力
  • 在多选测试中,正确答案的NLL值(负对数似然)显著低于错误选项
  • 翻译成人话:这娃刚认字就知道把糖藏在哪里最不容易被妈妈发现
  • 训练中期:青春期叛逆*
  • 随着训练进行到64个周期(大约相当于高中阶段),模型开始出现典型的”过拟合”症状
  • 正确答案NLL上升:就像学霸突然在模拟考中翻车
  • 错误选项NLL也跟着涨:但学渣们挂科得更惨
  • 神奇的是,△NLL(NLL差值)持续扩大 —— 这说明虽然大家都退步了,学霸和学渣的差距反而更大了
  • 科学解释:模型版的”迷之自信”*
  • 反复刷题效应:模型把1.5B tokens的训练数据背得太熟,导致:
  • 对某些文本片段产生”这道题我闭着眼睛都能做对”的过度自信
  • 但碰到变形题时,错得越离谱的答案,它越要坚定地给低分
  • 生成式评估也适用:就像老师批改作文时,虽然你的错别字连篇,但只要核心观点够骚,还是能拿高分
  • 未来计划:升级版实验*
  • 研究者们准备:

  • 换更大的模型(从1B参数升级到”洪荒之力”版)
  • 用更多独特数据(不能老让AI刷五年高考三年模拟)
  • 验证假设:看看AI是不是真的能像人类一样 —— 明明知识漏洞百出,但怼人的逻辑越来越强
  • 作者介绍

    华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    Jinjie Ni:从电线杆到AI大牛的奇幻漂流

  • 本科时光:电工的自我修养*
  • 西北工业大学电气工程专业毕业
  • 没错,就是那个和电路板、变压器打交道的专业

  • 但显然,他很快发现”电”不够”智能”,于是决定换个赛道
  • 博士阶段:新加坡的代码悟道*
  • 南洋理工大学计算机科学博士
  • 从拧螺丝到敲代码,跨界就是这么朴实无华

  • 据说他的毕业论文差点让导师怀疑自己是不是收了个转专业的天才
  • 职场生涯:全球打怪升级路线*
  • 2019年:哈佛大学应用计算科学研究所助理
  • 在波士顿的咖啡和公式里悟出了人生真谛

  • 2022年:阿里巴巴达摩院研究实习生
  • 试图用AI预测双十一的老板们会不会秃头

  • 现在:新加坡国立大学SEA AI研究员
  • 和Michael Shieh教授一起研究怎么让AI更像人类,或者让人类更像AI?

  • 总结*
  • 一个从电工转型的AI奇才,用实力证明——专业不重要,跨界才刺激!
    华人团队终结Token危机:扩散模型数据潜力超自回归三倍

    Michael Shieh(谢其哲):从ACM班到DeepMind,再到NUS教授的编程人生

    你以为天才的人生都是一帆风顺的?那你可能没见过Michael Shieh(谢其哲)!这位大佬的故事简直就是程序员版的《励志偶像剧》。

    学霸少年养成记

  • 本科时期:上海交通大学ACM班。这可是传说中的“程序员孵化器”!进去的都是大神,出来的都是超神。
  • 硕士博士:卡内基梅隆大学。别的不说,光是这个名字一出,就能让很多科技公司的HR双眼发光。
  • 谷歌DeepMind的日子

    你以为拿了名校学位就能躺平?No! 人家跑去谷歌DeepMind搞了两年的AI研究,还是跟超级大佬Quoc LeThang Luong一起玩代码。没错,就是那种写了篇论文都能让AI圈抖三抖的人物。

    转身当了教授

    现在呢?人家去了新加坡国立大学(NUS)当助理教授,一边教书育人,一边继续在AI领域发光发热。别人是一边打工一边考虑转码,他是直接从码农升教授——这剧本怎么看的那么让人嫉妒呢?

  • 总结*:
  • Michael Shieh,这位从上海交大一路杀到NUS的学霸大神,告诉我们一个道理:如果你不是在ACM班刷题,那就赶紧看看他的论文——说不定下一个AI颠覆者就是你!
    (原文来自微信公众号“量子位”,作者“时令”

    © 版权声明

    相关文章