3,060
0

token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

数据饥荒时代的救星?扩散语言模型勇闯”token荒漠”

各位看官,今天我们要聊一个事关AI界”温饱问题”的重大发现。知道最近AI圈最火的”饥饿游戏”是什么吗?就是大伙儿都在为优质训练数据的短缺发愁!

“数据荒漠”里的淘金热

想象一下这样的场景:大语言模型(LLM)们像是生活在数据荒漠中的骆驼,而优质训练文本数据(tokens)就是那珍贵的绿洲。

  • 当前困境:”绿洲”快干涸了!去重后更显珍贵
  • 新增难题:新发现的”绿洲”要么偏远(获取成本高),要么是海市蜃楼(质量差)
  • 根据Scaling Laws定律,这帮”大骆驼”胃口越来越大,可食物却日渐稀缺——这就是所谓的”优质token不够训练”危机。

    新加坡国立大学的”数据转化机”

    这时候,Jinjie Ni教授带领的AI探索队宣布:我们发明了一台”数据转化机”——扩散语言模型(DLMs)!
    这支团队可谓是煞费苦心:

  • 从零开始训练了DLMs和自回归(AR)模型
  • 最大规模达到80亿参数
  • 消耗了4800亿tokens
  • 训练轮次高达480个epoch
  • 重点来了!*实验结果让人眼前一亮:
  • 数据饥荒时,DLMs表现超越AR,展现出3倍以上的数据潜力!
  • 一个”迷你”DLM(10亿参数/10亿tokens训练量)就展现出惊人能力:
  • HellaSwag常识推理:56%正确率
  • MMLU综合语言理解:33%正确率
  • 而且是”素颜出镜”(无特殊技巧/数据筛选)
  • 这个家伙特别耐操:喂的数据越多,表现越好,完全看不出吃撑的迹象!
  • 同行评比中的”打假斗士”

    这还不算完,研究团队还当起了”学术打假员”,指出了同行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的方法漏洞。
    Jinjie Ni教授在社交媒体X上详细分享了这些发现——看来AI界的数据饥荒终于看到了一丝曙光!说不定哪天,我们就能看到DLMs在语言模型的世界里开起”数据自助餐厅”了呢!
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    扩散语言模型:数据吸收界的”大胃王”

    最近一项研究彻底颠覆了我们对语言模型的理解——原来扩散式语言模型(DLMs)才是数据学习的”超级大胃王”!
    研究团队使出洪荒之力,从零开始训练了一批DLMs,最大的那个足足有:

  • 80亿参数(相当于80个比尔·盖茨的净资产)
  • 4800亿tokens(大概够人类从恐龙灭绝读到今天)
  • 实验结果显示:

  • DLMs简直就是数据界的黑洞:即使用普通的网页数据反复训练,它们也能比自回归(AR)模型更快”吃掉”数据
  • 身材不是问题:无论模型大小,DLMs在学习能力上都稳压AR模型一头
  • 胃口永不满足:DLMs展现出了惊人的学习潜力,完全不会像AR模型那样出现”吃饱了撑的”(性能饱和)的情况
  • 最劲爆的是:DLMs的终极数据消化能力居然是AR模型的三倍以上*!简直就是语言模型界的饕餮神兽。
  • 看来在AI界,”能吃就是福”这句话一点都没错!DLMs用实际行动证明:给我足够的数据,我能还你一个奇迹!
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    当你把课文抄480遍后…

  • 惊人发现:抄书抄到天荒地老,AI竟越抄越嗨!*
  • 实验概要

    科研团队突发奇想:”如果让AI把同一本书来来回回读480遍,会不会抄作业抄到睡着?”
    结果——不仅没睡,还考出了新高度!

    实验设定

  • 数据集:区区10亿token(大概相当于哈利波特全集?)
  • 训练方式:”死磕480遍”模式,累计看了4800亿token
  • 对照方法:传统AR模型(像个不爱复习的学渣)
  • 考试成绩单

    科目DLM(拼命复习选手)AR(临时抱佛脚选手)
    HellaSwag56%41%
    MMLU33%29%
  • 结论*:
  • AI界的”读书百遍,其义自现”——真的越抄分越高!
  • 饱和?不存在的! 哪怕数据反复横跳,AI仍然像海绵一样疯狂吸收知识。
  • 启示

    下次考前复习,也许该试试把课本吃透480遍?(手动狗头)
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    “装睡”的AI与它的奇妙表现

  • 现象描述*:
  • 训练室里,AI对着验证集分数愁眉苦脸 – “完蛋了,我又过拟合了!”
    但令人震惊的是:

  • 它在实际任务中表现得像个学霸
  • 性能表现一路狂飙
  • 就像考试前一天熬夜复习的人,成绩反而更好
  • 可能的解释*:
  • 你以为的”死记硬背”其实是”融会贯通”
  • 模型正在悄悄地学习通用特征
  • 所谓的”过拟合”可能只是训练集太简单
  • AI在假装过拟合来逗弄研究人员
  • 总结*:
  • 有时候连AI自己都不知道为什么表现这么好,就像醉汉也能正确找到家门一样神奇!
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    当AI开始”自欺欺人”:论模型的”过拟合”逆袭之路

  • 你以为过拟合就是模型的末日?不不不,它可能只是在憋大招!*
  • 最近研究人员盯着那些多选评测模型的成绩单,发现了一些”诡异”现象:

  • 真实答案的NLL(负对数似然)和其他选项的差距(△NLL)居然越拉越大
  • 即便在验证集上开始”过拟合”(也就是传统意义上的”翻车”指标上升),模型的底层”眼力”竟然还在狂飙
  • 而且这事儿不管在域内数据还是域外数据上都稳定发挥,堪称”熊孩子哪儿都能闹”。
  • 翻译成人话就是:*
  • 你: “完了完了,验证损失上升了,模型废了!”
  • AI: “不不不,我只是在偷偷提升自己的’火眼金睛’能力,你看到的都是假象!”
  • 结论:*
  • 过拟合≠坏孩子,也许是模型在努力变得更会辨别
  • 训练数据或评估方式可能需要重新定义,否则我们可能错怪了一颗正在进步的”AI心”……
  • 下次再看到验证损失上升,先别急着判模型死刑——说不定人家是战略性地假装堕落呢?
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    数据洪流与贪吃蛇:DLMs 的过拟合奇遇记

    当 AI 变成“死记硬背的学霸”

    深度学习模型(DLMs)就像是一个记忆力超强但有点死心眼的学生

  • “我能记住整本百科全书!” —— 一开始它确实对数据的重复毫不在意,甚至还能举一反三,像个真正的天才。
  • “等等……这道题我好像在哪见过?” —— 可是训练久了(e.g., 跑了足够多的 epoch),它就开始钻牛角尖了,不仅记住了数据,甚至还记住了训练集的噪点和印刷错误(没错,这就是过拟合)。
  • 数据 VS 模型:一场永不停歇的拔河比赛

  • “给我更多唯一的数据!” —— 更多的唯一数据?就像给这个学霸塞新书,它能撑久一点才开始“死记硬背”。
  • “啊,但我脑子变大了!” —— 更大的模型规模?完蛋,它的记忆宫殿瞬间升级成超级计算机,结果反而加速翻车,提前开始复读机模式。
  • 结论:DLMs 的终极困境

    你以为它在学习?其实它只是在背诵!你以为它在推理?其实它只是在复读!AI 的世界,就是这么真实(且略带讽刺)。
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    扩散语言模型:数据学习界的”双面间谍”

    为什么DLMs能成为数据学习界的扛把子?

  • 网页文本数据的”双面人生”
  • 想象一下,网页文本就像一个拥有多重人格的演员——它并不总是按因果套路出牌!虽然”不按常理出牌”会增加点损失,但人家表示:”我能行!”传统的因果建模方式就像只允许演员用一种表演风格,简直是暴殄天物!而DLMs则聪明地利用了扩散目标和双向注意力,活脱脱一个数据界的”双面间谍”,从正反两面榨干数据的每一滴信息。

  • 双向建模的”数据榨汁机”模式
  • DLMs就像一台高端榨汁机,不仅能正向挤压(因果),还能反向搅打(非因果)。网页数据在这台机器里被360度无死角处理,最后连果渣里的营养都不放过。传统模型还在单线程苦苦挣扎时,DLMs早已开启了”双核处理器”模式,把数据价值压榨到极致!
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    大数据模型:它们是数字世界里的”健身房猛男”

    让我们聊聊这些DLMs,也就是那些被称为”超密集模型”的家伙。它们简直就是人工智能界的健身狂魔——

  • FLOPs 是它们的蛋白粉 – 计算量越大,这些模型的”肌肉”就越发达
  • 疯狂举铁(计算) – 就像健身房里那个永远在做最后三组的家伙
  • 智力值飙升 – 训练之后就能举起(解决)更重(复杂)的任务
  • 这些模型用实际行动告诉我们:”兄弟,没有高强度的计算训练,哪来的惊人表现?”它们在数字世界里吃得最多(计算资源)、练得最狠(训练时长),自然就成了AI界的施瓦辛格!
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    当AR模型遇上数据饥荒:一场计算效率与数据的”内战”

    AR模型的”吝啬鬼”哲学

    谁说计算机不能精打细算?AR模型简直就是硅谷版的葛朗台!它们通过:

  • 教师强制训练:像个严厉的老师,时刻纠正你的错误
  • 因果掩码:把未来的答案锁在保险箱里绝不透露
  • GPU利用率最大化:连一秒钟的计算时间都不肯浪费
  • 但这些”省钱大招”也让它们变成了模型的”近视眼”——看着眼前的数据却看不清未来的可能性。

    数据困境:当计算便宜了,数据却”断供”了

    戏剧性转折来了!随着:

  • 硬件价格跳水(感谢摩尔定律)
  • 云计算价格战(巨头们的慈善事业)
  • 数据却突然成为罕见商品 —— 就像沙漠里的矿泉水
  • 这就好比一个健身房打折促销,结果发现所有人都在抢蛋白粉!

    扩散模型的”土豪”解决方案

    DLMs团队一拍大腿:”既然数据不够,那就把每个数据点当千手观音用!”它们的秘密武器是:

  • 多重损坏训练:把每个数据点在不同的:
  • 掩码比例下
  • 组合方式下
  • 破坏得连亲妈都认不出来
  • 最终达到的效果就像是把一块钱掰成八瓣花,还能赚到十块钱的收益——这就是重复训练的”炼金术”!

  • 结论*:在这个数据为王的新时代,AR模型可能需要重新考虑它们的”吝啬”策略了!
  • token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

  • 当科学论文演变成”大家来找茬”*
  • 滑稽版科研评论*
  • 这项宣称”Diffusion 在有限数据下完胜自回归模型”的研究,简直就像在学术圈扔了个烟雾弹!研究团队戴上放大镜仔细检查后,发现:

  • 论文里的”魔法数字”多得像魔法学校的课表
  • 数据预处理手法比变形金刚还能变形
  • 对照组设置简直就是在玩”大家来找不同”
  • 最搞笑的是,作者们可能是太着急证明自己了,犯的错误包括但不限于:

  • 把苹果和橙子放在一起比谁更圆
  • 选择性失明(只报告漂亮的实验结果)
  • 把”可能”说成”绝对”的学术版夸张修辞
  • 这项研究给我的启示:

  • 在学术界,”beat”这个词可能只是想说”轻轻碰了一下”
  • 读到惊人结论时,先数数作者用了几个”可能”、”或许”
  • 有时候方法章节比悬疑小说还烧脑
  • (温馨提示:本评论采用夸张手法呈现,具体学术问题请参考原始论文)
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    当学术论文遇上”薛定谔的损失函数”

    这篇arXiv论文([1])给我们展示了一个有趣的案例研究 – 如何在不确定损失函数是否正确的情况下完成整篇论文

    主要发现

  • 研究人员选择了一个神秘的公式(1)作为损失函数
  • 与理论上更可靠的掩码扩散损失(2)有明显差异
  • 严重问题:公式(1)并不能忠实表示模型似然
  • 最新进展

    作者在v3版本中悄悄加了个“线性时间依赖的重新加权项”(听起来像是给独轮车装了第二个轮子),但:

  • 所有实验似乎仍在用原来的独轮车…啊不,原来的公式(1)
  • 证据:图4(b)的损失范围和公式(1)完美吻合
  • 悬疑结尾

    最精彩的部分来了:

  • 代码仓库: 目前仍然像真空一样空(可能比黑洞还难找)
  • 复现: 现在整个社区都在玩”谁先复现成功”的游戏
  • 注:期待作者能解冻他们的代码,不然这篇论文可能会成为AI界的”尼斯湖水怪”——大家都在谈论,但没人真的见过它工作。*
  • token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    验证集损失:一场不公平的较量?

    当你用验证集损失来比较自回归模型(AR)扩散模型(DLM)的时候,就像是在让一个穿着拖鞋的短跑选手去跟穿顶级跑鞋的博尔特比百米冲刺——结果可能很不靠谱。为什么呢?

    原因1:损失函数本身就很狡猾

  • AR 直接衡量的是精确的负对数似然,相当于老板问你KPI完成得怎么样,你老老实实地报了个数。
  • DLM 测的却是一个上界,相当于你的同事打了个“保守估值”,实际怎么样?天知道!
  • 这就好比一个是实打实的存款,另一个是信用卡额度,两者的数值看着都挺高,但能直接比较吗?
  • 原因2:损失低 ≠ 能力强

    打个比方:

  • AR 就像一个极度谨慎的学生,考试时反复检查每一题,结果答得很慢但错误少。
  • DLM 更像一个快速蒙答案的考生,虽然不一定全对,但说不定还能蒙对几道难题。
  • 谁的损失更低?不一定是谁更强!

    原因3:不公平的PK

    令人无语的是:

  • [1] 的报告里,AR 根本没训练到最佳状态,像是一个还没练熟基本功的拳击手就被推上擂台。
  • DLM 却已经调到了巅峰状态,穿着一身高科技战甲上场。
  • 胜负早已注定,然而这样的比较却硬是被拿出来当“科学证据”——这不公平!
    总之,验证集损失单独拿出来做对比?不靠谱,就像拿巧克力和尺子比长短,完全不在一个频道上!
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    谁说模型大战不用讲武德?瞧这 AR 与扩散的”不公平对决”

    科学研究本该是一场绅士的游戏,但有些人偏偏喜欢在擂台上耍点”小心机”。看看这篇论文吧,它把自回归模型(AR)扩散模型拉来PK过拟合趋势,结果——

  • 给 AR 猛灌”蛋白粉”:使用了更大的模型规模
  • 却只让它吃少量多样化的”健身餐”更少的唯一训练 token
  • 这哪儿是公平竞赛?分明是让一个肌肉猛男(大模型)天天啃压缩饼干(数据不足)!谁不知道——

  • 大模型 + 低数据多样性 = 早衰预警*
  • (过拟合:嗨,我来了!)
    而扩散模型却享受着均衡饮食,难怪表现得像个淡定的养生派。下次搞实验,记得给选手发等量的”口粮”啊,不然这科学擂台赛,可就变成”迷惑行为大赏”了!
    (严肃补充:这种实验设计确实可能误导结论——规模和数据需匹配比较才有意义,不然就像让大象和兔子比谁更抗饿…)
    token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    谁说验证集不会闹脾气?

  • Scaling Law公式的天真假设*
  • 就像以为把冰箱门关上灯就会自己灭一样,[1]里的研究团队天真地假设验证集损失会永远乖乖不动。然而现实是:

  • 过拟合这个破坏王:当模型开始死记硬背训练数据时,验证集损失会像被踩了尾巴的猫一样突然蹿高
  • 歪掉的预测指南针:基于这个错误假设的结论,堪比用天气预报APP决定要不要穿秋裤——偏差大得能塞进一头北极熊
  • 最新进展:科学家的”疯狂”实验*
  • 实验团队目前正用下列配置挑战物理学常识:

  • 超级模型养成计划 —— 参数多到让显卡哭着喊妈妈
  • 论文界的饥饿营销 —— 具体细节?”详情请见下回分解”
  • (温馨提示:如需获得更多反常识的学术八卦,请自行订阅该团队的博客即将发布的论文——毕竟科学家们忙着调参,没空群发短信)

  • *:本文绝无嘲笑 scaling law 的意思,我们只是陈述它和验证集之间堪比肥皂剧的相爱相杀关系。
  • token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

    扩散模型:数据学习领域的“超级大胃王”

    当AI也开始暴饮暴食数据时

    最近,一项研究发现,扩散语言模型(Diffusion Models)在数据学习方面简直像个“无底洞”,什么数据都能一口吞下,而且消化得贼快。这不禁让人想起那些吃自助餐时永远填不饱肚子的朋友——只不过这次,它们吃的是数据!

    为什么它们是“超级大胃王”?

  • 数据吸收能力惊人:换个角度说,普通的AI模型可能是个“挑食”的娃,某些数据吃了就吐,而扩散模型嘛……啥都吃!
  • 泛化能力拉满:这些模型不仅能记住数据,还能举一反三。简单来说,就是吃了一道菜之后,能自动衍生出一整桌菜谱。
  • 效率爆表:它们在“营养吸收”(模型训练效率)上的表现堪比金鱼,转头就能忘记自己已经“吃撑”的事实。
  • 未来会怎样?

  • AI界的“大胃王争霸赛”:当大家都开始研究扩散模型时,训练数据的需求可能会暴涨,数据厂商和云计算公司估计要笑晕在厕所。
  • 训练成本暴涨?:如果扩散模型一直这么“能吃”,小实验室可能会被迫“节食”甚至“辟谷”,毕竟养不起啊!
  • 打破壁垒?:某些领域的Data-Hungry(数据饥渴)的问题或许能迎来突破性进展,毕竟扩散模型吃起数据从不挑食。
  • 结论

    扩散模型在AI界活像一位“终极饕餮”,把数据当自助餐,吃嘛嘛香!这种能力固然令人惊艳,不过未来的挑战依然存在——比如怎么让它们在不“暴饮暴食”的情况下保持高效。
    (P.S. 建议给扩散模型配个数据“健身教练”,免得它们最后吃出AI界的“三高”)
    本文灵感参考自[@NiJinjie](https://x.com/NiJinjie/status/1954177095435014533) 以及Notion博客《Diffusion Language Models are Super Data Learners》。原报道来自微信公众号“机器之心”。

    © 版权声明

    相关文章