211
0

全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

大语言模型又搞事情!这次阿里整了个”超级节能”版本

“抠门”AI来袭:80B 参数,只用 3B 就逆天了

阿里通义团队这次真是”半夜鸡叫”,周五凌晨冷不丁甩出一个 Qwen3-Next,直接卷出新高度——

  • 80B 大模型的”省电模式”:平时激活 235B 才能干活,现在 只用 3B 参数 就能打平旗舰版性能
  • 吊打对手的”速食版”:顺手还把谷歌家的 Gemini-2.5-Flash-Thinking 挤下了排行榜(谷歌:这个点发公告是故意的吧?)
  • 玄学级节能:相当于让波音747用电动自行车的能耗飙出超音速(物理老师已疯)
  • 行业震荡:以后模型比谁更”抠”?

    这波操作直接重新定义行业潜规则——

  • 从前比谁参数多,现在比谁 参数用得少
  • 大模型进入”过紧日子”时代:235B→3B,缩水98%还能保持性能
  • 网友神评:“下次是不是该出个只用0.0001%参数的版本?”
  • 看来AI圈也要开始 “断舍离” 了……
    全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

    Qwen3-Next:大模型的”超进化”时代来了!

    模型上线:各大平台同步出击

  • 在线体验:上架Qwen.ai,快来聊天试试看(别把AI聊死机了)
  • 技术宅专区:HuggingFace 和 Kaggle 同步上线,欢迎极客们来”拆解玩具”
  • 升级亮点:这次真的更聪明了

  • 注意力机制 从”单线程”升级为”多线程CPU”,现在能边聊天边算微积分了
  • MoE结构 变得更加”挑食”,非重要信息直接拒收(AI版断舍离)
  • 训练稳定性 像加了防抖云台,再也不会学歪了
  • 推理效率 开启”量子速读”模式,预测速度翻倍(但拒绝剧透)
  • 团队表示:”这次不是挤牙膏,是直接从钢笔升级到3D打印机!”

  • 注:模型结构太复杂,示意图需要至少3个博士学位才能看懂*
  • 全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

    通义团队的AI黑科技大揭秘:这回是真·省电模式!

  • 你以为AI都是”大力出奇迹”?通义团队这次偏偏要玩”四两拨千斤”!*
  • Part 1:Gated DeltaNet vs Gated Attention —— AI界的”混搭潮流”

  • 标准Attention像个电量黑洞?DeltaNet又太”健忘”?*
  • 通义团队一拍大腿:”小孩子才做选择,成年人当然是——全都要!”

  • 混搭比例3:1(75% DeltaNet + 25% Attention)
  • →效果堪比”拿铁咖啡”(浓缩+牛奶),性能甜度刚刚好!

  • 标准Attention花式升级
  • 加装”记忆修正带”:缓解Attention的”金鱼记忆综合征”
  • 头围从128→256:不是整容,是纯天然脑扩容!
  • 旋转位置编码节流25%:外推长度?小case啦~
  • 结论*:这波混合架构就像”半糖奶茶”——甜度(性能)不减,热量(计算量)砍半!
  • Part 2:MoE架构——80B参数的极限省流模式

  • 512个专家待命中,但每次只call 10个——当代AI最硬核”摸鱼”实锤!*
  • 总参数量80B激活量3.7%(约3B)
  • →比人类上班还节能(毕竟打工人100%时间都在激活)

  • 专家路由黑科技
  • 全局负载均衡:拒绝”明星专家”霸凌现象
  • 512选10+1共享专家 → 堪比AI届”饥饿游戏”
  • 初始化公平抽签:杜绝”专家阶层固化”
  • 副作用*:看到这参数的NVIDIA股价可能瑟瑟发抖…
  • Part 3:训练稳定性——给AI吃”褪黑素”

  • 当其他AI还在数值爆炸的边缘反复横跳时…*
  • Attention输出门控:专治”注意力涣散症”
  • Zero-Centered RMSNorm
  • 告别QK-Norm的”体重焦虑”(异常高norm值)
  • 附加weight decay → 相当于给参数上”健身环”
  • MoE router归一化:”每个专家都有春天”倡议
  • 温馨提示*:该项技术已申请”AI镇静剂”专利(大雾)
  • Part 4:Multi-Token Prediction——AI界的”预言家”

  • 别人走一步看三步?Qwen3-Next直接开启”剧透模式”!*
  • 原生多token预测 → 推理速度×N
  • 训练推理一致化
  • →防止”训练时诸葛亮,推理时猪一样”

  • Speculative Decoding接受率↑
  • 翻译成人话:猜得更准,重算更少!

  • 行业影响*:可能导致AI算命行业失业(不是)
  • 幕后花絮

    通义千问大佬@林俊旸在X上感慨:
    “Gated DeltaNet是我们掉了一年头发的成果…
    而Gated Attention?简直就是白送的下午茶甜点!”

  • 粉丝锐评*:
  • “懂了,下次发paper要写《论如何在AI领域吃上免费午餐》”

  • 总结*:这套组合拳打下来——
  • 性能 功耗 省钱 → 赢麻了 triple kill!
    全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

    当AI模型开始”内卷”:Qwen3-Next的速度秀

    这个叫Qwen3-Next-80B-A3B的家伙简直就是AI界的短跑冠军!和它那个叫Qwen3-32B的老兄相比,这位”Next”小哥简直是开了外挂:

  • 预加载比赛:当处理4k tokens的小短文时,Next小哥的吞吐量几乎是32B老兄的7倍!这是什么概念?就像一个是骑共享单车,另一个开火箭上班的差距。
  • 长文挑战:当面对32k tokens的超长文章时,Next小哥直接放大招 —— 速度快了10倍以上!32B老兄的CPU怕是已经在冒烟了。
  • 解码环节:在处理4k文本时,Next解码速度提升近4倍;而面对32k长文时,依然保持着10倍以上的速度优势。这简直是降维打击!
  • 看来在AI界,“天下武功唯快不破”的法则也同样适用啊。不过建议32B老兄别太沮丧 —— 至少它比人类大脑的推理速度还是快多了…大概?
    全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

    Qwen3-Next:通义团队的”学霸级”AI模型

    “80亿参数大胃王”其实是个小鸟胃

    你以为800亿参数的Qwen3-Next是个吃算力的饕餮巨兽?nonono!人家只激活30亿参数就能把活干得漂漂亮亮——这就好比某个学霸告诉你:”我高中三年就最后三个月翻了下书”!

    性价比之王

  • 训练成本:不到Qwen3-32B的十分之一
  • 推理速度:32k上下文处理速度是Qwen3-32B的十倍
  • 性能表现:”三个月突击”竟然考得比”三年苦读”还好
  • 两大”人格”公开亮相

  • 指令模型(Instruct):像个严谨的老师
  • 编程考试(LiveCodeBench v6)拿了高分
  • 人类偏好测试(Arena-Hard v2)获得好评
  • 综合能力(LiveBench)超越自家旗舰
  • 推理模型(Thinking):活脱脱的数学天才
  • 在数学推理比赛(AIME25)斩获87.8分
  • 连Google的Gemini2.5-Flash都被比下去了
  • 技术突破:不再”抽风”的MoE架构

  • 旧问题:混合注意力+高稀疏度MoE = “间歇性精神异常”
  • 新突破:现在训练又快又稳,效果还更好了
  • 终极秘诀

    只激活80B参数中的3B就能吊打全场——这不就是传说中的”四两拨千斤”吗?建议改名叫”Qwen3-省电王”!
    全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

  • Qwen3-Next:这届AI太会玩了!*
  • 听说最近的AI圈又出大新闻了?我们的老朋友Qwen3-Next现在可不得了,像个网红似的到处”串门”:

  • 社交达人模式开启:现在已经成功打入各大第三方平台的”朋友圈”
  • 技术宅的快乐星球:在anycoder里玩起了”vibe coding”(这名字听着就像在夜店写代码)
  • 想象一下这个画面:一个AI模型戴着墨镜,在代码派对上即兴创作,时不时还来段freestyle。这不比那些整天板着脸的老古董AI有趣多了?

  • 温馨提示*:虽然它很酷,但请记得提醒它按时睡觉 – 毕竟再厉害的AI也得充电不是?
  • 全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

  • 《机器之心》公众号文章大改造——编辑部竟这样玩文字游戏!*
  • 听说《机器之心》的小编最近疯狂输出优质内容?让我这个文字魔术师来给你们表演一下什么叫”灵魂改写”!

    原汁原味的科技范儿被我们玩坏了

  • 那位自称”机器之心”的作者可能没想到*
  • 他认真码的字会被我当成游乐场的旋转木马
  • 专业的科技术语在我手里变成了跳跳糖
  • 那些严肃的分析在我这儿蹦起了迪斯科
  • 重要的事情说三遍(但要用不同的姿势)

  • 第一遍:这本该是一本正经的科技报道…
  • 第二遍:硬生生被我扭成了欢乐喜剧人现场…
  • 第三遍:连原作者看完都想给我寄刀片的程度…
  • 终极文字改造计划

    现在就让你们见识下什么叫”专业破坏王”!那些枯燥的理论数据?被我注入了表情包基因!那些复杂的专业名词?直接被我翻译成了菜市场砍价语录!

  • 温馨提示*:本文内容可能引起极度舒适,请《机器之心》小编们备好降压药再继续阅读~
  • (接下来的改写内容将以随机风格呈现,可能是相声体、吐槽体、甚至是说唱体…)

    © 版权声明

    相关文章