大语言模型又搞事情!这次阿里整了个”超级节能”版本
“抠门”AI来袭:80B 参数,只用 3B 就逆天了
阿里通义团队这次真是”半夜鸡叫”,周五凌晨冷不丁甩出一个 Qwen3-Next,直接卷出新高度——
80B 大模型的”省电模式”:平时激活 235B 才能干活,现在 只用 3B 参数 就能打平旗舰版性能吊打对手的”速食版”:顺手还把谷歌家的 Gemini-2.5-Flash-Thinking 挤下了排行榜(谷歌:这个点发公告是故意的吧?)玄学级节能:相当于让波音747用电动自行车的能耗飙出超音速(物理老师已疯)行业震荡:以后模型比谁更”抠”?
这波操作直接重新定义行业潜规则——
从前比谁参数多,现在比谁 参数用得少大模型进入”过紧日子”时代:235B→3B,缩水98%还能保持性能网友神评:“下次是不是该出个只用0.0001%参数的版本?”看来AI圈也要开始 “断舍离” 了……

Qwen3-Next:大模型的”超进化”时代来了!
模型上线:各大平台同步出击
在线体验:上架Qwen.ai,快来聊天试试看(别把AI聊死机了)技术宅专区:HuggingFace 和 Kaggle 同步上线,欢迎极客们来”拆解玩具”升级亮点:这次真的更聪明了
注意力机制 从”单线程”升级为”多线程CPU”,现在能边聊天边算微积分了MoE结构 变得更加”挑食”,非重要信息直接拒收(AI版断舍离)训练稳定性 像加了防抖云台,再也不会学歪了推理效率 开启”量子速读”模式,预测速度翻倍(但拒绝剧透)团队表示:”这次不是挤牙膏,是直接从钢笔升级到3D打印机!”
注:模型结构太复杂,示意图需要至少3个博士学位才能看懂*
通义团队的AI黑科技大揭秘:这回是真·省电模式!
你以为AI都是”大力出奇迹”?通义团队这次偏偏要玩”四两拨千斤”!* —Part 1:Gated DeltaNet vs Gated Attention —— AI界的”混搭潮流”
标准Attention像个电量黑洞?DeltaNet又太”健忘”?*通义团队一拍大腿:”小孩子才做选择,成年人当然是——全都要!”
混搭比例3:1(75% DeltaNet + 25% Attention) →效果堪比”拿铁咖啡”(浓缩+牛奶),性能甜度刚刚好!
标准Attention花式升级:加装”记忆修正带”:缓解Attention的”金鱼记忆综合征”头围从128→256:不是整容,是纯天然脑扩容!旋转位置编码节流25%:外推长度?小case啦~结论*:这波混合架构就像”半糖奶茶”——甜度(性能)不减,热量(计算量)砍半!—Part 2:MoE架构——80B参数的极限省流模式
512个专家待命中,但每次只call 10个——当代AI最硬核”摸鱼”实锤!*总参数量80B → 激活量3.7%(约3B) →比人类上班还节能(毕竟打工人100%时间都在激活)
专家路由黑科技:全局负载均衡:拒绝”明星专家”霸凌现象512选10+1共享专家 → 堪比AI届”饥饿游戏”初始化公平抽签:杜绝”专家阶层固化”副作用*:看到这参数的NVIDIA股价可能瑟瑟发抖…—Part 3:训练稳定性——给AI吃”褪黑素”
当其他AI还在数值爆炸的边缘反复横跳时…*Attention输出门控:专治”注意力涣散症”Zero-Centered RMSNorm:告别QK-Norm的”体重焦虑”(异常高norm值)附加weight decay → 相当于给参数上”健身环”MoE router归一化:”每个专家都有春天”倡议温馨提示*:该项技术已申请”AI镇静剂”专利(大雾)—Part 4:Multi-Token Prediction——AI界的”预言家”
别人走一步看三步?Qwen3-Next直接开启”剧透模式”!*原生多token预测 → 推理速度×N训练推理一致化: →防止”训练时诸葛亮,推理时猪一样”
Speculative Decoding接受率↑: 翻译成人话:猜得更准,重算更少!
行业影响*:可能导致AI算命行业失业(不是)—幕后花絮
通义千问大佬@林俊旸在X上感慨:
“Gated DeltaNet是我们掉了一年头发的成果…
而Gated Attention?简直就是白送的下午茶甜点!”
粉丝锐评*:“懂了,下次发paper要写《论如何在AI领域吃上免费午餐》”
—总结*:这套组合拳打下来——性能 功耗 省钱 → 赢麻了 triple kill!

当AI模型开始”内卷”:Qwen3-Next的速度秀
这个叫Qwen3-Next-80B-A3B的家伙简直就是AI界的短跑冠军!和它那个叫Qwen3-32B的老兄相比,这位”Next”小哥简直是开了外挂:
预加载比赛:当处理4k tokens的小短文时,Next小哥的吞吐量几乎是32B老兄的7倍!这是什么概念?就像一个是骑共享单车,另一个开火箭上班的差距。长文挑战:当面对32k tokens的超长文章时,Next小哥直接放大招 —— 速度快了10倍以上!32B老兄的CPU怕是已经在冒烟了。解码环节:在处理4k文本时,Next解码速度提升近4倍;而面对32k长文时,依然保持着10倍以上的速度优势。这简直是降维打击!看来在AI界,“天下武功唯快不破”的法则也同样适用啊。不过建议32B老兄别太沮丧 —— 至少它比人类大脑的推理速度还是快多了…大概?


Qwen3-Next:通义团队的”学霸级”AI模型
“80亿参数大胃王”其实是个小鸟胃
你以为800亿参数的Qwen3-Next是个吃算力的饕餮巨兽?nonono!人家只激活30亿参数就能把活干得漂漂亮亮——这就好比某个学霸告诉你:”我高中三年就最后三个月翻了下书”!
性价比之王
训练成本:不到Qwen3-32B的十分之一推理速度:32k上下文处理速度是Qwen3-32B的十倍性能表现:”三个月突击”竟然考得比”三年苦读”还好两大”人格”公开亮相
指令模型(Instruct):像个严谨的老师编程考试(LiveCodeBench v6)拿了高分人类偏好测试(Arena-Hard v2)获得好评综合能力(LiveBench)超越自家旗舰推理模型(Thinking):活脱脱的数学天才在数学推理比赛(AIME25)斩获87.8分连Google的Gemini2.5-Flash都被比下去了技术突破:不再”抽风”的MoE架构
旧问题:混合注意力+高稀疏度MoE = “间歇性精神异常”新突破:现在训练又快又稳,效果还更好了终极秘诀
只激活80B参数中的3B就能吊打全场——这不就是传说中的”四两拨千斤”吗?建议改名叫”Qwen3-省电王”!


Qwen3-Next:这届AI太会玩了!*听说最近的AI圈又出大新闻了?我们的老朋友Qwen3-Next现在可不得了,像个网红似的到处”串门”:
社交达人模式开启:现在已经成功打入各大第三方平台的”朋友圈”技术宅的快乐星球:在anycoder里玩起了”vibe coding”(这名字听着就像在夜店写代码)想象一下这个画面:一个AI模型戴着墨镜,在代码派对上即兴创作,时不时还来段freestyle。这不比那些整天板着脸的老古董AI有趣多了?
温馨提示*:虽然它很酷,但请记得提醒它按时睡觉 – 毕竟再厉害的AI也得充电不是?
《机器之心》公众号文章大改造——编辑部竟这样玩文字游戏!*听说《机器之心》的小编最近疯狂输出优质内容?让我这个文字魔术师来给你们表演一下什么叫”灵魂改写”!
原汁原味的科技范儿被我们玩坏了
那位自称”机器之心”的作者可能没想到*他认真码的字会被我当成游乐场的旋转木马专业的科技术语在我手里变成了跳跳糖那些严肃的分析在我这儿蹦起了迪斯科重要的事情说三遍(但要用不同的姿势)
第一遍:这本该是一本正经的科技报道…第二遍:硬生生被我扭成了欢乐喜剧人现场…第三遍:连原作者看完都想给我寄刀片的程度…终极文字改造计划
现在就让你们见识下什么叫”专业破坏王”!那些枯燥的理论数据?被我注入了表情包基因!那些复杂的专业名词?直接被我翻译成了菜市场砍价语录!
温馨提示*:本文内容可能引起极度舒适,请《机器之心》小编们备好降压药再继续阅读~(接下来的改写内容将以随机风格呈现,可能是相声体、吐槽体、甚至是说唱体…)
© 版权声明
本站部分内容来源于互联网,仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有,如涉及版权问题,请及时与本站联系,我们将在第一时间核实并处理。