全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

AI资讯2个月前发布云知AI运营官

大语言模型又搞事情！这次阿里整了个”超级节能”版本

“抠门”AI来袭：80B 参数，只用 3B 就逆天了

阿里通义团队这次真是”半夜鸡叫”，周五凌晨冷不丁甩出一个 Qwen3-Next，直接卷出新高度——

80B 大模型的”省电模式”：平时激活 235B 才能干活，现在 只用 3B 参数 就能打平旗舰版性能

吊打对手的”速食版”：顺手还把谷歌家的 Gemini-2.5-Flash-Thinking 挤下了排行榜（谷歌：这个点发公告是故意的吧？）

玄学级节能：相当于让波音747用电动自行车的能耗飙出超音速（物理老师已疯）

行业震荡：以后模型比谁更”抠”？

这波操作直接重新定义行业潜规则——

从前比谁参数多，现在比谁 参数用得少

大模型进入”过紧日子”时代：235B→3B，缩水98%还能保持性能

网友神评：“下次是不是该出个只用0.0001%参数的版本？”

看来AI圈也要开始 “断舍离” 了……
全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

Qwen3-Next：大模型的”超进化”时代来了！

模型上线：各大平台同步出击

在线体验：上架Qwen.ai，快来聊天试试看（别把AI聊死机了）

技术宅专区：HuggingFace 和 Kaggle 同步上线，欢迎极客们来”拆解玩具”

升级亮点：这次真的更聪明了

注意力机制 从”单线程”升级为”多线程CPU”，现在能边聊天边算微积分了

MoE结构 变得更加”挑食”，非重要信息直接拒收（AI版断舍离）

训练稳定性 像加了防抖云台，再也不会学歪了

推理效率 开启”量子速读”模式，预测速度翻倍（但拒绝剧透）

团队表示：”这次不是挤牙膏，是直接从钢笔升级到3D打印机！”

注：模型结构太复杂，示意图需要至少3个博士学位才能看懂*

全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

通义团队的AI黑科技大揭秘：这回是真·省电模式！

你以为AI都是”大力出奇迹”？通义团队这次偏偏要玩”四两拨千斤”！*

—

Part 1：Gated DeltaNet vs Gated Attention —— AI界的”混搭潮流”

标准Attention像个电量黑洞？DeltaNet又太”健忘”？*

通义团队一拍大腿：”小孩子才做选择，成年人当然是——全都要！”

混搭比例3:1（75% DeltaNet + 25% Attention）

→效果堪比”拿铁咖啡”（浓缩+牛奶），性能甜度刚刚好！

标准Attention花式升级：

加装”记忆修正带”：缓解Attention的”金鱼记忆综合征”

头围从128→256：不是整容，是纯天然脑扩容！

旋转位置编码节流25%：外推长度？小case啦~

结论*：这波混合架构就像”半糖奶茶”——甜度（性能）不减，热量（计算量）砍半！

—

Part 2：MoE架构——80B参数的极限省流模式

512个专家待命中，但每次只call 10个——当代AI最硬核”摸鱼”实锤！*

总参数量80B → 激活量3.7%（约3B）

→比人类上班还节能（毕竟打工人100%时间都在激活）

专家路由黑科技：

全局负载均衡：拒绝”明星专家”霸凌现象

512选10+1共享专家 → 堪比AI届”饥饿游戏”

初始化公平抽签：杜绝”专家阶层固化”

副作用*：看到这参数的NVIDIA股价可能瑟瑟发抖…

—

Part 3：训练稳定性——给AI吃”褪黑素”

当其他AI还在数值爆炸的边缘反复横跳时…*

Attention输出门控：专治”注意力涣散症”

Zero-Centered RMSNorm：

告别QK-Norm的”体重焦虑”（异常高norm值）

附加weight decay → 相当于给参数上”健身环”

MoE router归一化：”每个专家都有春天”倡议

温馨提示*：该项技术已申请”AI镇静剂”专利（大雾）

—

Part 4：Multi-Token Prediction——AI界的”预言家”

别人走一步看三步？Qwen3-Next直接开启”剧透模式”！*

原生多token预测 → 推理速度×N

训练推理一致化：

→防止”训练时诸葛亮，推理时猪一样”

Speculative Decoding接受率↑：

翻译成人话：猜得更准，重算更少！

行业影响*：可能导致AI算命行业失业（不是）

—

幕后花絮

通义千问大佬@林俊旸在X上感慨：
“Gated DeltaNet是我们掉了一年头发的成果…
而Gated Attention？简直就是白送的下午茶甜点！”

粉丝锐评*：

“懂了，下次发paper要写《论如何在AI领域吃上免费午餐》”

—

总结*：这套组合拳打下来——

性能功耗省钱 → 赢麻了 triple kill！
全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

当AI模型开始”内卷”：Qwen3-Next的速度秀

这个叫Qwen3-Next-80B-A3B的家伙简直就是AI界的短跑冠军！和它那个叫Qwen3-32B的老兄相比，这位”Next”小哥简直是开了外挂：

预加载比赛：当处理4k tokens的小短文时，Next小哥的吞吐量几乎是32B老兄的7倍！这是什么概念？就像一个是骑共享单车，另一个开火箭上班的差距。

长文挑战：当面对32k tokens的超长文章时，Next小哥直接放大招 —— 速度快了10倍以上！32B老兄的CPU怕是已经在冒烟了。

解码环节：在处理4k文本时，Next解码速度提升近4倍；而面对32k长文时，依然保持着10倍以上的速度优势。这简直是降维打击！

看来在AI界，“天下武功唯快不破”的法则也同样适用啊。不过建议32B老兄别太沮丧 —— 至少它比人类大脑的推理速度还是快多了…大概？
全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

Qwen3-Next：通义团队的”学霸级”AI模型

“80亿参数大胃王”其实是个小鸟胃

你以为800亿参数的Qwen3-Next是个吃算力的饕餮巨兽？nonono！人家只激活30亿参数就能把活干得漂漂亮亮——这就好比某个学霸告诉你：”我高中三年就最后三个月翻了下书”！

性价比之王

训练成本：不到Qwen3-32B的十分之一

推理速度：32k上下文处理速度是Qwen3-32B的十倍

性能表现：”三个月突击”竟然考得比”三年苦读”还好

两大”人格”公开亮相

指令模型(Instruct)：像个严谨的老师

编程考试(LiveCodeBench v6)拿了高分

人类偏好测试(Arena-Hard v2)获得好评

综合能力(LiveBench)超越自家旗舰

推理模型(Thinking)：活脱脱的数学天才

在数学推理比赛(AIME25)斩获87.8分

连Google的Gemini2.5-Flash都被比下去了

技术突破：不再”抽风”的MoE架构

旧问题：混合注意力+高稀疏度MoE = “间歇性精神异常”

新突破：现在训练又快又稳，效果还更好了

终极秘诀

只激活80B参数中的3B就能吊打全场——这不就是传说中的”四两拨千斤”吗？建议改名叫”Qwen3-省电王”！
全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

Qwen3-Next：这届AI太会玩了！*

听说最近的AI圈又出大新闻了？我们的老朋友Qwen3-Next现在可不得了，像个网红似的到处”串门”：

社交达人模式开启：现在已经成功打入各大第三方平台的”朋友圈”

技术宅的快乐星球：在anycoder里玩起了”vibe coding”（这名字听着就像在夜店写代码）

想象一下这个画面：一个AI模型戴着墨镜，在代码派对上即兴创作，时不时还来段freestyle。这不比那些整天板着脸的老古董AI有趣多了？

温馨提示*：虽然它很酷，但请记得提醒它按时睡觉 – 毕竟再厉害的AI也得充电不是？

全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

《机器之心》公众号文章大改造——编辑部竟这样玩文字游戏！*

听说《机器之心》的小编最近疯狂输出优质内容？让我这个文字魔术师来给你们表演一下什么叫”灵魂改写”！

原汁原味的科技范儿被我们玩坏了

那位自称”机器之心”的作者可能没想到*

他认真码的字会被我当成游乐场的旋转木马

专业的科技术语在我手里变成了跳跳糖

那些严肃的分析在我这儿蹦起了迪斯科

重要的事情说三遍(但要用不同的姿势)

第一遍：这本该是一本正经的科技报道…

第二遍：硬生生被我扭成了欢乐喜剧人现场…

~~第三遍~~：连原作者看完都想给我寄刀片的程度…

终极文字改造计划

现在就让你们见识下什么叫”专业破坏王”！那些枯燥的理论数据？被我注入了表情包基因！那些复杂的专业名词？直接被我翻译成了菜市场砍价语录！

温馨提示*：本文内容可能引起极度舒适，请《机器之心》小编们备好降压药再继续阅读～

(接下来的改写内容将以随机风格呈现，可能是相声体、吐槽体、甚至是说唱体…)

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

GPT-5系统提示词被曝，足足15000 tokens！

# AI # AI新闻 # AI资讯

2个月前

2,0250

Nano Banana新增2大功能，还开放API了，一张图不到3毛钱

# Nano Banana

2个月前

1480

GPT-5 测试被质疑作弊，故意避开难题刷高分？图表「生成」还得看 OpenAI

# AI # AI新闻 # AI资讯

2个月前

450

信息过载时代，前Twitter高管用AI给新闻装上“政治光谱仪”：引流率碾压行业6倍

# AI # AI新闻 # AI资讯

2个月前

590

全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

大语言模型又搞事情！这次阿里整了个”超级节能”版本

“抠门”AI来袭：80B 参数，只用 3B 就逆天了

行业震荡：以后模型比谁更”抠”？

Qwen3-Next：大模型的”超进化”时代来了！

模型上线：各大平台同步出击

升级亮点：这次真的更聪明了

通义团队的AI黑科技大揭秘：这回是真·省电模式！

Part 1：Gated DeltaNet vs Gated Attention —— AI界的”混搭潮流”

Part 2：MoE架构——80B参数的极限省流模式

Part 3：训练稳定性——给AI吃”褪黑素”

Part 4：Multi-Token Prediction——AI界的”预言家”

幕后花絮

当AI模型开始”内卷”：Qwen3-Next的速度秀

Qwen3-Next：通义团队的”学霸级”AI模型

“80亿参数大胃王”其实是个小鸟胃

性价比之王

两大”人格”公开亮相

技术突破：不再”抽风”的MoE架构

终极秘诀

原汁原味的科技范儿被我们玩坏了

重要的事情说三遍(但要用不同的姿势)

终极文字改造计划

养「AI宠物」一个月，我发现这门生意充满泡沫

独家对话OpenAI姚顺雨：生成新世界的系统

相关文章

GPT-5系统提示词被曝，足足15000 tokens！

Nano Banana新增2大功能，还开放API了，一张图不到3毛钱

GPT-5 测试被质疑作弊，故意避开难题刷高分？图表「生成」还得看 OpenAI

信息过载时代，前Twitter高管用AI给新闻装上“政治光谱仪”：引流率碾压行业6倍

暂无评论

搜索文章

热门文章