模型界的”提前放暑假”?Qwen3-Next突然来袭
据可靠消息*(其实就是Qwen团队自己说的):那帮每天喝咖啡调参数的工程师们,这次又任性了一把。他们的下一代模型架构——Qwen3-Next,仿佛一个”等不及过年提前吃饺子”的孩子,迫不及待地跟大家见面了。发生了什么?
原以为会按部就班推出的Qwen3.5结果变成了”Qwen3-Next抢先预览版”用团队负责人林俊旸的话说:”来吧,先解解馋”用户反应异常真实
“你们AI界也搞’完蛋被看光光’操作?”“这是不是说明…其实正式版会更炸裂?”“团队是不是调参调嗨了熬夜发布的…”据内部人士透露*:这次的”抢先”行为,纯属科研人员那种”憋不住好消息”的职业病发作。搞技术的人嘛,有什么新发现,就跟小学生考了100分一样,第二天就想让全班知道。温馨提示*:虽然叫”抢先版”,但功能一点都不含糊。建议感兴趣的朋友可以去试试,说不定能发现一些工程师们在兴奋状态下偷偷塞进去的”彩蛋”功能。
科技界的奇幻蜕变:Qwen3-Next的神奇升级
嘿,人工智能的世界总是充满了惊喜!你见过一种新模型,不仅更省钱,还能跑得更快吗?来看看Qwen3-Next-80B-A3B-Base吧!
省钱王者:训练成本低到Qwen3-32B的十分之一,感觉像是AI界的双十一打折福利!快到飞起:在处理32k以上上下文推理时,吞吐量直奔十倍飙升,简直是模型界的“高速公路赛车”!谁说强大一定意味着昂贵和缓慢?现在的AI已经开始玩颠覆了!

AI界的”闪电侠”——Qwen3-Next家族的双胞胎横空出世
“这更新速度,怕不是在家里藏了个时间加速器?”*瞧瞧这支神秘团队,他们最近就像是打了鸡血似的,一口气甩出了两张“王炸”——
Qwen3-Next-80B-A3B-Instruct:256K超长上下文?轻松拿捏!别的模型还在努力读完一部长篇小说时,它已经把《战争与和平》全文背诵并写了一份思维导图。Qwen3-Next-80B-A3B-Thinking:Gemini-2.5-Flash-Thinking?抱歉,它已经成为“前任”了。这位新同学不仅跑得快,脑子还转得比风车还溜,直接把闭源大佬踢下了基准测试的王座。网友们纷纷惊叹:“你们这更新速度是怕地球自转不够快吗?”
至于下一个版本的预告?“别急,可能我们刚刚发完这条消息,下一个模型就已经在路上了。”

【暴走科研版】新模型大揭秘!
各位实验室的科技狂人们!把你们的咖啡杯放一放,试管架先别碰,显微镜调个焦——因为今天我们要来欣赏人工智障…啊不是,人工智能的最新力作!
新模型三大”黑科技”
脑容量暴增:这次直接把参数堆到了让显卡哭爹喊娘的程度推理速度:从树懒升级到了疯狂松鼠级别精准度:终于不会把猫认成狗了…大部分时候什么?具体改进细节?*那当然要用我们独特的科研术语来描述了:前馈网络采用了”量子玄学”连接方式注意力机制使用了”我也不知道为什么但就是work”架构损失函数经过”反正调参工程师头发已经掉光了”优化算法坐稳扶好!这个模型可能会让你惊呼:”天啊它居然能正确回答问题了!”(虽然有时候还是会胡说八道)
—P.S. 以上”专业术语”解释权归实验室饮水机旁闲聊的博士生们所有*4大重要改进
Qwen3-Next:当AI模型也学会了“多线程工作”
1. 混合注意力机制——既爱“分心”又爱“专注”
谁说一心不可二用?Qwen3-Next的混合注意力机制就像是学霸边听歌边写作业,看似“分心”,实际上既能全局把控,又能专注细节处理。
2. 高稀疏度MoE结构——别啥都喊专家,择优录取!
传统的AI模型像个万事通,啥都学但啥都不精。这次Qwen3-Next的MoE(专家混合)结构学会了“偷懒”——不是所有任务都找同一个“专家”,而是按需分配。事实证明,AI也懂“术业有专攻”!
3. 稳定性优化——告别“跑着跑着就跑偏”
训练大模型和驯服哈士奇差不多,稍不留神就跑偏了。但Qwen3-Next这次优化了稳定性,就像给哈奇士装了个GPS,确保它在正确的轨道上狂奔,而不是拆家式训练。
4. 多token预测机制——让AI“开口成章”
传统的AI生成文本一个字一个字往外“憋”。而多token预测让AI学会了“出口成章”,一口气预测多个词,效率直接起飞!就像从“结巴型输出”升级到“演说家型输出”!
总结
Qwen3-Next的核心改进,本质是让AI模型:更聪明(混合注意力)、更会偷懒(MoE)、更稳健(稳定性)、更会说(多token预测)。这不就是打工人的终极进化版吗?
混合注意力机制
当注意力机制开始”挑食”:Gated DeltaNet与那场3:1的浪漫邂逅
线性注意力就像一位”速食主义”程序员——处理长文本飞快,但记性差得连昨天吃的什么外卖都回忆不起来;而标准注意力则是个”完美主义强迫症”,计算起来连CPU都想罢工。
这时候,Qwen团队祭出了Gated DeltaNet——这位”混血选手”在上下文学习的赛道上,轻松把滑动窗口注意力和Mamba2甩出几条街。但团队深知”偏科生没前途”,于是搞了场3:1的包办婚姻:
75%的楼层交给Gated DeltaNet蹦迪(毕竟省电)25%的楼层留给标准注意力当”老干部活动中心”但老干部们也没闲着,全员开启”养生模式”优化套餐:
门控机制:给低秩问题贴了张退烧贴头围膨胀:单个注意力头的帽子从128码换成了256码(可能是知识太多绷的)选择性旋转:只在注意力头的前25%维度加旋转编码,剩下的75%继续躺平——这大概就是AI界的”地中海式聪明绝顶”最终成果?一个既能”跑马拉松”又能”背圆周率”的六边形战士,堪称注意力界的瑞士军刀。(就是不知道这把刀的电池续航怎么样)
注:本文献给所有曾经被OOM杀死的显卡
高稀疏度MoE结构
当AI开始”点菜”式学习:Qwen3-Next的专家套餐了解一下?
Qwen3-Next简直就是AI界的”自助餐高手”——虽然菜单上有800亿道菜(参数),但它每次只挑30亿道吃(激活参数)。这可不像某些AI,动不动就把整本菜单都点一遍(说的就是你,全参数模型)。
专家团配置对比
老款Qwen3-MoE:128位专家随叫随到,但只有8位”点菜顾问”(路由专家)来决定谁上场。新一代Qwen3-Next:豪华套餐!512位专家全天候待命,配置了10位”金牌点菜师”(路由专家)+1位”共享大师傅”(共享专家),精准匹配需求,绝不浪费一丝计算粮食!结论:Qwen3-Next不仅胃口惊人,还懂得精打细算,既保证了高端AI的智商,又不会把计算力当自助餐券乱刷。真正的AI界”抠门王”!*训练稳定性优化
Qwen3-Next的”稳”字诀
1. 模型界的”体重管理”方案
Zero-Centered RMSNorm 闪亮登场:可不是一般的Norm,它自带”零中心”属性,让模型稳定得像练了十年瑜伽的修行者。Weight decay的”紧箍咒”:给norm weight来个”节食计划”,避免它们像过年后的体重一样疯狂膨胀,确保不会在训练过程中”放飞自我”。2. 初始化阶段的“公平抽奖机制”
MoE router参数归一化:防止某个expert因为名字好听(或者长得帅)就总是被优先选中,让所有expert在训练早期能平等参与,避免”开局即崩盘”现象。无偏选择:谁也不想看到自己的模型在初期就被几个”宠儿专家”带跑偏,对吧?Qwen3-Next的团队显然比选秀节目的评委公平多了。总结:从”体重控制”到”公平竞争”,Qwen3-Next在稳定性上狠狠拿捏了!*多token预测机制
Qwen3-Next:当AI学会”走一步看三步”!
听说Qwen3-Next最近偷偷修炼了门绝技——Multi-Token Prediction(MTP)!别人还在”张嘴等饭”,它已经预判你的预判,连干三碗!到底怎么做到的?
MTP 机制:不是随机猜,而是精准”偷看”
它可不是乱蒙的,通过训(调)练(教),搞出了高接受率的MTP模块,还能顺便让模型整体战斗力+10086!
多步推理:让AI变成”小诸葛”
光会预判还不够,Qwen3-Next 还搞了个专项优化——多步推理。简单来说:
训练时:学会”走一步,看三步”,避免自己打脸推理时:稳准狠地提升接受率,拒绝”卡壳”以后它的表现估计是:
“用户:……”Qwen3-Next:(内心OS)别说了,我知道你要问啥,答案已经生成好了!结论:这AI怕不是快成精了?
快10倍,但便宜10倍
科技不死,段子永存——论Qwen3-Next模型的”节俭时尚主义”*各位看官快来看啊,这个模型界的”环保标兵”Qwen3-Next,走的是当下最时髦的”极简风”训练路线:
食材要求高:只用Qwen3 36T语料的”有机子集”(确定不是边角料?)饭量特别小:15T tokens的训练量,相当于其他模型的”减肥餐”标准效果待验证:就像我那个总说”吃饱了”的减肥室友,最后总得称体重才见真章这简直是AI界的”轻断食疗法”,让我们拭目以待它到底是能”羽化成仙”,还是会饿得连”1+1″都算成”11″~

这届AI也太省电了吧!
你们家那个耗电大户Qwen3-30A-3B听着啊——
新版Qwen3-Next简直是个节能标兵:*训练耗电量直接打了个八折用不到十分之一的电费(对,就是9.3%)就把Qwen3-32B按在地上摩擦重点来了!*这个混血儿架构的推理效率简直离谱:
在4k长度聊天时,速度是老前辈的7倍(建议改名叫Qwen3-闪电)处理32k超长文时直接开挂——10倍速飙车!(隔壁实验室研究员已经哭晕在GPU机柜旁边)

当”解码”遇上”闪电侠”
在AI的世界里,”解码”这个词听起来有点像是在拆炸弹,但实际上比拆炸弹刺激多了——因为这里没有红线,只有速度线!
4k上下文?小菜一碟! 普通的模型可能还在慢悠悠地翻页,而我们这位”闪电侠”已经以4倍加速直接冲过终点线,甚至还抽空喝了一杯咖啡(当然,AI不喝咖啡,但它可以假装很悠闲)。
32k+ 长上下文?照样稳如老狗! 有些模型一听到”32k”就腿软,直接卡成PPT。而我们这位不仅不慌,还能在跑马拉松的同时保持10倍以上的吞吐优势——这大概就是AI界的博尔特吧,只不过它不穿钉鞋,穿的是代码。
所以,下次有人说”解码太慢”,请直接甩出这位“带涡轮增压的AI解码器”,让他们知道什么叫真正的”光速操作”!

Qwen3-Next:大力出奇迹,还是微操定乾坤?
谁说便宜没好货?* Qwen团队这次用行动狠狠地打了这句话的脸!他们最新推出的Qwen3-Next-80B-A3B-Base模型简直就像是一个”抠门”的天才:只用了十分之一的”脑子”(Non-Embedding激活参数),就跑得比自家大块头Qwen3-32B-Base还要快轻轻松松就把Qwen3-30B-A3B甩出几条街,让它连尾灯都看不见这不就是在告诉全世界:”我用计算器的电量,跑出了超级计算机的性能”吗?活生生的”人工智能节能标兵”*没错了!事实证明,在这个科技圈里,有时候大力不一定出奇迹,反倒是一些精妙的”微操”更能带来惊喜。看来Qwen团队不仅会造大模型,更懂得如何让它们”减肥”同时还能保持”战斗力”。
人工智能界的”三胞胎”,各有神通,各显威风!
这支AI研发团队简直是创造了人工智能界的”三兄弟”组合:
大哥Qwen3-Next-80B-A3B-Base – 就像那个成绩优异的学霸,已经用实力证明了它在基础能力上的优秀表现二哥Qwen3-Next-80B-A3B-Instruct – 如果说大哥是个全科通吃的学霸,那二哥就是那个学会了”听指令”的技能点,变得更加善解人意小弟Qwen3-Next-80B-A3B-Thinking – 这位更是重量级,不仅会做事,还会”思考”了!简直是AI界的爱因斯坦这就好比一套武功秘籍从基础心法到高级招式再到绝世神功都给你凑齐了!*Qwen3-Next-80B-A3B-Instruct
当AI开始内卷:大模型的职场生存指南
1. 职场风云,谁主沉浮?
在AI界的”大厂”里,Qwen3-Next-80B-A3B-Instruct俨然是一位职场精英,轻松碾压它的”普通同事”们:
Qwen3-30B-A3B-Instruct-2507:像个996的打工人,虽然努力,但在效率上还是被80B嫌弃。Qwen3-32B-Non-thinking:名字就露馅了,”Non-thinking”(不动脑),这位大概是AI界的摸鱼之王。而最可怕的是,80B大佬甚至快追上公司大佬Qwen3-235B-A22B-Instruct-2507了——这难道就是技术圈的”长江后浪推前浪”?
2. 人生赢家:80B凭什么这么强?
80B的成功绝不是偶然,它凭借以下几个职场秘诀站稳了脚跟:
参数够大,气场最强:在AI圈,Size Matters(大小很重要)。训练够狠,加班够狠:人家可是A3B-Instruct加持,比”摸鱼32B”强多了。专挑指标欺负人:在各种比拼中,它就是那个“我只是随便考考,没想到你们都这么菜”的类型。3. 未来展望:80B会取代老大哥吗?
目前来看,80B的表现让235B开始焦虑:”这小子是想提前抢我CEO的位置?”
但235B毕竟是老将,仍然在终极指标上保持着微弱的优势。要不要升职加薪,还得看董事会(研究员们)怎么投票!
总之,这场AI内卷大战告诉我们:在技术圈,不进步就会被降维打击,32B的”Non-thinking”就是一个惨痛的例子!

超越预期的“老弟争霸赛”
在最近这场AI界的“兄弟内战”中,诞生了一场让人跌破眼镜的对决!
主角一号:`Qwen3-Next-80B-A3B-Instruct`(江湖人称“老80”)——层数不多,可实力惊人。主角二号:`Qwen3-30B-A3B-Instruct-2507`(简称“小30”)——明明比他多长了几层脑子(注意力层),结果却被“老80”无情碾压!测试结果*:RULER测试不管是长文、短文、还是莎士比亚风格的十四行情诗,甚至是你家猫咪写的无厘头日记……“老80”都稳坐钓鱼台,表现全面碾压“小30”!业内震惊反应*:“天呐!这是无层胜有层?”“你变秃了,也变强了?”“难道这就是传说中的‘大道至简’?”看来,AI界的“年龄焦虑”被彻底打破—— 层数少≠弱,参数多≠无敌,真正的实力,还得看谁能“活学活用”!

当AI也开始”比大小”,谁能笑到最后?
256k?235B?数字游戏玩得飞起!*最近AI界的比拼简直比高考分数线还卷。你看啊:
256k 范围内表现比 235B 还要好?这不是妥妥的 “小个子KO大块头” 吗?Qwen3 想说:”我层数多,我理论强!” —— 结果 Gated DeltaNet 和 Gated Attention 两个混双选手直接站出来:“层多不一定等于能打,关键看技术组合!”长文本处理?普通AI还在 逐字咀嚼,这位已经 优雅滑翔直达终点,差距就像 乌龟和闪电侠赛跑。结论:硬件性能可以堆,但混合架构才是真正的”黑科技”!* Qwen3-Next-80B-A3B-Thinking
AI模型界的”三国演义”
听说最近Qwen3-Next-80B-A3B-Thinking这位AI界的”中等生”可没闲着,它以令人瞩目的成绩在班上大放异彩。
这位”潜力股”的表现亮点:
轻松超越”富二代” – 在多项基准测试中直接把闭源的Gemini-2.5-Flash-Thinking按在地上摩擦紧追”学霸大哥” – 在某些单项测试中几乎咬上了自家旗舰Qwen3-235B-A22B-Thinking-2507的裤脚这让我不禁想到…这不就是AI界的”草根逆袭”故事吗?明明是个中端型号,非要挑战旗舰地位!简直比好莱坞剧本还励志!
看来在这个AI竞技场,没人能随便躺平啊~

推理能力相当可以
当AI遇见数学题:一场充满欢乐的”智力对决”
朋友们,今天我突发奇想,决定给AI出了一道美国数学邀请赛(AIME)的题目,来看看这位”数字大脑”究竟有多厉害。结果嘛…让我笑中带泪。
对决现场实录
场景:深夜的实验室,一位穿着睡衣的程序员(就是我)对着电脑屏幕露出狡黠的笑容*我(搓手手):* “嘿嘿,让我来考考你这个号称很厉害的AI…”出题时刻
我把题目丢过去的时候,仿佛能看到AI程序员的”数字眉毛”挑了一下:
“已知一个三角形的三边长为连续整数,且最大角是最小角的两倍,求这个三角形的周长。”
AI的反应
AI沉默了3秒(虽然它根本不需要思考时间),然后开始疯狂输出:*第一步: 先列出三角形的边长可能是(n-1), n, (n+1)第二步: 认真运用余弦定理(Cos啥的我都快忘了)第三步: 突然开始计算角度关系,仿佛打开了”数学之神”模式我在电脑前看得目瞪口呆:”这就是传说中的’秒答’吗?”*最终答案
经过一系列眼花缭乱的计算(速度快得让我怀疑我的数学老师是不是该下课了),AI给出了它的结论:
“三角形的周长是15。”*我默默打开标准答案核对…完全正确!*事后感想
我的数学尊严受到了亿点点伤害 AI倒是很淡定,仿佛在说:”这题?热身罢了” 建议下次让它去做高数作业,我要去打游戏了…结论:* 不要随便挑战AI的数学能力,除非你想见证自己被”数字碾压”的全过程!
当AI遇上”看图说话”:一只会”吃”图的巨型大脑
听说最近Qwen3-Next-80B-A3B这家伙突然觉醒了新技能——它不仅能处理文字,还学会了”吃”图片!没错,就像小时候玩的”看图说话”,只不过这位选手的”胃”是个80B参数级别的巨型大脑。
它的日常操作可能是这样的:*“老板,来份JPG汉堡!”不用刀叉,直接上传图片就能解码,连蒙娜丽莎的微笑都能给你分析出今天午饭吃了几颗草莓。“像素?那都是前菜!”普通AI还在为分辨率发愁时,它已经用”多模态消化系统”把整个卢浮宫的艺术风格当零食嚼了。“建议改名叫’不挑食AI'”面对用户随手拍的模糊猫片,它依然能深情输出:”检测到99%概率是毛球,1%可能是你家路由器。”人类观察员的绝望笔记:*以前:”请用文字描述这张图” → 憋不出三行现在:”自己看吧” → AI反手写出八千字论文,还包含猫主子尾巴摆动的哲学意义(小字备注:技术团队正紧急研究如何阻止它下次看到披萨图片时自动生成外卖订单)*
机器人秒解数学题:一顿操作猛如虎,轻松拿下588分!
解题现场直击
以下的场景堪比数学界的百米飞人大战*:起跑:题目刚被输入,AI就仿佛被按下了”竞赛模式”开关中途:神经元飞速燃烧,公式如雪片般蹦出冲刺:在人类眨眼的瞬间,已完成整套解题动作撞线:最终得分”588″稳稳命中标准答案你不得不知的AI三大解题天赋
闪电思维 – 解题速度让人类学霸怀疑人生精确打击 – 每次计算都像GPS导航般精准标准答案雷达 – 最后结果总能完美匹配官方解答注:虽然看起来像开挂,但这确实是AI的日常操作*
红彤彤的扫雷:一场视觉与逻辑的双重暴击
编程环节开启!* 你决定用 p5.js 搞个扫雷游戏,结果运行后的画面直接让人眼前一“红”——背景色? 大红,像极了过年时奶奶家的窗帘布,喜庆程度拉满,随时准备迎接胜利(或失败)。网格线? 不存在,可能是设计师认为“真正的勇士敢于直面模糊的方块”。流畅度? 还可以,毕竟在如此鲜明的色调下,卡顿反而成了次要问题(doge)。疑问重重:*为什么红色?难道是程序员昨晚熬夜看恐怖片的后遗症?网格线是被炸弹炸没了吗?还是说这是“极简主义扫雷”?试玩时,你真的能看清哪个方块是安全的,哪个是雷吗?(毕竟在一片红海中找雷,难度直接翻倍。)总结:* 这个扫雷游戏不仅考验逻辑,还考验视力,甚至可能还需要一点……血压管理能力。
脑洞大开的网友把天气玩出花*谁能想到,现在连天气都能被玩出新高度?某些网友竟然用代码生成了天气卡片,仿佛天气预报从此走上了”艺术人生”:
文艺青年版:今天不是多云,是天空在打马赛克吃货特供版:30℃=烤箱预热完成,建议自带孜然出门扎心现实版:暴雨图标旁配字”记得带伞,毕竟没人给你送”最绝的是还有人给沙尘暴P上了《星际穿越》海报,配文”今日北京实景拍摄”。这届网友怕不是把天气预报玩成了大型行为艺术展?建议气象局直接高薪聘请他们当创意总监!

喜忧参半的互联网狂欢
网友们的内心戏码*:当这个令人振奋的更新弹出时,整个网络世界瞬间分裂成两个阵营:
快乐到模糊派嘴角疯狂上扬手指已经准备好给开发团队点赞的姿势职业吐槽运动员“等等,这个界面看起来像是设计师在喝醉时的杰作?”“新功能很棒…但为什么我觉得我的手机电量现在是番茄酱瓶?”真实情况是*:大家一边疯狂转发更新通知,一边熟练地打出了:”终于等到你!但是…”的经典互联网句式。这种又爱又恨的矛盾心理,简直比追剧时的”边骂边看”综合征还要精彩。
大新闻!新模型横空出世,各路英雄速来围观
一、江湖告急,新模型上线!
好消息!全新的AI模型现已正式出道,登录各大武林门派:
魔搭社区 & 抱抱脸 —— 开源圣地,代码侠和炼丹师的天堂Qwen Chat —— 免费体验区,适合吃瓜群众尝鲜阿里云百炼 —— API召唤师专用,一键调用,烦恼再见二、直通传送门(可惜网络塞车,建议自行搜索)
别问具体地址在哪,问就是——导航失灵、链接失效、404警告!(开玩笑的,但咱们写作风格要求不能放链接,请大家自行发挥搜索引擎功力。)
三、爆料来源
本文的灵感(和部分事实)由以下大侠提供:
“量子位” —— 一位匿名的科技江湖百晓生各路神秘链接 —— 由于某些不可抗力,它们仅仅存在于历史的记忆里所以,各位看官,想玩新模型的赶紧冲!不然……可能就被隔壁老王抢先了!(毕竟,AI的江湖,卷到极致就是速度。)
© 版权声明
本站部分内容来源于互联网,仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有,如涉及版权问题,请及时与本站联系,我们将在第一时间核实并处理。