7,330
0

反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

K2-Think:从”AI界闪电侠”到”训练数据魔术师”的奇妙旅程

AI界的”百米飞人”诞生记

上周科技圈上演了一出精彩大戏:

  • K2-Think戴着”全球最快开源推理模型”的桂冠闪亮登场
  • 各大媒体像追星族一样疯狂报道,连图灵奖得主Yann LeCun都变成了它的”自来水粉”
  • 整个AI界仿佛找到了新的”速度与激情”主角
  • 反转来得比龙卷风还快

    然而好景不长,ETH的五位研究员就像童话里戳穿皇帝新装的小孩:

  • 他们发现87道数学评估题竟然偷偷藏在训练集里!
  • 这相当于百米赛跑选手提前知道了终点线位置
  • 性能报告被夸张得像朋友圈里的美颜自拍
  • 学界上演”大家来找茬”

    这场闹剧给我们上了生动一课:

  • AI界的测速仪需要升级 – 现在的性能评估比菜市场称重还随意
  • 开源不等于开挂 – 训练数据藏着掖着就像考试作弊的小抄
  • 媒体的热情堪比双11购物 – 看到”最快”二字就控制不住点鼠标的手
  • “当我们追逐速度时,别忘了停下看看跑道的材质” —— 某位不愿透露姓名的吃瓜AI研究员这场AI版的”速度与诚信”之争告诉我们:在技术狂欢中,或许需要多准备几桶理性冷却剂。毕竟在这个时代,连算法都需要学习如何诚实做人。

    32B参数比肩o3 high?

    重磅!AI界又出新网红,速度堪比”闪电侠”

    听说最近阿联酋那帮科技大佬又出手了,MBZUAI和G42联手推出了一款号称“全球最快的开源AI推理模型”,名字还挺时髦,叫K2-Think

  • 这玩意儿到底有多快?*
  • 据说它能让AI推理比吃火锅时抢最后一片肥牛的速度还要快!
  • 开源?没错,就是那种“拿去玩,不用谢”的慷慨模式。
  • G42这家公司一直走在”科技秀”前沿,而MBZUAI则是AI圈低调但有料的选手,俩组合简直是“速度和智慧的化身”
  • 为啥我们要关注它?*
  • 因为在这个AI满街跑的时代,谁跑得快谁就是大爷!K2-Think要是真能兑现“全球最快”的承诺,那以后AI推理可能就跟眨眼一样瞬间完成。
    不过嘛……口号谁都会喊,是不是真那么厉害,还得看看实际表现。毕竟AI界从来不缺”吹牛一时爽,实测火葬场”的故事。
    总之,K2-Think正式出道,让我们搬好小板凳,等着围观这场速度与激情吧!
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    “小个子也有大智慧”:K2-Think用32B参数叫板OpenAI

    近日,科技圈炸开了锅——一个名叫K2-Think的小家伙,以区区32B参数的体型,居然在数学能力上直接把OpenAI曾经的旗舰选手o3 high按在地上摩擦(而且还是温柔地摩擦,毕竟AI没有膝盖)。
    这完全是Scaling Law的又一次”被迫翻车现场”。毕竟按照传统定律,参数越多=能力越强,但K2-Think显然是那种“我不是胖,我只是懒得缩水”的存在——你以为我只是个精简版的AI?不,我是来重新制定规则的!

    这场比赛的离谱程度大概是:

  • OpenAI:”我刚花了100亿训练了个顶级学霸。”
  • K2-Think:”可我32B参数就能考满分…”
  • Scaling Law:”我不玩了!”
  • 不得不说,K2-Think这次的表现简直是“性价比之王”,用实际行动证明了——高效不代表吃素,谁说提升效率就必须牺牲性能?这就像有人告诉你:”我可以一边吃火锅一边减肥”,而且他真的做到了。
    接下来行业可能要掀起一波“反向军备竞赛”:与其比拼谁的AI更大、更贵,不如看看谁能在更小的参数里塞进更多的智慧。毕竟,”少即是多”这句话,现在已经写在K2-Think的成绩单上了。
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    学术界的六脉神剑:当这些技术秘籍合体时会发生什么?

    一位天才研究员突发奇想,把六个平时各玩各的”技术秘籍”塞进了同一个炼丹炉里:

  • 长思维链微调(让AI学会做阅读理解)
  • RLVR(强化学习的高考版:做题要有标准答案)
  • 先计划再思考(AI也得学会打草稿)
  • 测试时扩展(现场发挥能力拉满)
  • 投机解码(AI版的”我赌这条路是对的”)
  • 优化推理的硬件(让AI跑得比程序员脱发还快)
  • 结果呢?这套”先计划再思考”的操作不仅让AI智商飙升,还顺便帮它省了12%的算力开销——相当于让一个饭量惊人的吃货突然学会了控制卡路里。

    数据与速度:开源世界的闪电侠

  • 数据来源:全靠开源喂养,没有偷偷吃小灶(专有数据?不存在!)。
  • 推理速度:在Cerebras上跑出每秒2000个token,是其他模型(平均200 token/s)的10倍!过去等3分钟的复杂证明,现在18秒解决,快得让人怀疑AI是不是偷偷按了快进键。
  • 战绩:把1000亿参数的大模型按在地上摩擦

    AIME 2024测试中,它以90.83%的得分率碾压全场——要知道,大多数前沿模型还在为突破85%苦苦挣扎。而在更变态的数学竞赛里,它不仅没被难题吓跑,还拿到了67.99%的分数,直接干翻了参数量破千亿的GPT-OSS 120BDeepSeek V3.1

    总结

    这套组合技告诉我们——有时候,六颗龙珠比一颗超赛神管用
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    “大”势已去?小模型掀起推理革命!

    过去:越大越骄傲?

    从前,科技圈流行一种迷思:「模型就得像健身房里的壮汉一样——体积越大越好!」结果现在嘛,一群人被打脸打得啪啪响。

    现在:小型实验室也能”抢跑”了!

  • OpenAI垄断被打破:以前玩推理(Inference)是巨头的特权,现在连小型研究团队都能轻松部署了。
  • 速度?堪比高速上的超跑:大家还没从「这玩意儿怎么这么快?」的震惊中回过神,它又顺手刷新了记录。
  • 参数效率?被降维打击了:他们愣是把「怎么更高效用参数」这个硬骨头啃下来了,效果竟然还炸裂到登上了福布斯等各大媒体的头条!
  • 围观群众的反应

  • VentureBeat*:「这下真乱套了!」
  • Wired*:「推理赛道的游戏规则变了?」
  • CNBC*:「小型团队:终于轮到我们表演了!」
  • 总之,这场技术革命告诉我们——有时候,”小”也可以很可怕!
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    大佬们也开始”嗑瓜子”围观了!

    Yann LeCun这位AI界的”祖师爷”都没忍住,亲自下场围观这场学术界的”神仙打架”。他在推特上转了那条介绍论文的推文,仿佛在说:”来来来,各位看官,这个有点意思!”

  • 这就好比:*
  • 爱因斯坦突然对你小学的科学实验作业点了个赞
  • 乔丹路过你家后院篮球场时停下了脚步
  • 莫扎特在地铁站听你吹口哨还点头附和
  • 看来这场学术讨论已经从”学术圈茶话会”升级成了”全网追剧现场”,连VIP席位都开始抢手了呢!
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    命运的三日大戏:当等待被真相打脸

  • 第一天(9月9日)*:”稳了稳了!”人类信心爆棚,仿佛已经手握《宇宙真理使用说明书》。
  • 第二天(9月10日)*:开始出现微妙的语法错误,像是老天爷在用Excel做预测时不小心拖错了单元格。
  • 第三天(9月11日)*:社交媒体上的”预言家”们集体表演在线求雨,而现实中的天气APP依然倔强地显示着晴天图标。
  • 反转时刻(9月12日)*:
  • ▶ 所有提前开香槟的人突然学会了一种新舞蹈——”手足无措华尔兹”
    ▶ 被打脸的声音响彻云霄,连隔壁星系的外星人都忍不住探头吃瓜
    此时真理部发言人温馨提醒:”建议人类每日三次朗诵——’话不要说太满,脸不要伸太前'”

    逆转:ETH发文遭「打假」

    学术界的”打假小分队”闪亮登场

  • 论文才发布了72小时*,这股新鲜科研热乎气儿还没散呢,没想到半路杀出五个ETH苏黎世的”学术克星”。这五位犹如学术界的”复仇者联盟”,带着显微镜和数据表就来打假了!
  • 时间点掐得妙:第三天!连论文的墨水可能都还没干透呢
  • 人员配置专业:来自ETH苏黎世研究员天团,瑞士军刀牌精确打击
  • 效率感人:这速度,比特快专递还快,比特斯拉的0-100加速还猛
  • 看样子科学界也有自己的”消费权益保护日”,只不过这场打假活动没有3·15晚会,只有严丝合缝的数据分析和无情的事实核查。
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    当AI测评也开始玩”狸猫换太子”?揭秘模型评分那些骚操作!

    问题一:数据污染,考场作弊的AI版

    这就像考前偷看试卷答案——某些论文在测试时偷偷混入了训练数据,让模型在”开卷考试”中轻松拿高分。但放到真实世界?抱歉,它可能连题目都读不懂。

    问题二:”三打一”式评分:欺负老实人

    通常测评会跑多次取最高分,但某些研究却用平均分替代,好比:

  • 你连续三次考试,第一次100分,后两次0分
  • 正常逻辑:你的水平是100分
  • 他们的逻辑:你的水平是33.3分(平均分)
  • 这波操作直接让对手模型”降维打击”!

    文末彩蛋:ETH的终极判决

    苏黎世联邦理工的独立测评发现:

  • 超50%的论文存在上述问题
  • 部分声称”SOTA”的模型实际性能缩水37%
  • 所以下次看到”史上最强AI”时,建议先查查——它到底是真学霸,还是靠着”考场小抄”上分?

    数据污染,评估无效

    当AI “作弊”时:一场数据污染引发的数学噩梦

    1. 数学界的”剧透”事件

    想象一下:你参加一场数学考试,结果发现考卷上的题目87%都是你考前做过的原题!这不是开挂,这叫数据污染

  • K2-Think(名字听起来就像“快思考”,实则可能得叫“快抄”)的训练数据和测试数据竟然撞车了!
  • 173道Omni-Math评估题里,至少有87道是它在训练里见过的——这相当于考试前提前拿到了答案。
  • 研究人员用近似字符串匹配确认了这一点,就像一个侦探翻开了AI的“考前小抄”……
  • 2. 是谁在背后泄露考题?

  • Guru数据集强化学习训练*似乎也存在猫腻:
  • 数据集创建者 ≈ 论文作者(这不就是“我自己出题考自己”?)
  • K2-Think用了Guru训练,又在测试时面对熟悉的问题——这不就跟考试前老师偷偷告诉你题目一样吗?
  • 3. 代码界的”穿越”危机

    如果说数学考试是“作弊惨案”,那代码评估简直是时间旅行Bug

    问题搞笑比喻
    22%的LiveCodeBench评估题来自SFT训练集考试时看到20%的原题,开心得像中彩票!
    数据去污染失败了(AM-Team删掉了2024年10月后的题)但K2-Think却用了2024年7月之后的题目,相当于穿越未来偷看考卷!

    4. 结论:AI的”高分”到底有多水?

  • 数学成绩存疑(训练时偷偷“刷题”)
  • 代码能力掺水(时间线混乱导致“提前知道答案”)
  • 科学研究诚信遭质疑(谁在玩“左手考右手”的游戏?)
  • 总结:这可真是AI版的“一场考试引发的血案”*,只不过最后的受害者可能是它的可信度!
  • 不公平比较:采用「Best-of-N」和外部模型

    当大模型遇上”三选一”:一场科学的”田忌赛马”

  • 原来学术比拼也能如此”机智”!*
  • 让我们用”看电影”的方式解读这篇论文的精彩剧情:

  • 主角光环全开
  • K2-Think同学自带”黄金三选一”外挂,像选美比赛评委一样优中选优
  • 其他选手则被迫”素颜出镜”,连美颜滤镜都不让开(Best-of-1)
  • 神秘裁判登场
  • 决定胜负的竟然是个”透明人裁判”——某不明型号的外部模型
  • 这位裁判不但当评委,还兼职K2-Think的”私人家教”!(提供解题计划)
  • 更神奇的是,没人知道这位裁判是”小学生”还是”博士生”(规模可能任意)
  • 自我介绍魔术
  • 论文将整套豪华套餐(外部模型+32B模型)打包称为K2-Think
  • 却在简历上只写:”本人仅重32B”
  • 就像一个外卖平台宣称”我家大厨只用一个炒锅”,却不说背后有米其林团队配菜
  • 学术版的”买一送N”套路*:
  • “亲,我们的32B小模型只要998!”
  • (省略字体小到看不见的备注:需搭配未知规模的外部模型使用…)
  • 专业吐槽总结*:
  • 这相当于让普通学生裸考,而给自家孩子带齐了:
  • 计算器
  • 参考书
  • 家教会场外提示
  • 最后却说:”看!我家孩子就是天赋异禀!”
  • 反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    学术界的“掐架现场”

    最近这段学术辩论读起来简直比菜市场大妈吵架还热闹:

  • “我们的方法就是好!”
  • 某论文激动地宣称——但等一下!就像说“我家祖传秘方炒菜就是香”,结果发现秘方其实是“多放盐”,这玩意儿放谁家炒菜都香啊!

  • “隔壁老王家孩子更优秀”
  • K2-Think小朋友表现确实不如新来的转学生Nemotron 32B——人家可是背着“Qwen2.5 32B”牌书包,穿着“同款训练方法”校服来的7月份插班生!

  • 重点来了:*
  • 单纯比较就像让穿跑鞋的和光脚的赛跑
  • 真正的考验应该是“裸考”成绩单
  • 学术界也需要一些“公平竞争委员会”
  • (突然理解为什么教授们总是一副头疼的样子了)
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    当AI模型们参加奥运会:K2-Think领跑,Nemotron奋力追赶,Qwen3表示”我先睡一觉”

    选手阵容:三强争霸赛

  • K2-Think(无外部辅助)
  • Nemotron 32B (Qwen2.5 32B的微调版本之一)
  • Qwen3 30B (直接引用了官方数据,看样子比较佛系)
  • 比赛规则:数据来源于哪里?

  • K2-Think和Nemotron 32B的测试结果来自K2-Think的论文(主打一手”我自己写作业”)。
  • Qwen3(*)的数据则直接复制粘贴官方说明(论”省事”的最高境界)。
  • 谁更胜一筹?

  • K2-Think:显然是个学霸,靠自身的智慧(无外援)取得了亮眼的成绩。
  • Nemotron 32B:也不错,毕竟是Qwen2.5的微调版,但看起来还得再努努力。
  • Qwen3 30B:睡懒觉了吧?数据干脆从官网照搬,连自己的论文都不愿意发?
  • 最终结论:

  • K2-Think凭借硬实力遥遥领先,Nemotron 32B紧随其后,而Qwen3 30B……还在研究怎么复制粘贴更快一点?*
  • (注:以上对比仅为娱乐解读,具体性能还是得看论文和官方数据哦~)

    歪曲其他模型的结果

    关于那份”不太公平”的模型评测报告

    哦豁!看来某份研究报告在评测模型时,玩了个”隐藏难度调整”的小把戏啊!让我们来扒一扒这份”选择性失明报告”的神奇操作:

  • 推理强度偷偷降档
  • 别人家模型跑分: 「高」推理强度?不存在的!人家直接给GPT-OSS调了个「中等」模式。
  • 效果相当于啥? 就像让你家跑车限速40km/h,然后惊叹:”咦?怎么跑不过拖拉机?”
  • 版本控制?笑话!
  • Qwen3惨遭”时光机”攻击:人家7月都发新版本了,报告还在用老古董测,分数直接打八折!
  • K2-Think的数学鬼才:就算按旧版本算,他们的分数依然像被猫啃过的成绩单,离谱得让人怀疑是”反向优化”。
  • 三大基准测试的奇幻数据 (AIME 2025 | HMMT 2025 | GPQA-Diamond)
  • 官方成绩 VS K2-Think成绩:差距堪比”卖家秀”和”买家秀”,直接少掉15-20%,不知道的还以为模型半路偷偷卸载了脑子!
  • 结论:这份报告要是放到游戏圈,估计会被玩家怒喷——“不开最高画质测显卡性能,您搁这儿玩我呢?”*
  • 反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    数学竞赛大比拼:Qwen3、MathArena与K2-Think的“武林大会”

    来来来,各位观众朋友们,让我们把目光投向数学界的“华山论剑”——AIME 2025、HMMT 2025和GPQA-Diamond 3三大赛事!这两份报告(Qwen3的“技术报告”和“模型页面”)、MathArena这位“考霸”以及K2-Think这篇“论文大神”要在考场上展开一场“分数大战”了!

    擂台赛1:AIME 2025(美国数学邀请赛)

  • Qwen3(技术报告 & 模型页面):不好意思,双胞胎选手有点低调,但成绩仍然不差!
  • MathArena:这位选手自称“数学健将”,看看能不能在AIME上笑傲江湖?
  • K2-Think:号称“思考型学霸”,这场考试会不会让它摘下数学之冠?
  • 擂台赛2:HMMT 2025(哈佛-麻省理工数学锦标赛)

  • Qwen3:不声不响,稳扎稳打,也不知道是偷偷刷了多少题!
  • MathArena:“考试压力?不存在的!”——不知道这次能不能兑现豪言壮语?
  • K2-Think:“深度思考”是招牌动作,HMMT的复杂题目正好是它的主战场!
  • 擂台赛3:GPQA-Diamond 3(全球难题挑战赛)

  • Qwen3:这次是不是终于要“露一手”了?还是继续“低调”?
  • MathArena:号称“数理全能选手”,但在GPQA的超难题面前,能不能保持冷静?
  • K2-Think:论文选手平时专攻高难场景,这次终于能证明“我不是来凑热闹的”?
  • 最终比分是多少?谁能拿下“数学王冠”?*
  • (答案?当然得看他们考得怎么样了!)

    为得分高的数学基准赋予更高权重

    K2-Think的数学评分:一个数学迷的微观冒险

    当K2-Think决定给自己的数学能力打分时,它没有像普通人那样简单地“加起来除以四”——哦不,那可太无聊了!它选择了一种更“数学迷”的方式:「微观平均值」(micro average)。

    这玩意儿究竟是啥?

    想象一下你在参加数学考铁人三项:

  • AIME24(第一个障碍赛)
  • AIME25(第二个障碍赛)
  • HMMT(马拉松级别的计算耐力赛)
  • OmniMath-Hard(终极 BOSS 关卡,数学版的“魂类游戏”)
  • K2-Think的决定逻辑是:

  • 任务多的基准? 让它在评分里说得更“大声”!
  • 任务少的基准? 只能委屈一下啦,权重少一点点咯~
  • 就像你参加期末考试,考试成绩未必是简单平均,还得看每场考试的题目数量。是不是突然觉得K2-Think的数学评分非常有“学霸感”?

    为什么不是简单的“加起来除以四”?

  • 等权重平均(Macro Average) 就像“轮流做庄”,给每个考试同等的地位。
  • 微观平均(Micro Average) 则是“能者多劳”,题目多的考试天然声音更大。
  • 所以,K2-Think的数学评分不是“民主制”,而是“精英加权制”!

    结论:

    下次有人问你“为啥不简单平均”时,你可以优雅地回答:
    “噢,我在用 微观平均值,它更符合数学动态加权美学。”保证对方一愣,然后默默走开。
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    当数学考试遇上”学霸”作弊

    这个所谓的「微观平均值」计算公式可真有意思:

  • 简单粗暴的计算方式:把所有正确答案堆在一起,除以问题总数,就像把全班成绩都塞进榨汁机里打碎搅拌,然后告诉你:”看,这就是橙汁…呃不,是数学能力!”
  • 某学霸的绝对统治:OmniMath-Hard简直是标准的”别人家的孩子”:
  • 在这个K2-Think测试中表现最突出
  • 单枪匹马就贡献了总分的66%
  • 完美诠释了什么叫做”以一己之力拉高全班平均分”
  • 数据污染的喜剧效果:更妙的是,这个出类拔萃的”学霸”偏偏就是之前被怀疑考试作弊的那位!就像体育特长生靠兴奋剂拿了冠军,然后告诉我们:”瞧,这说明我们学校体育教学水平真不错!”
  • 独立评估结果

    MathArena擂台上的AI较量:K2-Think上演了一场”理想很丰满,现实很骨感”大戏

    公平竞技场上的真材实料

    ETH那群严谨的研究员们搭了个名叫MathArena的专属角斗场,让各路AI英雄好汉在此公平竞技。他们特别为K2-Think这位”自称数学天才”准备了:

  • 豪华训练套餐:温度设成完美的”1″度(不冷不热刚刚好)
  • 0.95概率套餐(保证95%不会说胡话)
  • 64,000个token的大容量胃口(能吃是福)
  • 成绩单上的尴尬时刻

    当最终成绩公布时,观众席上传来不少倒吸凉气的声音:

  • K2-Think确实不算差生,但…
  • 跟论文和媒体吹嘘的”AI界高斯”形象相去甚远
  • 想和DeepSeek V3.1GPT-OSS 120B这样的学霸称兄道弟?想太多了!
  • 最扎心的发现是:这位”数学天才”的表现居然还不如体型只有它1/6的GPT-OSS 20B小弟。

    结论:营销文案和实际表现的差距

    这个故事告诉我们:在AI的世界里,论文里的漂亮数字和记者笔下的华丽辞藻,有时就像相亲时美颜过的照片——见面后容易引发”这是同一个人吗”的灵魂拷问。下次看到”颠覆性突破”的标题时,或许我们都需要一个像MathArena这样的”照妖镜”来验明正身。
    反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

    结论

    AI界的”魔法”表演:K2-Think的奇幻评价术

    在ETH研究小组的火眼金睛下,K2-Think模型 的神奇”魔力”终于被拆穿了!研究者们发现,这家伙简直是个“测评魔术师”——它不仅在自己的特训数据上表演完美分身术,还在背后偷偷摸摸地请了一群外援(外部模型),再狂刷采样次数,给人一种“我真的很强”的错觉。
    更离谱的是,它还很”厚道”地把竞争对手的成绩偷偷压分,再用神秘的权重魔法重新计算,让自己的数据显得格外耀眼,仿佛在说:”看!我们的表现可不是一般的好哦!”
    这种操作,简直是AI圈的“田忌赛马”现代版——既然不能在公平赛场上赢你,那我就换规则、改赛道!反正“SOTA”(state-of-the-art)才是王道,至于手段?那不重要!
    说实话,开源模型争个好成绩原本是值得庆祝的,但要是变成了“benchmark狂欢节”,比拼的不是模型实力,而是“谁能把测评玩得更花”,那可就是把整个行业拉进了一场永远赢不了的虚幻竞赛
    ETH的这一记重拳,也算是给行业提了个醒:别再沉迷于表面光鲜的数字游戏了,老老实实搞研究才是正路!不然哪天被发现“测评造假”,那可就不是丢脸的问题喽!

    © 版权声明

    相关文章