GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

AI资讯2个月前发布云知AI运营官

AI模型的大考：博士级推理还是”智能考试作弊”？

最近AI圈的新闻简直比好莱坞大片还精彩！谷歌和OpenAI的大模型们在数学奥林匹克(IMO)测试中表现惊艳，俨然一副”数学天才”的形象。这下可好，社交媒体上到处都在传：”AI能拿数学金牌了，是不是马上就能帮我们写博士论文了？”

大模型的”光环时刻”

让我们先来看看这些AI的辉煌战绩：

数学奥林匹克水平测试：多个顶尖模型达到了金牌水准

公众反应：”这AI比我高中数学老师还厉害！”

科研幻想：有人已经开始规划用AI替代博士生的美好愿景

然而…现实给了当头一棒

就在大家沉浸在对AI无限能力的幻想中时，AAI机构推出了一个叫FormulaOne的新基准测试——结果精彩了！

各大顶尖模型的成绩单*：

GPT-5：0分

o3 Pro：0分

Gemini 2.5 Pro：0分

Grok 4：0分

这不是普通的零分接力赛，而是全员”光头强”！事实证明，AI可能在考试上有两下子，但面对真正的博士级科研难题时，它们表现得就像个小学生遇到微积分一样手足无措。

一个耐人寻味的比喻

想象一下：AI就像是一个特别会考试的学生，它能靠记忆力和模式识别在各种标准测试中取得好成绩。但当它需要真正创造性地解决一个从未见过的问题时——尤其是那些需要深厚领域知识和复杂逻辑推理的难题——它就会露出”马脚”。

这就好比*：

会解数学题 ≠ 能做数学研究

会写文章 ≠ 能创造新理论

会下棋 ≠ 懂得人生真谛

难怪网友们调侃：”这下AI终于和我们普通人类有了共同点——面对真正复杂的科研问题，大家都是一脸懵逼。”

反思时刻

这件事告诉我们：不要被AI在特定测试中的表现迷惑。真正的智能远比我们想象的复杂，而目前的大模型更像是”超级记忆体+模式识别器”，距离真正的博士级推理能力还有很长一段路要走。
也许未来某天AI真的能做博士级研究，但目前看来，它们还需要先在FormulaOne这个”终极考场”上避免挂科再说！
GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

当人工智能遇上了疯狂“赛车”：FormulaOne 图结构大冒险

你以为这是关于 F1 赛车的新闻？那就大错特错了！FormulaOne 其实是人工智能界的一场“速度与激情” —— 只不过这里的车手们都是算法，跑的赛道全是动态规划的坑坑洼洼！

220 道“弯道超车”难题

中等难度：就像是新手赛道，让你先热热身，别还没踩油门就熄火。

进阶难度：这时候就得开始漂移了，不然分分钟撞上“时间复杂度”的围墙。

科研级别：到了这儿，简直是“秋名山车神”对决！你不仅要会算，还得懂：

拓扑与几何 —— 赛道不再是直的，全是莫比乌斯环！

组合问题 —— 你以为只是选轮胎？不，是让你在行驶的同时组装赛车！

参赛规则？不存在！

这里没有“禁止超车”的旗语，唯一的要求就是 —— 你的算法得够快！如果你的代码跑得比 Python 还慢……建议换成 C++，或者直接报名驾校重考科目一。
FormulaOne 欢迎各路英雄豪杰挑战，不管是刚学会 `print(“Hello World”)` 的小白，还是能用 TensorFlow 写诗的 AI 大神，这里总有赛道适合你！

PS：碰撞测试不合格的同学，请自行 Debug，赛道急救车不管代码崩溃！*

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

# 考试难度大揭秘！从入门级到脑细胞燃烧级*

大家总说考试有三重境界，今天就带你们见识见识——

1. 浅层难度

原题：*

“请列举太阳系的行星名称。”

答题门槛：* 大概就是你刚睡醒时还能脱口而出的水平。

2. 深层难度

原题：*

“简述木星的大气层组成及其对太阳系引力平衡的影响。”

答题门槛：* 此刻你需要像科学家一样思考，还得假装自己看过《星际穿越》并记得其中10%的内容。

3. 更深层难度

原题：*

“如果太阳系是个人类家庭，请用社会学+天体力学分析土星的‘中年危机’及其对火星的‘职场霸凌’影响。”

答题门槛：* 出题老师可能刚在咖啡馆蹭完免费Wi-Fi，看了两篇Nature论文和《狗血家庭伦理剧》的剧情分析，并决定让你也一起疯。

总结：*

浅层考常识，深层考知识，更深层……或许考的是你和出题老师的灵性共鸣？（或者单纯是因为TA那天心情不好）
GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

当数学家开始玩”袋袋相传”的游戏

你以为数学都是枯燥的公式？* 那你就大错特错了！最近数学家们发明了一种叫做”树分解”的超级游戏，玩法之精妙堪比俄罗斯套娃+乐高的终极组合！

游戏规则说明书

道具准备：

一大把长得”足够像树”的图（千万别是刺猬状的！）

若干魔法”袋”(bags)，要求必须能互相套娃

一套叫做”一元二阶逻辑”的魔咒书

通关秘诀：

把图的顶点像超市装薯片一样塞进一个个”袋”里

关键是要让这些”袋”自己摆出树的造型（禁止摆成毛线团！）

玩法进阶：

背着这些”袋”开始爬树，一边爬一边玩”状态”变变变：

“新人入袋”：当新顶点加入时的欢迎仪式

“旧人遗忘”：假装某个顶点不存在（数学家的选择性失忆）

“袋袋相融”：当两个”袋”亲热合并时的化学反应

为什么这个游戏这么火？

Courcelle*大法师发现了一个惊天秘密：只要按这个玩法，再难的问题都能像坐滑梯一样”线性时间”解决！当然前提是：

你的图要老实巴交像棵树

你念叨的逻辑咒语得足够高级

你的”袋”不能漏（否则顶点会跑得到处都是）

温馨提示*：玩这个游戏时一定要带够”动态规划”牌脑力补充剂，否则容易在半路”状态转换”时死机！

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

当动态规划遇上社交媒体：一场学术与幽默的碰撞

看似简单？那可真是“简单”得让人头皮发麻！*

你以为这是一个普通的优化问题吗？不不不，它背后藏着一座层层嵌套的“逻辑迷宫”。稍有不慎，你就会在“动态规划的迷宫里”迷失方向，被各种组合爆炸和潜在推理陷阱打得头晕眼花——就像是试图理解亲戚家的小孩为什么突然变成了你的表叔一样复杂！

Maximal-Cluster-Graph：名字高端，难度更炸！*

想要搞定这个难题？那你得准备好爬过15个相互关联的推理台阶，每一步都可能让你摔个跟头（详情请见论文附录——如果读完后你还没开始怀疑人生的话）。

社交媒体反响：人类博士生要不要也来挑战？*

这篇论文一出，网友们纷纷表示：“这难度，建议让人类博士生也来试试！”——毕竟，看看谁能在15步推理后还能保持清醒的头脑，说不定还能顺便发现新的表情包灵感呢！
所以，下次再遇到“看似简单”的动态规划问题时，不妨先深呼吸，然后在代码里多写几个 `print` 调试——毕竟，比起迷路，至少你知道问题出在哪一步了！
GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

结果

AI模型的解题能力：从上到下，全军覆没！

浅层难度：闭着眼睛都能答？

那些咱们心目中的“超级AI大脑”，在浅层难度的题目上表现还算可以——50%~70%的正确率，大概相当于一个初中生在期末考试时的状态：“这题我见过！嗯……大概选C？”
显然，这些AI的训练数据里塞满了类似的问题，以至于它们能轻轻松松地应付，就像你刷了几百道数学题后，看到同类型的题目时的感觉：“哦，这个啊，简单！”

深层难度：AI开始怀疑自己

一旦难度升级，到了深层部分，那些号称“最强”的模型（Grok 4、Gemini-Pro、o3-Pro、Opus-4）瞬间变成了学渣——100道题里只对1道！

GPT-5 Pro稍微好点，正确率提高到4/100*，不过也就是从“全蒙错”进步到了“运气不错，居然对了几个”。

最深层难度：集体摆烂

到了最难的题目，AI们的正确率直接归零！ 是的，你没看错，0%！
本来以为这帮家伙至少能懵对一两道，结果它们非常统一地选择了“此题超纲，不予回答”的模式。这让AI研究者们集体扶额：“怎么回事？训练经费都白花了？”

总结

简单题：AI表示“毫无压力”。

中等难：AI开始手忙脚乱。

高难度：AI选择躺平，大家一起交白卷！

看来，AI离真正的“超级智慧”还有很远的路要走，至少在脑筋急转弯这方面，它们还有很大的进步空间！
GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

AAI

当耶路撒冷遇上AI：一位以色列科技大佬的”中年创业”

想象一下：2023年的某个夏天，以色列的阳光依旧毒辣。知名企业家兼科学家Amnon Shashua正坐在耶路撒冷的某个咖啡馆，突然一拍大腿——“是时候再创个业了！”
于是，AAI（又名AA-I Technologies或Double AI）横空出世，正式加入人工智能界的”神仙打架”。这家初创公司顶着双份AI的头衔，仿佛在说：”一个AI不够？我给你俩！”
至于创始人Amnon Shashua——这位科技界的”老司机”，显然选择了”退休是什么？我选择继续卷”的生活方式。耶路撒冷的历史厚重感配上最前沿的AI浪潮，只能说：“这很以色列！”
GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

当科技界的”跨界狂魔”遇上自动驾驶

Amnon Shashua教授*被称为科技创业圈的”人形自走创意喷泉”，这位以色列大神的身价可能比他写过的代码行数还多。让我们看看这位跨界大师的神奇履历：

令人发指的创业履历

Mobileye: 把汽车变得比考过科目三的你还懂交规

AI21 Labs: 让AI写诗的水平终于超过了小学生

OrCam: 开发出让视力障碍人士能”听”见世界的黑科技

专业领域成就

这位教授在自动驾驶领域的研究成果，足够让驾校教练集体转行送外卖；他在人工视觉方面的工作，堪称”给机器装上了钛合金狗眼”；至于AI领域的贡献——这么说吧，连Siri都想偷偷给他发感谢信。

总结*：当别人还在纠结要不要跨界时，Shashua已经在不同领域建好了高速公路收费站。

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

当AI决定成为”学霸”：人工专家智能的崛起

有时候，AI就像是个偏科的天才——下围棋能吊打人类，但让它换个领域，可能连烧开水的步骤都想不通。于是，一些“叛逆”的科学家一拍脑袋：为什么不培养一个既博学又靠谱的AI学霸呢？于是，”人工专家智能”（Artificial Expert Intelligence，AEI）应运而生。

它的目标相当霸气：*

不满足于当个只会做固定套路的AI偏科生（比如只会玩《星际争霸》的电竞选手）。

也不盲目追求变成“啥都懂一点但干啥啥不行”的AI万金油（比如某些一知半解就开始“科普”的聊天机器人）。

而是立志成为智商+专业度拉满的顶尖专家，像经验丰富的科学家一样，用严谨的推理来搞定最烧脑的问题。

那么，它进展如何了？*

资本青睐： 刚成立一年，就已经吸引了数千万美元的投资。

AWS加持： 成功入选AWS 2024生成式AI加速器项目，喜提价值100万美元的计算资源，硬件升级暴走模式启动！

看来，AI界的“学霸养成计划”正在提速。如果一切顺利，未来的AI可能会比你的大学教授还靠谱——毕竟，它不会在课堂上突然被问懵，然后甩出一句：“这个问题留作课后思考题。”
（本文灵感来源于微信公众号“机器之心”）

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

前美团、字节、有道高管创业，想做「AI伴学机器人」

# AI # AI新闻 # AI资讯

2个月前

2,6640

趁火打劫！Perplexity想花345亿美元收购谷歌Chrome

# AI # AI新闻 # AI资讯

2个月前

430

AI改造出行体验：滴滴的试验能否开启行业范式转变？

# AI # AI新闻 # AI资讯

2个月前

2,4390

高德如何造出全球首个地图 AI ？

# AI # AI新闻 # AI资讯

2个月前

470

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

AI模型的大考：博士级推理还是”智能考试作弊”？

大模型的”光环时刻”

然而…现实给了当头一棒

一个耐人寻味的比喻

反思时刻

当人工智能遇上了疯狂“赛车”：FormulaOne 图结构大冒险

220 道“弯道超车”难题

参赛规则？不存在！

1. 浅层难度

2. 深层难度

3. 更深层难度

当数学家开始玩”袋袋相传”的游戏

游戏规则说明书

为什么这个游戏这么火？

当动态规划遇上社交媒体：一场学术与幽默的碰撞

结果

AI模型的解题能力：从上到下，全军覆没！

浅层难度：闭着眼睛都能答？

深层难度：AI开始怀疑自己

最深层难度：集体摆烂

总结

AAI

当耶路撒冷遇上AI：一位以色列科技大佬的”中年创业”

当科技界的”跨界狂魔”遇上自动驾驶

令人发指的创业履历

专业领域成就

当AI决定成为”学霸”：人工专家智能的崛起

谷歌版小钢炮开源！0.27B大模型，4个注意力头，专为终端而生

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

相关文章

前美团、字节、有道高管创业，想做「AI伴学机器人」

趁火打劫！Perplexity想花345亿美元收购谷歌Chrome

AI改造出行体验：滴滴的试验能否开启行业范式转变？

高德如何造出全球首个地图 AI ？

暂无评论

搜索文章

热门文章