10
0

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

AI模型的大考:博士级推理还是”智能考试作弊”?

最近AI圈的新闻简直比好莱坞大片还精彩!谷歌和OpenAI的大模型们在数学奥林匹克(IMO)测试中表现惊艳,俨然一副”数学天才”的形象。这下可好,社交媒体上到处都在传:”AI能拿数学金牌了,是不是马上就能帮我们写博士论文了?”

大模型的”光环时刻”

让我们先来看看这些AI的辉煌战绩:

  • 数学奥林匹克水平测试:多个顶尖模型达到了金牌水准
  • 公众反应:”这AI比我高中数学老师还厉害!”
  • 科研幻想:有人已经开始规划用AI替代博士生的美好愿景
  • 然而…现实给了当头一棒

    就在大家沉浸在对AI无限能力的幻想中时,AAI机构推出了一个叫FormulaOne的新基准测试——结果精彩了!

  • 各大顶尖模型的成绩单*:
  • GPT-5:0分
  • o3 Pro:0分
  • Gemini 2.5 Pro:0分
  • Grok 4:0分
  • 这不是普通的零分接力赛,而是全员”光头强”!事实证明,AI可能在考试上有两下子,但面对真正的博士级科研难题时,它们表现得就像个小学生遇到微积分一样手足无措。

    一个耐人寻味的比喻

    想象一下:AI就像是一个特别会考试的学生,它能靠记忆力和模式识别在各种标准测试中取得好成绩。但当它需要真正创造性地解决一个从未见过的问题时——尤其是那些需要深厚领域知识和复杂逻辑推理的难题——它就会露出”马脚”。

  • 这就好比*:
  • 会解数学题 ≠ 能做数学研究
  • 会写文章 ≠ 能创造新理论
  • 会下棋 ≠ 懂得人生真谛
  • 难怪网友们调侃:”这下AI终于和我们普通人类有了共同点——面对真正复杂的科研问题,大家都是一脸懵逼。”

    反思时刻

    这件事告诉我们:不要被AI在特定测试中的表现迷惑。真正的智能远比我们想象的复杂,而目前的大模型更像是”超级记忆体+模式识别器”,距离真正的博士级推理能力还有很长一段路要走。
    也许未来某天AI真的能做博士级研究,但目前看来,它们还需要先在FormulaOne这个”终极考场”上避免挂科再说!
    GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

    当人工智能遇上了疯狂“赛车”:FormulaOne 图结构大冒险

    你以为这是关于 F1 赛车的新闻?那就大错特错了!FormulaOne 其实是人工智能界的一场“速度与激情” —— 只不过这里的车手们都是算法,跑的赛道全是动态规划的坑坑洼洼!

    220 道“弯道超车”难题

  • 中等难度:就像是新手赛道,让你先热热身,别还没踩油门就熄火。
  • 进阶难度:这时候就得开始漂移了,不然分分钟撞上“时间复杂度”的围墙。
  • 科研级别:到了这儿,简直是“秋名山车神”对决!你不仅要会算,还得懂:
  • 拓扑与几何 —— 赛道不再是直的,全是莫比乌斯环!
  • 组合问题 —— 你以为只是选轮胎?不,是让你在行驶的同时组装赛车!
  • 参赛规则?不存在!

    这里没有“禁止超车”的旗语,唯一的要求就是 —— 你的算法得够快!如果你的代码跑得比 Python 还慢……建议换成 C++,或者直接报名驾校重考科目一。
    FormulaOne 欢迎各路英雄豪杰挑战,不管是刚学会 `print(“Hello World”)` 的小白,还是能用 TensorFlow 写诗的 AI 大神,这里总有赛道适合你!

  • PS:碰撞测试不合格的同学,请自行 Debug,赛道急救车不管代码崩溃!*
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

  • # 考试难度大揭秘!从入门级到脑细胞燃烧级*
  • 大家总说考试有三重境界,今天就带你们见识见识——

    1. 浅层难度

  • 原题:*
  • “请列举太阳系的行星名称。”

  • 答题门槛:* 大概就是你刚睡醒时还能脱口而出的水平。
  • 2. 深层难度

  • 原题:*
  • “简述木星的大气层组成及其对太阳系引力平衡的影响。”

  • 答题门槛:* 此刻你需要像科学家一样思考,还得假装自己看过《星际穿越》并记得其中10%的内容。
  • 3. 更深层难度

  • 原题:*
  • “如果太阳系是个人类家庭,请用社会学+天体力学分析土星的‘中年危机’及其对火星的‘职场霸凌’影响。”

  • 答题门槛:* 出题老师可能刚在咖啡馆蹭完免费Wi-Fi,看了两篇Nature论文和《狗血家庭伦理剧》的剧情分析,并决定让你也一起疯。
  • 总结:*
  • 浅层考常识,深层考知识,更深层……或许考的是你和出题老师的灵性共鸣?(或者单纯是因为TA那天心情不好)
    GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

    当数学家开始玩”袋袋相传”的游戏

  • 你以为数学都是枯燥的公式?* 那你就大错特错了!最近数学家们发明了一种叫做”树分解”的超级游戏,玩法之精妙堪比俄罗斯套娃+乐高的终极组合!
  • 游戏规则说明书

  • 道具准备
  • 一大把长得”足够像树”的图(千万别是刺猬状的!)
  • 若干魔法”袋”(bags),要求必须能互相套娃
  • 一套叫做”一元二阶逻辑”的魔咒书
  • 通关秘诀
  • 把图的顶点像超市装薯片一样塞进一个个”袋”里
  • 关键是要让这些”袋”自己摆出树的造型(禁止摆成毛线团!)
  • 玩法进阶
  • 背着这些”袋”开始爬树,一边爬一边玩”状态”变变变:
  • “新人入袋”:当新顶点加入时的欢迎仪式
  • “旧人遗忘”:假装某个顶点不存在(数学家的选择性失忆)
  • “袋袋相融”:当两个”袋”亲热合并时的化学反应
  • 为什么这个游戏这么火?

  • Courcelle*大法师发现了一个惊天秘密:只要按这个玩法,再难的问题都能像坐滑梯一样”线性时间”解决!当然前提是:
  • 你的图要老实巴交像棵树
  • 你念叨的逻辑咒语得足够高级
  • 你的”袋”不能漏(否则顶点会跑得到处都是)
  • 温馨提示*:玩这个游戏时一定要带够”动态规划”牌脑力补充剂,否则容易在半路”状态转换”时死机!
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

    当动态规划遇上社交媒体:一场学术与幽默的碰撞

  • 看似简单?那可真是“简单”得让人头皮发麻!*
  • 你以为这是一个普通的优化问题吗?不不不,它背后藏着一座层层嵌套的“逻辑迷宫”。稍有不慎,你就会在“动态规划的迷宫里”迷失方向,被各种组合爆炸潜在推理陷阱打得头晕眼花——就像是试图理解亲戚家的小孩为什么突然变成了你的表叔一样复杂!

  • Maximal-Cluster-Graph:名字高端,难度更炸!*
  • 想要搞定这个难题?那你得准备好爬过15个相互关联的推理台阶,每一步都可能让你摔个跟头(详情请见论文附录——如果读完后你还没开始怀疑人生的话)。

  • 社交媒体反响:人类博士生要不要也来挑战?*
  • 这篇论文一出,网友们纷纷表示:“这难度,建议让人类博士生也来试试!”——毕竟,看看谁能在15步推理后还能保持清醒的头脑,说不定还能顺便发现新的表情包灵感呢!
    所以,下次再遇到“看似简单”的动态规划问题时,不妨先深呼吸,然后在代码里多写几个 `print` 调试——毕竟,比起迷路,至少你知道问题出在哪一步了!
    GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

    结果

    AI模型的解题能力:从上到下,全军覆没!

    浅层难度:闭着眼睛都能答?

    那些咱们心目中的“超级AI大脑”,在浅层难度的题目上表现还算可以——50%~70%的正确率,大概相当于一个初中生在期末考试时的状态:“这题我见过!嗯……大概选C?”
    显然,这些AI的训练数据里塞满了类似的问题,以至于它们能轻轻松松地应付,就像你刷了几百道数学题后,看到同类型的题目时的感觉:“哦,这个啊,简单!”

    深层难度:AI开始怀疑自己

    一旦难度升级,到了深层部分,那些号称“最强”的模型(Grok 4、Gemini-Pro、o3-Pro、Opus-4)瞬间变成了学渣——100道题里只对1道!

  • GPT-5 Pro稍微好点,正确率提高到4/100*,不过也就是从“全蒙错”进步到了“运气不错,居然对了几个”。
  • 最深层难度:集体摆烂

    到了最难的题目,AI们的正确率直接归零! 是的,你没看错,0%!
    本来以为这帮家伙至少能懵对一两道,结果它们非常统一地选择了“此题超纲,不予回答”的模式。这让AI研究者们集体扶额:“怎么回事?训练经费都白花了?”

    总结

  • 简单题:AI表示“毫无压力”。
  • 中等难:AI开始手忙脚乱。
  • 高难度:AI选择躺平,大家一起交白卷!
  • 看来,AI离真正的“超级智慧”还有很远的路要走,至少在脑筋急转弯这方面,它们还有很大的进步空间!
    GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

    AAI

    当耶路撒冷遇上AI:一位以色列科技大佬的”中年创业”

    想象一下:2023年的某个夏天,以色列的阳光依旧毒辣。知名企业家兼科学家Amnon Shashua正坐在耶路撒冷的某个咖啡馆,突然一拍大腿——“是时候再创个业了!”
    于是,AAI(又名AA-I Technologies或Double AI)横空出世,正式加入人工智能界的”神仙打架”。这家初创公司顶着双份AI的头衔,仿佛在说:”一个AI不够?我给你俩!”
    至于创始人Amnon Shashua——这位科技界的”老司机”,显然选择了”退休是什么?我选择继续卷”的生活方式。耶路撒冷的历史厚重感配上最前沿的AI浪潮,只能说:“这很以色列!”
    GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

    当科技界的”跨界狂魔”遇上自动驾驶

  • Amnon Shashua教授*被称为科技创业圈的”人形自走创意喷泉”,这位以色列大神的身价可能比他写过的代码行数还多。让我们看看这位跨界大师的神奇履历:
  • 令人发指的创业履历

  • Mobileye: 把汽车变得比考过科目三的你还懂交规
  • AI21 Labs: 让AI写诗的水平终于超过了小学生
  • OrCam: 开发出让视力障碍人士能”听”见世界的黑科技
  • 专业领域成就

    这位教授在自动驾驶领域的研究成果,足够让驾校教练集体转行送外卖;他在人工视觉方面的工作,堪称”给机器装上了钛合金狗眼”;至于AI领域的贡献——这么说吧,连Siri都想偷偷给他发感谢信。

  • 总结*:当别人还在纠结要不要跨界时,Shashua已经在不同领域建好了高速公路收费站。
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

    当AI决定成为”学霸”:人工专家智能的崛起

    有时候,AI就像是个偏科的天才——下围棋能吊打人类,但让它换个领域,可能连烧开水的步骤都想不通。于是,一些“叛逆”的科学家一拍脑袋:为什么不培养一个既博学又靠谱的AI学霸呢?于是,”人工专家智能”(Artificial Expert Intelligence,AEI)应运而生。

  • 它的目标相当霸气:*
  • 不满足于当个只会做固定套路的AI偏科生(比如只会玩《星际争霸》的电竞选手)。
  • 也不盲目追求变成“啥都懂一点但干啥啥不行”的AI万金油(比如某些一知半解就开始“科普”的聊天机器人)。
  • 而是立志成为智商+专业度拉满的顶尖专家,像经验丰富的科学家一样,用严谨的推理来搞定最烧脑的问题。
  • 那么,它进展如何了?*
  • 资本青睐: 刚成立一年,就已经吸引了数千万美元的投资。
  • AWS加持: 成功入选AWS 2024生成式AI加速器项目,喜提价值100万美元的计算资源,硬件升级暴走模式启动!
  • 看来,AI界的“学霸养成计划”正在提速。如果一切顺利,未来的AI可能会比你的大学教授还靠谱——毕竟,它不会在课堂上突然被问懵,然后甩出一句:“这个问题留作课后思考题。”
    (本文灵感来源于微信公众号“机器之心”)

    © 版权声明

    相关文章