8,864
0

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

AI代码竞赛:当数字开始跳舞,谁才是真正的王者?

  • OpenAI与Anthropic的数学奇妙冒险*
  • 最近AI圈上演了一出精彩的”数字魔术秀”:

  • OpenAI:在SWE-bench编程测试中只完成了477道题,却奇迹般地公布了74.9%的分数
  • Anthropic的Claude:老实巴交地完成了全部500道题,结果…没人知道它的分数是多少
  • 数学魔术时刻:更搞笑的是,在OpenAI发布会上,他们的天才数学家们创造了 “52.8>69.1=30.8” 的新数学公式,让全世界的老师都在怀疑自己是否误人子弟
  • 那些年薪上亿的天才们在想什么?*
  • Marketing Math™(市场数学):一种特殊算法,能让你未完成的作业看起来比完美作业更优秀
  • 新逻辑学:把不同维度的数字随意比较,创造出令人惊叹的概率造型
  • 发布会魔术:当所有人的目光聚焦在”GPT-5代码能力世界第一”时,谁还记得基础算术?
  • 这场AI竞赛告诉我们:在科技行业,有时候数字不会撒谎…但展示数字的方式可以很强!
    深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    GPT-5与Claude Opus的”龙争虎斗”

    直播乌龙?小插曲不值一提!

    这次OpenAI的直播里,那张被全世界的程序员和AI迷们盯着的表格居然搞错了——是的,他们的表格在官博里是对的,但直播时却变成了“我已经放暑假但我发现作业写错”的风格。不过,咱们别纠结这个小Bug了,毕竟科学家也是人,偶尔手滑嘛!

    真正的重点是:谁才是AI界的”卷王”?

    在这个”AI界高考”的SWE-bench Verified测评里:

  • GPT-574.9%的分数,微微领先!
  • Claude Opus 4.1不甘示弱,冲到了74.5%
  • 这差距有多小呢?大概就相当于你在期末考试里比同桌多对了一道选择题,但足以让你爸妈在亲戚面前吹一个暑假!

    总结

    虽然直播闹了个小乌龙,但真正精彩的还是这两大AI在技术赛道上的胶着战况——“你追我赶,彼此压力山大!”
    深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    GPT-5:”领先”的含金量有多高?

    OpenAI最近挥舞着GPT-5的大旗,宣称它在软件工程任务基准上一骑绝尘,俨然成了人工智能界的”赛博超人”。不过嘛……等等,这分数怎么闻起来有点”特调”的味道?

  • 让我们来看看这场”分数魔术表演”的精妙之处:*
  • 选择性计数——OpenAI没有跑完SWE-bench Verified全部的500道测试任务(毕竟500这个数字听起来多么整齐漂亮),而是悄悄地”忽略”了23个不太听话的题目。
  • 477俱乐部——剩下477道题目乖乖地跑出了成绩,正好可以支撑”领先”的宝座。Perfect!这不就像是考试时只计算你会做的题吗?
  • 业界侦探SemiAnalysis火眼金睛地发现了这个”统计魔术”,忍不住在网上发文:”喂,朋友们,你们注意到那个藏在柜子里的23道题了吗?”
  • 结论*:
  • 这就好比田径运动员在奥运会上跳过几个跨栏,然后宣称自己破了世界纪录——技术上确实”没碰到栏杆”,但……你懂的?
    深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    AI公司的”内涵大法”也能这么玩?

  • Anthropic这波操作,简直是科技圈的”冷笑话王者”!*
  • 什么叫”内涵式吐槽”?
  • 想象一下,一家AI公司写博客,不是在炫耀技术,而是偷偷在里面藏了个”梗”。
  • 就像在严肃的学术论文里塞表情包——又秀又皮
  • 技术越强,吐槽越高级
  • 普通人吵架:直接怼。
  • AI公司互撕:优雅地埋彩蛋,等你慢慢挖到笑出声。
  • 网友反应
  • “看懂了!Anthropic这波是‘用魔法打败魔法’?”
  • “下次CEO采访能不能也这么幽默?”
  • 结论:当AI公司开始玩梗,人类只能乖乖笑着点赞*…
  • 深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    当AI也开始挑题做,人类的”作业恐惧症”有伴了!

    GPT-5:”这道题啊?不太行,看不懂,下一题!”

  • 总题量500道,GPT-5直接潇洒跳过23道,理由是:”咱们的架构跑不动。”(AI界的”这题超纲了”?)
  • Claude 不愧是老实人,500道全做了,妥妥班上那个”作业从不拖延”的学霸。
  • OpenAI 倒是诚实,从GPT-4.1开始 就在小字里备注:”这23题,咱搞不定。”
  • 网友们灵魂发问:

  • 什么样逆天的题能让OpenAI天才团队挠头?
  • 难道是“计算宇宙终极答案”
  • 还是“用二进制代码解释人类爱情”
  • GPT-5,你是真不会,还是单纯想偷懒?
  • 毕竟人类也会说:”这道题太难了,跳过!”
  • (OS:AI终于也学会人类的拖延术了?)
  • 结论

  • AI开始挑食 = 人类除了要担心自己写不完作业,还得担心AI是不是也摆烂了!
  • 未来的AI面试
  • HR:”你能做500道题吗?”
  • GPT-5:”我选做477道,剩下23道……算了吧,我怕系统崩。”
  • Claude:”我全都会!”
  • HR默默给Claude发了offer。
  • 所以,以后AI考试也要搞“附加题禁止跳过”的规则了吗?*
  • 深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    当AI考试也玩”及格线跳水”:GPT-5的”艰难时题”

    AI考试中的”战略性放弃”

  • 据说这段分析是用”假设GPT-5是个学生”的风格写的,结果发现这位”高材生”可能偷偷藏了几份白卷…*
  • 1. 原始分数 vs. 理想分数

  • GPT-4.1(乖乖做题版):54.6%正确率。
  • GPT-4.1(但漏了23题):扣掉23道0分后,分数跌至52.1%……显然,挂科边缘的小动作并不高明。
  • GPT-5(官方报告成绩):74.9%,看起来是学霸,但……
  • 2. GPT-5的”取巧”计算法

  • 477题版本:”我考了74.9%,厉害吧?”(忽略23道题,可能全错)
  • 500题版本:”呃,71.4%……”(比Claude Opus4.1的74.5%差了3个百分点)
  • 结论*:AI考试也有”选填题”,而且它可能故意跳过最难的那些!
  • 3. 被”和谐”的23道题有多难?

  • “4小时地狱级”题目:连学霸们都撑不住!
  • ClaudeSonnet4(非思考模式):33%
  • o3(不知道是谁):33%
  • GPT4.1(”老学长”):33%
  • GPT-5(官方没说,估计躲了)
  • “1小时痛苦级”题目:大部分模型的答题信心和正确率都骤降。
  • 4. 真正的问题:AI考试是否该算满分500题?

  • “我们是不是应该说:‘*
  • AI做题家们在477题考试里很强,但在500题里可能没那么神?’
  • 或者更简单点——*
  • ‘嘿,考试里有23道题是开放式超难附加题,GPT-5直接交了白卷?’*”
  • ——反正大家都在搞”成绩美化”,AI也不例外。
    深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    模型大乱斗:当GPT-5遇上了”奥数题”

    这是一场不亚于武林大会的AI对决

  • AI届的”高考难题”来了
  • 这些变态级任务简直就是给AI出的”奥林匹克竞赛题”。如果GPT-5连这些题目都做不出,那就跟说”我是学霸但我不会做奥数题”一样打脸啊!

  • 谁才是真正的”满分王”?
  • Claude 4.1那个74.5%的成绩,可是硬着头皮把所有的”魔鬼题目”都啃下来了。而GPT-5的74.9%呢?呵呵,人家可聪明了——先把最难的题都擦掉,再开始考试的!

    评分规则疑云重重

  • 裁判居然是选手自己?!
  • 最搞笑的是,这场考试的出题人就是OpenAI自己。这就好比让运动员自己当裁判,然后告诉大家:”我真的跑得很快!”

  • 透明度去哪儿了?
  • 现在的情况就像两个学霸互相较劲:

  • Claude:”我做完了所有题!”
  • GPT-5:”咳咳…我做了大部分题…”
  • 围观群众只能一脸问号:”那么…到底谁更学霸?”

    AI届的内卷已经这么严重了吗?

    让我们用一句话总结这场闹剧:“我比你高0.4分,前提是你不看我怎么考的。” 这场AI届的”分数大战”,完美诠释了什么叫做”选择性优秀”!
    深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    模型大乱斗:程序员界的”超级英雄”对决!

  • 剧情提要*:在一个充满代码的世界里,两大AI巨头——Claude和GPT正在进行一场史诗级的”键盘侠”决斗!赌注是…谁才是更好的程序员助手?
  • 竞技场规则说明

  • 擂台名称:SWE-bench(程序员专属的”饥饿游戏”)
  • 武器限制:只能用bash(不愧是极客们的”匕首战”)
  • 裁判原则:完全透明(连作弊的脚手架都是公开的)
  • 评分标准:解决真实世界编程问题的能力(相当于让AI在Stack Overflow上当场表演)
  • 最新战况速递

  • 神秘挑战者Claude 4 Opus:穿着一身67.6分的闪亮盔甲登场!
  • 卫冕冠军GPT-5:身披65分战袍,目前看起来有点慌乱…
  • 幕后花絮*:
  • 没有”验证”子集(就是说没有”重考”机会)
  • 所有AI都要在”裸奔模式”下coding(脚手架全公开)
  • 就像是让两个程序员在直播平台PK写代码,谁Bug少谁赢!
  • 吃瓜群众评论*:
  • “没想到Claude这次偷偷加了buff!”
  • “GPT-5可能在忙着谈恋爱,最近状态不太稳定…”
  • “下一集预告:突然杀出的新人选手Gemini会打破这个局面吗?”
  • (注:以上数据截至5月14日,可能在你读完这段文字时就过时了…)
    深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    SWE-Bench:程序员的噩梦还是福音?

    1. SWE-Bench 是个啥?

    简单来说,SWE-Bench 就是一个专门用来「折磨」AI程序员的基准测试。它可不是那种让你写个「Hello World」的入门题,而是把 GitHub 上那些真实存在的 Bug 和功能请求丢给 AI,看看它能不能像人类程序员一样修 Bug 或者实现新功能。

  • 想象一下:*
  • 你是一个 AI 程序员,突然有人丢给你一个几千行的 Python 项目,说:「来,第 324 行的逻辑错了,改一下呗!」
  • 而你甚至不能 Ctrl+F,因为有的 Bug 涉及到好几个文件和复杂的逻辑关系……
  • 2.「验证」子集是啥玩意儿?

    SWE-Bench 的「验证」子集(Verified)就是那些经过人工审核确保「靠谱」的问题集。为啥需要人工审核?因为:

  • 某些 GitHub Issue 表述模糊(比如:「这个函数有时候会崩」)。
  • 有些 Bug 根本不复现(提 Issue 的人可能只是自己电脑抽风了)。
  • 有的甚至根本不是 Bug,而是用户没看懂代码……
  • 「验证」子集的好处就是*:你可以放心拿着这些问题去测试 AI,而不用担心被不靠谱的问题坑了。
  • 3. 为啥要搞 SWE-Bench Verified?

    因为原始数据里太多坑了!想测试 AI 的水平,总得用真 Bug 吧?可如果测试集本身就不严谨,那 AI 表现得再好或者再差,都可能是数据的问题。

  • 举个栗子:*
  • 普通 SWE-Bench:「大佬,这个 PR 能修下吗?」(可能根本没说清楚哪里有问题)
  • SWE-Bench Verified:「第 42 行这个 if 条件漏了个边界情况,导致空指针异常,请修复。」(清晰、可复现、可验证)
  • 总结一下:*
  • SWE-Bench Verified 就是 SWE-Bench 的「精选版」,保证了测试的高质量,让 AI 的「编程水平」评比更公平!
    P.S. AI 们,自求多福吧!人类程序员的怨念都在这些 Issue 里了……)

    SWE-bench:AI界的「程序员高考」

    AI程序员的”高考”:一场Bug与Bug之间的极限拉扯

  • SWE-bench:* 程序员界的奥林匹克运动会,只不过运动员都是些不吃不喝的电子脑。这里的考题不是1+1=2,而是从现实中抓来的”新鲜热乎”的代码bug,保证原汁原味,童叟无欺。
  • 考试规则经典三连:

  • 修得掉:这是入门级要求
  • 修得好:中等难度要求
  • 不添乱:这道附加题卡住了99%的AI考生
  • 历史战绩惨不忍睹:*
  • 早期的AI考生成绩单简直能让人笑掉大牙 – 20多分都算优等生
  • 稍微简单点的”SWE-bench Lite”版本,AI们才能勉强拿到43分的”及格边缘”成绩
  • 但现在情况不同了!* 排名前十的AI选手个个都能考过50分大关,活像一群突然开挂的学渣逆袭记。看来AI们终于明白了:在程序员的世界里,制造一个新bug比修复一个旧bug容易多了!
  • 深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    AI专家的”现实觉悟”:当代码竞赛变成了”不可能任务”

  • OpenAI的研究人员最近对SWE-bench这个代码评价基准做了一个有趣的”认怂”*:
  • “这个测试太难了!” – OpenAI的研究员们发现这个号称能评估AI编程能力的基准,竟然让他们的超级模型也频频”翻车”
  • “有些任务根本不是人类能完成的” – 是的,你没看错,这些AI测试题把AI难倒了,OpenAI甚至怀疑这些题目可能连人类程序员都搞不定
  • “我们可能需要换个方式测试AI” – 就像考试太难学生集体不及格时,学校的反应一样
  • “想象一下你参加编程竞赛,结果发现题目要么缺少关键信息,要么要你修复不存在的bug——这就是AI们面对SWE-bench时的崩溃心情。”*
  • 为什么这很重要*:
  • AI界正在上演一出”超能AI对抗超纲考题”的喜剧
  • 评估AI能力的标准本身可能需要被评估了
  • 这场”AI说题太难”的辩论可能改变未来AI测试的方式
  • 看来即使是AI界的”学霸”,面对不合理的考题也会有”这题超纲了!”的烦恼啊!

    简单介绍下SWE-bench

    GitHub问题修复:一份程序员版本的”拆弹专家”指南

    SWE-bench测试集就像是程序员专属的”拆弹训练场”——这里收集了来自GitHub上12个开源Python项目的”炸弹文件”(那些被标记为Issues的bug报告),每个都附带一个已经成功拆除的案例(也就是PR解决方案)。

    拆弹工具包

  • FAILTOPASS测试:这是你的”炸弹探测器”
  • 在PR提交前疯狂报警(测试失败)
  • 在你正确修复后会开心地停止叫唤(测试通过)
  • PASSTOPASS测试:这是你的”防手抖装置”
  • 无论你怎么修修补补都不该触发的警报
  • 一旦响了就说明你把不该碰的东西炸飞了
  • 拆弹行动准则

  • 盲操作模式:你不能看到测试细节(就像真正的拆弹专家永远不会知道剪红线还是蓝线更危险)
  • 双重认证:必须同时满足
  • FAILTOPASS闭嘴了(问题解决了)
  • PASSTOPASS还在安静睡觉(没有制造新问题)
  • 情报来源:你能看到的是
  • 用户在GitHub上哭诉bug的原始帖子
  • 整个代码库的地形图
  • 职业风险警告

  • 这不仅考验你能不能修好bug,更考验你能不能假装这个bug从来没出现过*——就像最好的修复是让代码看起来仿佛从出生就这么完美。任何一个多余的空格都可能让PASSTOPASS测试从睡梦中惊醒,然后你就得熬夜写事故报告了。
  • SWE-bench Verified:一个人工选出来的子集

    论程序员是如何给代码”相亲”的

    各位观众朋友们大家好!欢迎收看本期“人类质检员的奇妙冒险”节目。今天我们要讲的是——SWE-bench Verified,一个让AI和程序员联手打造的”代码相亲大会”。

    1. 代码界的”非诚勿扰”

    话说那是2024年的8月,OpenAI和一群精通Python的程序员们(整整93位!)组成了一支“代码质量评估天团”,准备开启一场史无前例的代码相亲。
    他们的任务是什么?给SWE-bench这个代码基准测试集的1699位”选手”挨个打分!这就像是让程序员们坐在评委席上,一边喝着咖啡,一边严肃地审视每一行代码,内心OS可能是:

  • “这代码写得不错,可以考虑嫁入GitHub豪门。”
  • “这玩意儿能跑起来?怕不是要用八抬大轿才能请动Python解释器。”
  • “嗯……逻辑清晰,格式工整,恭喜你,通过了本相亲环节!”
  • 2. 人类智慧 vs. 机器的倔强

    你以为这是随便找个AI自动评分?NO!为了确保结果精准可靠,OpenAI和程序员们采用了“人类火眼金睛”策略,手动筛选每一份代码样本。这种严谨程度,堪比:

  • 程序员调试代码时的耐心(尽管可能最后发现是少了个分号)
  • 女朋友问你衣服好不好看时的审慎(答错了可能就要睡沙发了)
  • 如果未来的AI考试也这么搞,大概人类考官会一边改卷子一边叹息:”这AI的逻辑比我前任还难懂……”

    3. 最终的”代码天选之子”

    经过一番”挑剔”的筛选,SWE-bench Verified诞生了!它相当于:

  • 版本的”米其林指南”,但评的不是美食而是代码
  • 程序员版的”舌尖上的中国”,只不过美食变成了bug修复
  • AI界的”高考模拟题”,要是AI能通过,距离统治世界大概又近了一步
  • 至此,世界上最硬核的代码筛选大会圆满结束。让我们期待下一次人类和AI继续相爱相杀的故事!

  • 程序员友情提示:* 如果你也想让自己的代码参加相亲,记得先写注释,不然可能连初选都过不了。
  • 深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    问题清晰度评分指南:从”明明白白”到”云里雾里”

    这个简单又实用的评分系统就像给问题的”模糊程度”拍X光片,让我们一起来看看吧!

    四个级别的”摸鱼”指数

  • 0分 – 皇家御厨级别的清晰度
  • 问题描述得就像菜单一样清清楚楚
  • 连解决方案的调料比例都给你标好了
  • 简直清晰得能照出人影
  • 1分 – 填空题小能手的乐园
  • 问题像是被人啃了一口的披萨 – 缺了点料
  • 但聪明的你能脑补出完整的形状
  • “此处应填写“就是你的主场
  • 2分 – 雾里看花特别套餐
  • 问题描述得像隔了层毛玻璃
  • 可能理解成A方案,也可能是Z方案
  • 就像在玩”你画我猜”,但画的人手抖得像帕金森
  • 3分 – 天书专业八级水准
  • 读三遍后依然保持”我是谁我在哪”的哲学状态
  • 连AI看了都想申请人类援助
  • 建议配上翻译官和密码破解工具使用
  • 使用说明书

  • 当你遇到一个问题时,先别急着撞墙,拿出这个评分卡像品酒一样品品:*
  • 是一杯清澈见底的矿泉水?
  • 还是掺了酱油的卡布奇诺?
  • 或者是用象形文字写的奶茶配方?
  • 记住这个黄金法则:分数越高,越适合用来考验同事的耐心!
    深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

    数据筛选的玄机与成绩背后的”猫腻”

    严格的筛选标准

  • 粗暴但有效:直接把2分和3分的题目扔进垃圾桶!
  • 误报率飙升?没关系,我们要的就是这种”宁可错杀一千”的自信。
  • 在剩下的0分和1分题目中玩幸运大转盘——随机抽500道,搞定!
  • 考试版本大不同

  • Claude同学考的是让人头皮发麻的”全科统考”。
  • OpenAI参加的是精心设计的”重点班小测验”。
  • 这比分?就像比较菠萝披萨和意大利面——表面都是意大利货,实际上天差地别。
  • 图表乌龙与可能的”阴谋”

    发布会上的图表错误真是个小可爱,但更值得玩味的是:

  • 大家都在笑话图表,却没人注意SWE-Bench的分数差异。
  • 阴谋论预警:这会不会是OpenAI的障眼法?
  • 犯错越明显,越容易转移注意力
  • 用一个小错误掩盖大问题,简直是人类101级心理战术
  • (真想@福尔摩斯来破案)

  • 来源:某精准命中人类八卦本能的鸟类社交平台对话*
  • 原文载于让科技新闻变得美味的”新智元”餐馆*
  • © 版权声明

    相关文章