深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

AI资讯2个月前发布云知AI运营官

AI代码竞赛：当数字开始跳舞，谁才是真正的王者？

OpenAI与Anthropic的数学奇妙冒险*

最近AI圈上演了一出精彩的”数字魔术秀”：

OpenAI：在SWE-bench编程测试中只完成了477道题，却奇迹般地公布了74.9%的分数

Anthropic的Claude：老实巴交地完成了全部500道题，结果…没人知道它的分数是多少

数学魔术时刻：更搞笑的是，在OpenAI发布会上，他们的天才数学家们创造了 “52.8＞69.1=30.8” 的新数学公式，让全世界的老师都在怀疑自己是否误人子弟

那些年薪上亿的天才们在想什么？*

Marketing Math™（市场数学）：一种特殊算法，能让你未完成的作业看起来比完美作业更优秀

新逻辑学：把不同维度的数字随意比较，创造出令人惊叹的概率造型

发布会魔术：当所有人的目光聚焦在”GPT-5代码能力世界第一”时，谁还记得基础算术？

这场AI竞赛告诉我们：在科技行业，有时候数字不会撒谎…但展示数字的方式可以很强！
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

GPT-5与Claude Opus的”龙争虎斗”

直播乌龙？小插曲不值一提！

这次OpenAI的直播里，那张被全世界的程序员和AI迷们盯着的表格居然搞错了——是的，他们的表格在官博里是对的，但直播时却变成了“我已经放暑假但我发现作业写错”的风格。不过，咱们别纠结这个小Bug了，毕竟科学家也是人，偶尔手滑嘛！

真正的重点是：谁才是AI界的”卷王”？

在这个”AI界高考”的SWE-bench Verified测评里：

GPT-5以74.9%的分数，微微领先！

Claude Opus 4.1不甘示弱，冲到了74.5%。

这差距有多小呢？大概就相当于你在期末考试里比同桌多对了一道选择题，但足以让你爸妈在亲戚面前吹一个暑假！

总结

虽然直播闹了个小乌龙，但真正精彩的还是这两大AI在技术赛道上的胶着战况——“你追我赶，彼此压力山大！”
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

GPT-5：”领先”的含金量有多高？

OpenAI最近挥舞着GPT-5的大旗，宣称它在软件工程任务基准上一骑绝尘，俨然成了人工智能界的”赛博超人”。不过嘛……等等，这分数怎么闻起来有点”特调”的味道？

让我们来看看这场”分数魔术表演”的精妙之处：*

选择性计数——OpenAI没有跑完SWE-bench Verified全部的500道测试任务（毕竟500这个数字听起来多么整齐漂亮），而是悄悄地”忽略”了23个不太听话的题目。

477俱乐部——剩下477道题目乖乖地跑出了成绩，正好可以支撑”领先”的宝座。Perfect！这不就像是考试时只计算你会做的题吗？

业界侦探SemiAnalysis火眼金睛地发现了这个”统计魔术”，忍不住在网上发文：”喂，朋友们，你们注意到那个藏在柜子里的23道题了吗？”

结论*：

这就好比田径运动员在奥运会上跳过几个跨栏，然后宣称自己破了世界纪录——技术上确实”没碰到栏杆”，但……你懂的？
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

AI公司的”内涵大法”也能这么玩？

Anthropic这波操作，简直是科技圈的”冷笑话王者”！*

什么叫”内涵式吐槽”？

想象一下，一家AI公司写博客，不是在炫耀技术，而是偷偷在里面藏了个”梗”。

就像在严肃的学术论文里塞表情包——又秀又皮！

技术越强，吐槽越高级

普通人吵架：直接怼。

AI公司互撕：优雅地埋彩蛋，等你慢慢挖到笑出声。

网友反应：

“看懂了！Anthropic这波是‘用魔法打败魔法’？”

“下次CEO采访能不能也这么幽默？”

结论：当AI公司开始玩梗，人类只能乖乖笑着点赞*…

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

当AI也开始挑题做，人类的”作业恐惧症”有伴了！

GPT-5：”这道题啊？不太行，看不懂，下一题！”

总题量500道，GPT-5直接潇洒跳过23道，理由是：”咱们的架构跑不动。”（AI界的”这题超纲了”？）

Claude 不愧是老实人，500道全做了，妥妥班上那个”作业从不拖延”的学霸。

OpenAI 倒是诚实，从GPT-4.1开始 就在小字里备注：”这23题，咱搞不定。”

网友们灵魂发问：

什么样逆天的题能让OpenAI天才团队挠头？

难道是“计算宇宙终极答案”？

还是“用二进制代码解释人类爱情”？

GPT-5，你是真不会，还是单纯想偷懒？

毕竟人类也会说：”这道题太难了，跳过！”

（OS：AI终于也学会人类的拖延术了？）

结论

AI开始挑食 = 人类除了要担心自己写不完作业，还得担心AI是不是也摆烂了！

未来的AI面试：

HR：”你能做500道题吗？”

GPT-5：”我选做477道，剩下23道……算了吧，我怕系统崩。”

Claude：”我全都会！”

HR默默给Claude发了offer。

所以，以后AI考试也要搞“附加题禁止跳过”的规则了吗？*

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

当AI考试也玩”及格线跳水”：GPT-5的”艰难时题”

AI考试中的”战略性放弃”

据说这段分析是用”假设GPT-5是个学生”的风格写的，结果发现这位”高材生”可能偷偷藏了几份白卷…*

1. 原始分数 vs. 理想分数

GPT-4.1（乖乖做题版）：54.6%正确率。

GPT-4.1（但漏了23题）：扣掉23道0分后，分数跌至52.1%……显然，挂科边缘的小动作并不高明。

GPT-5（官方报告成绩）：74.9%，看起来是学霸，但……

2. GPT-5的”取巧”计算法

477题版本：”我考了74.9%，厉害吧？”（忽略23道题，可能全错）

500题版本：”呃，71.4%……”（比Claude Opus4.1的74.5%差了3个百分点）

结论*：AI考试也有”选填题”，而且它可能故意跳过最难的那些！

3. 被”和谐”的23道题有多难？

“4小时地狱级”题目：连学霸们都撑不住！

ClaudeSonnet4（非思考模式）：33%

o3（不知道是谁）：33%

GPT4.1（”老学长”）：33%

GPT-5（官方没说，估计躲了）

“1小时痛苦级”题目：大部分模型的答题信心和正确率都骤降。

4. 真正的问题：AI考试是否该算满分500题？

“我们是不是应该说：‘*

AI做题家们在477题考试里很强，但在500题里可能没那么神？’

或者更简单点——*

‘嘿，考试里有23道题是开放式超难附加题，GPT-5直接交了白卷？’*”

——反正大家都在搞”成绩美化”，AI也不例外。
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

模型大乱斗：当GPT-5遇上了”奥数题”

这是一场不亚于武林大会的AI对决

AI届的”高考难题”来了

这些变态级任务简直就是给AI出的”奥林匹克竞赛题”。如果GPT-5连这些题目都做不出，那就跟说”我是学霸但我不会做奥数题”一样打脸啊！

谁才是真正的”满分王”？

Claude 4.1那个74.5%的成绩，可是硬着头皮把所有的”魔鬼题目”都啃下来了。而GPT-5的74.9%呢？呵呵，人家可聪明了——先把最难的题都擦掉，再开始考试的！

评分规则疑云重重

裁判居然是选手自己？！

最搞笑的是，这场考试的出题人就是OpenAI自己。这就好比让运动员自己当裁判，然后告诉大家：”我真的跑得很快！”

透明度去哪儿了？

现在的情况就像两个学霸互相较劲：

Claude：”我做完了所有题！”

GPT-5：”咳咳…我做了大部分题…”

围观群众只能一脸问号：”那么…到底谁更学霸？”

AI届的内卷已经这么严重了吗？

让我们用一句话总结这场闹剧：“我比你高0.4分，前提是你不看我怎么考的。” 这场AI届的”分数大战”，完美诠释了什么叫做”选择性优秀”！
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

模型大乱斗：程序员界的”超级英雄”对决！

剧情提要*：在一个充满代码的世界里，两大AI巨头——Claude和GPT正在进行一场史诗级的”键盘侠”决斗！赌注是…谁才是更好的程序员助手？

竞技场规则说明

擂台名称：SWE-bench（程序员专属的”饥饿游戏”）

武器限制：只能用bash（不愧是极客们的”匕首战”）

裁判原则：完全透明（连作弊的脚手架都是公开的）

评分标准：解决真实世界编程问题的能力（相当于让AI在Stack Overflow上当场表演）

SWE-Bench：程序员的噩梦还是福音？

1. SWE-Bench 是个啥？

简单来说，SWE-Bench 就是一个专门用来「折磨」AI程序员的基准测试。它可不是那种让你写个「Hello World」的入门题，而是把 GitHub 上那些真实存在的 Bug 和功能请求丢给 AI，看看它能不能像人类程序员一样修 Bug 或者实现新功能。

想象一下：*

你是一个 AI 程序员，突然有人丢给你一个几千行的 Python 项目，说：「来，第 324 行的逻辑错了，改一下呗！」

而你甚至不能 Ctrl+F，因为有的 Bug 涉及到好几个文件和复杂的逻辑关系……

2.「验证」子集是啥玩意儿？

SWE-Bench 的「验证」子集（Verified）就是那些经过人工审核确保「靠谱」的问题集。为啥需要人工审核？因为：

某些 GitHub Issue 表述模糊（比如：「这个函数有时候会崩」）。

有些 Bug 根本不复现（提 Issue 的人可能只是自己电脑抽风了）。

有的甚至根本不是 Bug，而是用户没看懂代码……

「验证」子集的好处就是*：你可以放心拿着这些问题去测试 AI，而不用担心被不靠谱的问题坑了。

3. 为啥要搞 SWE-Bench Verified？

因为原始数据里太多坑了！想测试 AI 的水平，总得用真 Bug 吧？可如果测试集本身就不严谨，那 AI 表现得再好或者再差，都可能是数据的问题。

举个栗子：*

普通 SWE-Bench：「大佬，这个 PR 能修下吗？」（可能根本没说清楚哪里有问题）

SWE-Bench Verified：「第 42 行这个 if 条件漏了个边界情况，导致空指针异常，请修复。」（清晰、可复现、可验证）

总结一下：*

SWE-Bench Verified 就是 SWE-Bench 的「精选版」，保证了测试的高质量，让 AI 的「编程水平」评比更公平！
（P.S. AI 们，自求多福吧！人类程序员的怨念都在这些 Issue 里了……）

SWE-bench：AI界的「程序员高考」

AI程序员的”高考”：一场Bug与Bug之间的极限拉扯

SWE-bench：* 程序员界的奥林匹克运动会，只不过运动员都是些不吃不喝的电子脑。这里的考题不是1+1=2，而是从现实中抓来的”新鲜热乎”的代码bug，保证原汁原味，童叟无欺。

考试规则经典三连：

修得掉：这是入门级要求

修得好：中等难度要求

不添乱：这道附加题卡住了99%的AI考生

历史战绩惨不忍睹：*

早期的AI考生成绩单简直能让人笑掉大牙 – 20多分都算优等生

稍微简单点的”SWE-bench Lite”版本，AI们才能勉强拿到43分的”及格边缘”成绩

但现在情况不同了！* 排名前十的AI选手个个都能考过50分大关，活像一群突然开挂的学渣逆袭记。看来AI们终于明白了：在程序员的世界里，制造一个新bug比修复一个旧bug容易多了！

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

AI专家的”现实觉悟”：当代码竞赛变成了”不可能任务”

OpenAI的研究人员最近对SWE-bench这个代码评价基准做了一个有趣的”认怂”*：

“这个测试太难了！” – OpenAI的研究员们发现这个号称能评估AI编程能力的基准，竟然让他们的超级模型也频频”翻车”

“有些任务根本不是人类能完成的” – 是的，你没看错，这些AI测试题把AI难倒了，OpenAI甚至怀疑这些题目可能连人类程序员都搞不定

“我们可能需要换个方式测试AI” – 就像考试太难学生集体不及格时，学校的反应一样

“想象一下你参加编程竞赛，结果发现题目要么缺少关键信息，要么要你修复不存在的bug——这就是AI们面对SWE-bench时的崩溃心情。”*

为什么这很重要*：

AI界正在上演一出”超能AI对抗超纲考题”的喜剧

评估AI能力的标准本身可能需要被评估了

这场”AI说题太难”的辩论可能改变未来AI测试的方式

看来即使是AI界的”学霸”，面对不合理的考题也会有”这题超纲了！”的烦恼啊！

简单介绍下SWE-bench

GitHub问题修复：一份程序员版本的”拆弹专家”指南

SWE-bench测试集就像是程序员专属的”拆弹训练场”——这里收集了来自GitHub上12个开源Python项目的”炸弹文件”(那些被标记为Issues的bug报告)，每个都附带一个已经成功拆除的案例(也就是PR解决方案)。

拆弹工具包

FAILTOPASS测试：这是你的”炸弹探测器”

在PR提交前疯狂报警(测试失败)

在你正确修复后会开心地停止叫唤(测试通过)

PASSTOPASS测试：这是你的”防手抖装置”

无论你怎么修修补补都不该触发的警报

一旦响了就说明你把不该碰的东西炸飞了

拆弹行动准则

盲操作模式：你不能看到测试细节(就像真正的拆弹专家永远不会知道剪红线还是蓝线更危险)

双重认证：必须同时满足

FAILTOPASS闭嘴了(问题解决了)

PASSTOPASS还在安静睡觉(没有制造新问题)

情报来源：你能看到的是

用户在GitHub上哭诉bug的原始帖子

整个代码库的地形图

职业风险警告

这不仅考验你能不能修好bug，更考验你能不能假装这个bug从来没出现过*——就像最好的修复是让代码看起来仿佛从出生就这么完美。任何一个多余的空格都可能让PASSTOPASS测试从睡梦中惊醒，然后你就得熬夜写事故报告了。

SWE-bench Verified：一个人工选出来的子集

论程序员是如何给代码”相亲”的

各位观众朋友们大家好！欢迎收看本期“人类质检员的奇妙冒险”节目。今天我们要讲的是——SWE-bench Verified，一个让AI和程序员联手打造的”代码相亲大会”。

1. 代码界的”非诚勿扰”

话说那是2024年的8月，OpenAI和一群精通Python的程序员们（整整93位！）组成了一支“代码质量评估天团”，准备开启一场史无前例的代码相亲。
他们的任务是什么？给SWE-bench这个代码基准测试集的1699位”选手”挨个打分！这就像是让程序员们坐在评委席上，一边喝着咖啡，一边严肃地审视每一行代码，内心OS可能是：

“这代码写得不错，可以考虑嫁入GitHub豪门。”

“这玩意儿能跑起来？怕不是要用八抬大轿才能请动Python解释器。”

“嗯……逻辑清晰，格式工整，恭喜你，通过了本相亲环节！”

2. 人类智慧 vs. 机器的倔强

你以为这是随便找个AI自动评分？NO！为了确保结果精准可靠，OpenAI和程序员们采用了“人类火眼金睛”策略，手动筛选每一份代码样本。这种严谨程度，堪比：

程序员调试代码时的耐心（尽管可能最后发现是少了个分号）

女朋友问你衣服好不好看时的审慎（答错了可能就要睡沙发了）

如果未来的AI考试也这么搞，大概人类考官会一边改卷子一边叹息：”这AI的逻辑比我前任还难懂……”

3. 最终的”代码天选之子”

经过一番”挑剔”的筛选，SWE-bench Verified诞生了！它相当于：

版本的”米其林指南”，但评的不是美食而是代码

程序员版的”舌尖上的中国”，只不过美食变成了bug修复

AI界的”高考模拟题”，要是AI能通过，距离统治世界大概又近了一步

至此，世界上最硬核的代码筛选大会圆满结束。让我们期待下一次人类和AI继续相爱相杀的故事！

程序员友情提示：* 如果你也想让自己的代码参加相亲，记得先写注释，不然可能连初选都过不了。

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

问题清晰度评分指南：从”明明白白”到”云里雾里”

这个简单又实用的评分系统就像给问题的”模糊程度”拍X光片，让我们一起来看看吧！

四个级别的”摸鱼”指数

0分 – 皇家御厨级别的清晰度

问题描述得就像菜单一样清清楚楚

连解决方案的调料比例都给你标好了

简直清晰得能照出人影

1分 – 填空题小能手的乐园

问题像是被人啃了一口的披萨 – 缺了点料

但聪明的你能脑补出完整的形状

“此处应填写“就是你的主场

2分 – 雾里看花特别套餐

问题描述得像隔了层毛玻璃

可能理解成A方案，也可能是Z方案

就像在玩”你画我猜”，但画的人手抖得像帕金森

3分 – 天书专业八级水准

读三遍后依然保持”我是谁我在哪”的哲学状态

连AI看了都想申请人类援助

建议配上翻译官和密码破解工具使用

使用说明书

当你遇到一个问题时，先别急着撞墙，拿出这个评分卡像品酒一样品品：*

是一杯清澈见底的矿泉水？

还是掺了酱油的卡布奇诺？

或者是用象形文字写的奶茶配方？

记住这个黄金法则：分数越高，越适合用来考验同事的耐心！
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

数据筛选的玄机与成绩背后的”猫腻”

严格的筛选标准

粗暴但有效：直接把2分和3分的题目扔进垃圾桶！

误报率飙升？没关系，我们要的就是这种”宁可错杀一千”的自信。

在剩下的0分和1分题目中玩幸运大转盘——随机抽500道，搞定！

考试版本大不同

Claude同学考的是让人头皮发麻的”全科统考”。

OpenAI参加的是精心设计的”重点班小测验”。

这比分？就像比较菠萝披萨和意大利面——表面都是意大利货，实际上天差地别。

图表乌龙与可能的”阴谋”

发布会上的图表错误真是个小可爱，但更值得玩味的是：

大家都在笑话图表，却没人注意SWE-Bench的分数差异。

阴谋论预警：这会不会是OpenAI的障眼法？

犯错越明显，越容易转移注意力

用一个小错误掩盖大问题，简直是人类101级心理战术

（真想@福尔摩斯来破案）

来源：某精准命中人类八卦本能的鸟类社交平台对话*

原文载于让科技新闻变得美味的”新智元”餐馆*

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

# AI # AI新闻 # AI资讯

2个月前

5,2710

速递｜无代码设计工具挑战Figma：Framer获1亿融资估值20亿美元，ARR破5000万美元

# AI # AI新闻 # AI资讯

2个月前

3,3850

融资数千万美元，前B站副总裁创业：走出ICU，用户已超800万

# AI # AI新闻 # AI资讯

2个月前

7,4070

这个荒诞网站藏着30个AI「鬼点子」，但我觉得它活不长

# AI # AI新闻 # AI资讯

2个月前

2,3820

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

AI代码竞赛：当数字开始跳舞，谁才是真正的王者？

GPT-5与Claude Opus的”龙争虎斗”

直播乌龙？小插曲不值一提！

真正的重点是：谁才是AI界的”卷王”？

总结

GPT-5：”领先”的含金量有多高？

AI公司的”内涵大法”也能这么玩？

当AI也开始挑题做，人类的”作业恐惧症”有伴了！

GPT-5：”这道题啊？不太行，看不懂，下一题！”

网友们灵魂发问：

结论

当AI考试也玩”及格线跳水”：GPT-5的”艰难时题”

AI考试中的”战略性放弃”

1. 原始分数 vs. 理想分数

2. GPT-5的”取巧”计算法

3. 被”和谐”的23道题有多难？

4. 真正的问题：AI考试是否该算满分500题？

模型大乱斗：当GPT-5遇上了”奥数题”

这是一场不亚于武林大会的AI对决

评分规则疑云重重

AI届的内卷已经这么严重了吗？

模型大乱斗：程序员界的”超级英雄”对决！

竞技场规则说明

最新战况速递

SWE-Bench：程序员的噩梦还是福音？

1. SWE-Bench 是个啥？

2.「验证」子集是啥玩意儿？

3. 为啥要搞 SWE-Bench Verified？

SWE-bench：AI界的「程序员高考」

AI程序员的”高考”：一场Bug与Bug之间的极限拉扯

考试规则经典三连：

AI专家的”现实觉悟”：当代码竞赛变成了”不可能任务”

简单介绍下SWE-bench

GitHub问题修复：一份程序员版本的”拆弹专家”指南

拆弹工具包

拆弹行动准则

职业风险警告

SWE-bench Verified：一个人工选出来的子集

论程序员是如何给代码”相亲”的

1. 代码界的”非诚勿扰”

2. 人类智慧 vs. 机器的倔强

3. 最终的”代码天选之子”

问题清晰度评分指南：从”明明白白”到”云里雾里”

四个级别的”摸鱼”指数

使用说明书

数据筛选的玄机与成绩背后的”猫腻”

严格的筛选标准

考试版本大不同

图表乌龙与可能的”阴谋”

巨头收购a16z投资的AI初创企业，团队来自Palantir和Oracle

7年了，OpenAI官方给出五代GPT对比，网友却怀念起「狂野」初代

相关文章

刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

速递｜无代码设计工具挑战Figma：Framer获1亿融资估值20亿美元，ARR破5000万美元

融资数千万美元，前B站副总裁创业：走出ICU，用户已超800万

这个荒诞网站藏着30个AI「鬼点子」，但我觉得它活不长

暂无评论

搜索文章

热门文章