234
0

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

GPT-5的编程神话被戳破了?

听说大家都在翘首期盼GPT-5的编程能力?就像等着圣诞老人送来最新款PS5一样兴奋?但且慢,让我给大家泼盆冷水——这个圣诞老人可能忘了带烟囱钥匙

SWE-bench Verified的科学性被质疑

  • 官方宣称的强大编程能力测试
  • 其实只用了477个问题
  • 就像用一把小勺子去丈量太平洋
  • 有人发现这个”权威”测试基准就像是用显微镜观察大象——视角确实独特,但可能误导我们对大象真实尺寸的判断。477个问题?这连我上周写的Bug数量都没赶上!

    测试样本量的迷思

  • 477 ≈ 我一周内遇到的IDE崩溃次数
  • 相当于用三明治配方测试米其林厨师水平
  • 或许应该改名叫”SWE-bench Vague”(模糊)更贴切?
  • 让我们换个角度思考:如果你的老板用你上周三下午3点到3点半写的代码来评判你一整年的工作表现,你会不会觉得这家公司的年终奖也该打个折扣?

    人类的倔强反击

    话说回来,这或许是个好消息?至少在GPT-5统治世界之前,我们人类程序员还能继续靠写Bug维持生计。毕竟,477个问题都能当权威基准,那我们随便改个需求就能创造出一个新基准!
    所以下次当你对着IDE发呆时,记住:你在进行的可能是比GPT-5测试更全面的脑力训练!(虽然看起来像是在刷社交媒体)
    GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    OpenAI的”SWE-bench Verified精简版”:一个数学魔术师的精彩表演

  • 让我们来解密这个有趣的AI竞赛游戏规则*
  • SWE-bench Verified是什么?
  • 就像是AI界的”高考模拟卷”,专门考编程能力的标准试题库,共500道题。

  • OpenAI的神奇操作
  • 他们悄悄地在这500题里”pass”掉了23道
  • 创造了一个”子集的子集”(477题)
  • 那些被pass的题直接算作零分
  • 分数变形术
  • 实际差距仅有0.4%
  • 如果老老实实算全部分数…
  • “各位观众!见证奇迹的时刻到了!”
  • (结果可能是OpenAI反而比Claude Opus 4.1得分更低)

  • 这让我想起*
  • 考试时故意”忘记”带最难的科目的课本
  • 然后跟家长说:”看!我其他科目都考得不错!”
  • 只是没想到AI公司也开始玩这招了
  • 关键启示*
  • “当数字变得神奇时,一定要看看魔术师藏在袖子里的牌”* —— 尤其是当这个魔术师穿着OpenAI的T恤时。
  • GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    OpenAI的”选择性失忆”艺术展

    当代AI行为大赏

    当OpenAI遇到困难问题时,它们展现出了令人叹为观止的艺术天分——”选择性忽略”已经成了一门精致的表演艺术:

  • 第23次重演:就像一场精心排练的戏剧,23道难题在它面前集体蒸发
  • 基础设施魔咒:每当剧幕拉开,总有一个熟悉的台词:”亲~我们的服务器不能托住这个问题呢~”
  • 技术性遗忘症候群

    让我们来看看这种”技术性遗忘”的特征表现:

  • 症状:遇到难题 → 眼睛一闭 → “我看不到它就不存在”
  • 官方解释:比魔术师的花招还神奇 – “这不是忽略,是技术限制的优雅芭蕾”
  • 观众反应:吃瓜群众纷纷表示”这集我看过,上次是4.1版本”
  • 温馨提示:本节目效果纯属故意,如有雷同,绝对不是巧合。GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    论OpenAI的”套娃”式评测大法

    最近AI圈子里有个事儿把我笑不活了,咱们来聊聊OpenAI这波”无限套娃”操作:

    评测套娃三连击

  • 第一层套娃:先嫌弃人家SWE-bench评测不够系统
  • 就像小学生嫌考试太简单:”这题不行,根本测不出我的真实水平!”
  • 于是自己搞了个SWE-bench Verified子集
  • 第二层套娃:结果发现自己的题目也跑不通
  • “等等…怎么我的高级考题也出bug了?”
  • 只能默默再搞个子集的子集
  • 第三层套娃:成绩还疑似注水
  • 这操作简直比网红滤镜还狠
  • “不是60分P成90分,是把考卷直接PS了啊!”
  • 魔幻现实连续剧

  • 前情提要:GPT-5发布会现场翻车图表错误
  • 最新剧情:评测成绩可能也有”美颜”
  • 下集预告:???
  • 这让我想起那个俄罗斯套娃的段子:”当你以为打开最后一个小娃娃时,发现里面写着’最终解释权归OpenAI所有'”

  • 建议改名*:
  • OpenAI → Open套娃
    LLM评测 → 创意写作大赛
    不信你看他们的产品路线图:

  • 2023:我们要制定行业标准!
  • 2024:哦等等我们先修订下标准…
  • 2025:那个…标准的标准需要再讨论
  • (友情提示:本文内容可能需要再经过三级验证才能确保真实性)
    GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    OpenAI一直省略23个问题

    AI对决:一场不公平的”脑力运动会”

    最近网友们的火眼金睛发现了些有趣的事——GPT-5和Claude 4.1 Opus的”巅峰对决”似乎有点水分。这就好比让一名全力冲刺的运动员和一个正在散步的家伙比赛百米跑,然后骄傲地宣布:”瞧,我们赢了!”

    网友们的三大吐槽点

  • 选择性忽略
  • 某些测试题直接被官方”雪藏”,就像考试时偷偷藏起了你不会的题目,然后拿着剩下的成绩单宣布:”看,我进步了!”

  • 结果造假?
  • 网友们怀疑官方可能”美颜”了一下数据,毕竟谁不想在竞争对手面前展现最佳风采呢?

  • 不公平竞技场
  • GPT-5使出了”洪荒之力”(最大思维努力),而可怜的Claude 4.1 Opus*却只能”赤手空拳”(仅依靠原始模型)。这样的对比,就像是让一个带着计算器的学生和一个心算高手PK数学,然后得意地说:”我们赢了!”
  • 结论:AI也需要公平竞争

    如果真要比较,至少得让它们站在同一起跑线上吧?不然这场PK到底是实力的较量,还是”谁更会作弊”的比赛?下次建议官方直接让GPT-5和Claude都戴上”思维放大镜”,看看谁才是真正的AI之王。
    不然……网友们可都要笑场了。
    GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    测试问题的神秘失踪事件

  • 477 vs 500*,这可不是什么新出的彩票号码组合,而是某个AI团队测试时遇到的数学难题。
  • 事情的真相:*
  • 团队原本准备了整整500个问题,准备让AI大展身手。
  • 结果跑着跑着,最后23个问题突然“失踪”了
  • 原因?电脑表示: “兄弟,我带不动了!”
  • 内部对话可能如下:*
  • 程序员A:“我们是不是少测了23个问题?”
  • 程序员B:“啊?有吗?一定是幻觉!”
  • 服务器:“不,是我的幻觉……我要炸了。”
  • 最终,他们选择优雅地忽略剩下的23题,理由是——“基础设施的灵魂需要休息”。

  • 结论:*
  • 有时候,不是AI不够强,而是人类的电脑不够硬
    GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    关于GPT-4.1的那些”谦虚”与”低调”

    还记得今年4月的那个”低调学霸”GPT-4.1吗?

  • 它考完477道题后,腼腆地宣布自己考了54.6%
  • 官方发言人也挺”抠门”:“要是保守点,把这些题目都算0分,那也还有52.1%呢!”
  • 这就好比:

  • 一个明明考了95分的学生
  • 非要说”可能就会这一道题”
  • 最搞笑的是,尽管各种谦虚,这个分数在当时已经是天花板级别了!
    GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    OpenAI的小把戏被抓包了

  • Anthropic可不是那么好糊弄的*
  • 就在Claude Opus 4.1高调秀编程成绩的时候,人家悄咪咪地在文章最后给你留了个”彩蛋”。那句话分明就是在暗示:

  • “亲爱的朋友们,某些人喜欢在考官面前打小抄,我们可都看着呢!(¬_¬)”*
  • 这简直堪比科技圈版”皇帝的新衣”!OpenAI以为没人发现他们的小动作,结果Anthropic直接把证据埋在了…最容易被忽视的文章结尾处。这操作,绝了!
    GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    Claude 4:一场”精打细算”的AI升级秀

    Claude家族的减法艺术

  • 工具大甩卖:从三件套变成了二件装!Claude 4系列很贴心地帮我们省去了那个”规划工具”,就像买了新款iPhone但耳机口消失了一样”体贴”
  • 精简套餐:现在只剩下两个可怜的工具
  • Bash工具:相当于AI界的瑞士军刀
  • 字符串编辑工具:因为AI也需要偶尔做做文字操
  • 记分方式也很有意思

  • Claude的马拉松:整整500道题的完整套餐!就像高考考完所有科目才能说自己是个真汉子
  • OpenAI的捷径:477道题的”精选集”,明显是参加了高考但选择性跳过了解析几何大题
  • 有趣的巧合:两者的分数居然还能放在同一张表里比较,这可比比较西瓜和篮球的直径有意义多了
  • GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    基准还是OpenAI自己提的

    当AI测评遇上自我打脸大戏

  • 一个关于基准测试的幽默讽刺*
  • 原来搞了半天,这个所谓的SWE-bench Verified评测标准居然是OpenAI自家的”原创大作”?这下可好:

  • 尴尬程度:堪比在全校大会上朗诵自己写的满分作文,结果被当场抓包作弊
  • 逻辑自洽性:就像试图用左手证明右手很灵活一样迷幻
  • 可信度:基本等同于让烤串师傅给自己的烧烤技能打分
  • 这不是明摆着:

  • 自产自销:先造个标准,再用这个标准证明自己最棒
  • 闭环操作:完美诠释什么叫”裁判运动员一手抓”
  • 行为艺术:用实际行动演示”搬石头砸脚”的全过程
  • 最重要的是,人家还砸得挺理直气壮!这种我测我自己的骚操作,建议收录进《AI时代迷惑行为大赏》经典案例。

  • PS:下次建议直接改名叫”SWE-bench:OpenAI夸夸群专用版”得了*
  • GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    程序员们的小烦恼:那些年我们扔掉的测试样本

    哎呦,话说程序员们在钻研那个SWE-bench的时候,突然发现——咦?这里头有些任务简直比让AI学会谈恋爱还难搞!有些家伙甚至压根就没法解决,搞得SWE-bench像个漏风的筛子,根本没法系统性地评测模型的“独自码代码”能力。
    怎么办呢?总不能砸键盘了吧!于是乎,一群机灵的程序员一拍大腿:“合作去!”他们拉上了SWE-bench的原作者,雄赳赳气昂昂地宣布:“我们要升级!”
    紧接着,他们发起了一场“人类注释大作战”。93位资深程序员纷纷响应,撸起袖子开始了史诗级的人工筛选——目标是让SWE-bench测试集的样本符合“人类也能看懂”的标准。
    具体怎么搞呢?

  • 随机抽签1699个样本——不然全筛完怕是新年都过完了。
  • 标注标准无比严格
  • 问题描述是不是人能看懂的?
  • 每个样本贴个标签:0到3分
  • 0和1分:轻微瑕疵(忍忍能用)
  • 2和3分:严重缺陷(直接垃圾桶见!)
  • 这群程序员们简直像一群严格的考官,不合格的统统刷掉!毕竟,一个好的测试样本就得像一块美味的饼干——不能太硬(难解决),也不能太软(没意义)!
    于是乎,经过一顿猛如虎的操作,一个新版SWE-bench诞生了!这次,AI们总算不用对着诡异的测试样本挠头了——啊不,如果AI有头的话。
    GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    我们来谈谈程序员修Bug的那些事儿

    最近有人搞了个有趣的实验:

  • 让500个程序员集体修Bug(别担心,全是自愿的)
  • 用”看一个猫视频的时间”作为计时单位
  • 他们按修Bug的时间把任务分成了:

  • 简单模式(196个)
  • 用时:比泡碗方便面还快(<15分钟)
  • 经典操作:
  • 把`==`改成`===`
  • 发现忘写分号
  • “谁把密码设成了’password’??”
  • 困难模式(45个)
  • 用时:够看完一集《权力的游戏》(>1小时)
  • 常见症状:
  • 盯着屏幕喃喃自语”这不应该能运行啊…”
  • 第42次Google搜索同一个错误
  • 最终发现是键盘上的Ctrl键卡住了
  • 最搞笑的是*:当我们以为终于收集齐了所有程序员崩溃瞬间时…OpenAI默默删掉了一半数据 —— 大概是AI也看不下去了!
  • 这就好比好不容易收集了100个老师的黑板板书,结果教务处说”字体太丑,重写”。

    One More Thing

    AI大乱斗:测试排行榜的奇妙故事

    SWE-bench:那个“古老又倔强”的原始榜单

    在AI评测界的“奥林匹斯山”上,各种榜单层出不穷,每个都号称自己是“权威中的权威”——但最终还是得回到那个最初的“老家伙”SWE-bench。就像你从米其林餐厅出来,还是会怀念小区门口那家开了20年的老面馆一样,它可能没那么花哨,但确实有点东西。

    排行榜现状观察

  • Claude 4 Opus 依旧稳坐王者之位——仿佛在嘲笑那些后来者:“不好意思,各位小朋友,你们先努力追上来再说吧!”(优雅品茶.gif)
  • 其他AI模型:有的在“努力拼搏”,有的在“战术性休息”(其实就是还没能力升级),还有的在“假装自己很懂代码”(实际测试时疯狂报错)。
  • 开发者们:一边骂这个榜单“太偏颇”,一边偷偷拿它当“终极检验器”——真香定律无处不在!
  • 为什么大家还在看这个榜单?

  • “旧时代的倔强”:就像你妈总觉得“老中医比现代医学靠谱”一样,程序员们对“初代权威”也有谜之信任。
  • “简单粗暴”:没有花里胡哨的加权算法,直接看“谁代码改得好”,像极了程序员之间的比试——“少废话,跑个分!”
  • “历史情怀”:第一批AI测试数据,堪称“人工智能进化史的活化石”,科研人员含泪收藏。
  • 总结

    尽管各种新型测试榜单层出不穷,SWE-bench 依然像个顽固的老教授,站在实验室门口说:“你们那些新方法我都懂,但我的考试,才是真的难!” 而 Claude 4 Opus 依然是那个“考霸”,淡定地等着别人来挑战——但目前为止,它的座位,依旧稳如泰山。
    GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

    GPT-5已经在偷偷写代码了?我的程序员生涯要完蛋了吗?

  • 据说科技界又开始暗搓搓地搞事情了…*
  • 听说GPT-5已经在训练中了*,连代码都能自己写完整项目了?!
  • 作为一个资深”码农”(好吧其实是在键盘上胡乱敲打的初级选手),这个消息简直让我又兴奋又害怕。兴奋的是以后再也不用debug到凌晨3点,害怕的是…以后是不是连debug的机会都没有了?

    当AI开始写代码时”程序员”都在干什么?

  • 早上9点 – 不再写代码,而是给AI写提示词
  • 上午11点 – 检查AI写的代码,假装很懂的样子
  • 下午2点 – 在会议上声称”这个架构是我指导AI设计的”
  • 下午4点 – 偷偷Google AI写的代码是什么意思
  • 晚上8点 – 在Stack Overflow上编造自己去年的经验回答
  • 现实*:
  • 以前是我们喂代码给AI学习
  • 现在是AI写代码给我们学习
  • 过几年可能是AI和AI互相学习,我们只需要在旁边喊”666″
  • 关于这些AI写代码的都市传说

    有意思的是,GPT-5都还没正式露面呢,大家对它的能力就已经传得神乎其神了。要不要来猜猜:

  • 是AI先学会自举(bootstrapping)?
  • 还是我们先学会正确使用AI工具?
  • 或者…我们能不能先学会怎么好好写README.md?
  • 技术咖们的集体焦虑讨论区

    欢迎在评论区分享:

  • 你是如何”驯服”AI为你写代码的?
  • 有没有被AI写出的代码惊艳(或惊吓)到的经历?
  • 来预测下,程序员这个职业还能活多久?(我先来:至少能活到我把房贷还完吧)
  • 记住,万一哪天AI真能完全取代我们了,至少我们还可以转行去做…呃…AI心理咨询师?(专门安慰被AI抢走工作的程序员)

    © 版权声明

    相关文章