谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

AI资讯3个月前发布云知AI运营官

AI界的”商业价值奥运会”：OpenAI为同行Claude颁发金牌

没想到吧？OpenAI这个大醋坛子居然在自己的地盘公开表扬竞争对手了！近日他们发布了一项关于AI商业价值的研究报告，结果却发现Claude拿到了全场最高分。

重磅研究，意外结局

这项名为GDPval的新基准测试可谓下足了血本：

覆盖了9大最能赚钱的美国行业

涉及44种高端职业

总创收高达3万亿美元（差不多是马斯克的身家的15倍）

测试标准堪称严苛：

任务设计参考14年工作经验的行家

评委拿着放大镜比较AI和人类专家的作品

谁能想到冠军竟是TA？

在经过评委们的”毒舌点评”后：

Claude Opus 4.1：47.6%的作品获得”堪比人类”认证（领奖台上得意地笑了）

其他选手：哎呀呀，不好意思说…

最搞笑的细节

OpenAI此举简直就像：

可口可乐为百事可乐打广告

麦当劳评选最佳汉堡却选了汉堡王

你家猫突然夸邻居家的狗真可爱

（OS：莫非这就是传说中的AI圈的相爱相杀？）
谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

AI竞赛里的那些事儿

GPT-5：万年老二的真实心态

最新统计报告显示，GPT-5以38.8%的成绩屈居第二名

与第一名Claude差距不小，颇有一种”既生瑜何生亮”的悲壮感

GPT-4o就更惨了，跟人类相比只有12.4%的胜率或平局

OpenAI官方碎碎念*：

Claude Opus 4.1就是个”艺术生”，咱家GPT-5可是标准”理工男”

“我们家孩子考试没考好不是因为不够聪明，而是因为老师偏心”

“重要的是进步速度！今年比去年多考了一倍分呢！”

一年内AI胜率几乎翻倍的”体育精神”

这就好比你家孩子去年考试30分，今年进步到60分——虽然还是不及格，但这涨幅多励志啊！

AI界内卷新高度*：没考第一的大模型都忙着找理由证明自己”偏科有理”。

OpenAI 开源的”惊喜大礼包”*

这家AI巨头最近的操作堪比圣诞节提前来了*

OpenAI最近干了一件让程序员们欢呼雀跃的事：

慷慨地开源了一个包含220项任务的”精选菜单”

贴心程度爆表地附赠了”自动打分神器”

这个开源组合拳大概相当于：*

不但请你吃饭

还自带餐具和评分表

随时准备好给你的”用餐表现”打个分

（虽然不确定他们是不是顺便记下了我们的账户信息）*

最妙的是：*

220个任务，足够让研究者们加班加点玩一年

自动评分服务，让AI也能体验考试被评分的”快乐”

温馨提示：*

各位玩家请有序排队领任务，不要因为太过兴奋踩到旁边程序员的AJ
谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己哈哈！看来这项研究真是让人笑掉了科研人员的白大褂啊！网友们纷纷表示：

1. “这研究也太秀了吧！”*

活生生把实验室变成了段子手的创作基地

诺贝尔搞笑奖的非官方有力竞争者

2. “过于真实引起舒适”*

仿佛看到科学家们在实验室里边喝茶边憋笑

学术论文的参考文献里一定有《笑话大全》

3. “建议下次研究笑的杀伤力”*

毕竟网友们已经被这项研究笑到缺氧了

科研经费花在刀刃上的完美示范

4. “这很科学！”*

毕竟科学研究就是要为人类的快乐做贡献

牛顿要是知道后人这么玩科研，怕是要乐得从苹果树下蹦起来

5. “这才是正经研究的正确打开方式”*

严肃.jpg（根本严肃不起来）

建议该课题组改名为”快乐科学研究所”

这么有意思的研究，确定不是来造福人类的段子科研吗？
谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

奥特曼的“GDP增长魔法”：AI还是PPT？

最近有网友提出了一个脑洞大开的观点：奥特曼（Sam Altman）所谓的“AI助力GDP增长”很可能只是一场精心策划的科幻级营销秀！

背后逻辑可能是这样的：

第一步：画个大饼

张口就是“AI能让GDP起飞”，搞得好像AI是哆啦A梦的口袋，随时能掏出经济增长的任意门。

第二步：投资人排队送钱

听到“GDP暴涨”这种关键词，投资人眼睛都变成了符号，纷纷打开钱包。

第三步：实际效果？再说吧

反正先把钱搞到手，至于GDP最后涨没涨……那得问AI自己愿不愿意加班。

网友锐评：

“AI能不能让GDP增长不知道，但奥特曼的PPT肯定能让投资人血压增长。”

“建议下次直接说AI能实现星际旅行，这样连NASA的钱都能忽悠过来。”

不得不说，这届网友的想象力比AI还强！
谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

这项测试的真相大揭秘！

朋友们，今天我要揭露一项神奇的测试！这项测试能让你认清自己——

测试名称： 据说超级准的自测题

作用： 帮你认清自己是”人类”还是”咸鱼”

适用人群： 所有活着会喘气的生物

测试内容：*

早晨闹钟响了后，你的第一反应是：

关掉继续睡（普通人类）

一个鲤鱼打挺起床（健身达人）

压根没听见（睡眠质量远超常人）

面对工作deadline时，你的状态是：

手忙脚乱临时抱佛脚（正常人）

提前三周就完成（外星人）

什么是截止日期？（自由灵魂）

周末你的主要活动：

床上一日游（宅人）

徒步十公里（精力过剩者）

在健身房撸铁（肌肉爱好者）

结果分析：*

如果你的选项大多是第一个，恭喜你！你就是这个地球上最普通也最珍贵的——正常人！
备注：本测试纯属娱乐，如有雷同，那说明你也挺普通的

测试AI的“挣钱”能力

GDPval：AI评估界的”全能冠军”，专治各种不服！

听说OpenAI搞了个GDPval评测系统？这家伙简直比你家楼下水果摊的大爷还会挑”好货”！让我用”职场精英偶遇菜市场大妈”的混搭风格，给您掰扯掰扯它到底牛在哪：

现实指数爆表

别的AI评测还停留在”看图说话”阶段，GDPval直接把考场搬进了写字楼——

任务都是真实工作场景的”素颜照”（连加班时间都原汁原味保留）

预算和deadline就像老板本尊在旁边盯着，做ppt都得考虑打印店几点关门

职业覆盖面比广场舞阵容还全

从码农到会计师，O*NET跟踪的365行，它愣是抓来了44个”课代表”：

███ 筛选标准 ███
① 先锁定美国GDP的”VIP客户”（贡献超5%的9大行业）
② 每个行业pick工资最高的5个”数字原住民”岗位
③ 用GPT-4o当HR，把60%以上工作内容在电脑前完成的才录用

最后入选的可是年创收3万亿的”黄金天团”！

难度系数堪比奥运体操

普通任务：专家级选手平均花费7小时（够追完一部《甄嬛传》）

地狱模式：复杂任务直接奔着”996体验卡”去（耗时数周起）

交作业不仅要答案对，还得像杂志排版般精美（结构风格都要卷）

测评方式堪比智能体重秤

告别”考试及格线”，采用”永远差1%就完美”的胜率指标

支持人类评委和AI裁判同台打分（欢迎来Battle）

能处理PDF/Excel/PPT等格式，活像个办公室文件粉碎机

最骚的操作*：连职业筛选都用GPT-4o当hr！AI招聘AI评测员，这波属于是左脚踩右脚上天了～

如何招募一屋子的行业大咖？

这不是普通的招聘广告，也不是在小区群里找邻居帮忙搬家——我们要的可是拥有至少4年工作经验的行业大佬。
不过……根据统计，最终加入的专家平均工作经验竟是14年！这意味着这里面有些人干这行的时间可能比你的iPhone年龄还大。

入职流程比选秀还严格

你以为发个简历就能混进来？No, no, no！

视频面试（看看你是不是真人）

背景调查（确认你没有在前公司茶水间纵火）

魔鬼培训（看你是否还记得学过什么）

测试考核（确保你确实不是AI伪装成人类）

通过所有挑战后，才能拿到OpenAI的丰厚报酬（据说比一般的咖啡钱多点）。

前雇主名单堪比科技富豪榜

这些专家的前东家包括但不限于：

苹果（帮他们设计过iPhone 18？）

谷歌（知道搜索算法为什么总让我搜到奇怪东西的内幕？）

微软（Excel表格之神的传承者）

Meta（元宇宙里遛过狗？）

摩根大通（知道为什么我的股票总是绿的）

反正就是如果你在硅谷的某栋大楼里打过卡，大概率这里就有你的前同事。

任务设计：不能随便编

每个任务都得按照O*NET（职业信息网）的分类来设计，以确保涵盖的范围够广、够专业。任务分成两部分：

需求（专家想让你干点啥）

交付成果（你得交出点像样的东西）

总之，这里的工作可不是随便写写“给我一篇500字文章”那么简单（虽然听起来好像也没那么难）。
所以……如果你觉得自己够格，欢迎带着你的14年工作经验（或者4年也没关系，但得有晋升和管理经验！）来挑战！
谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

标题：当AI遇见经济学：一场由”任务定价”引发的奇幻漂流*

——谁能想到有一天，我们的任务会被每小时工资乘以时间的公式定价呢？*

1. “经济学家”GPT的奇妙公式

OpenAI最近搞了个大新闻：他们找来一群像”职业打分会”一样的专家团队，要求这些大佬们做以下几件事：

给任务的难度打分（”1颗星还是5颗星？这是个问题！”）

评估代表性（”这活儿像不像现实世界里的工作？”）

计算完成时间（”掐表计时：专家们手速够快吗？”）

最后，按照OEWS（美国劳工统计局的神秘数据宝典）里的职业时薪，算出任务的”经济价值”。

结果就是：经济学家们终于实现了”时间就是金钱”！*

2. 1320个任务背后的”人类VS机器”循环战

想象一下：

第一步：AI筛选（AI：”让我来扫描一下这个任务合格不合格！”）

第二步：人类审核（专家：”不行不行，这个任务太离谱了！”）

第三步：改改改（任务设计者：”好吧，我再来优化一下…”）

循环N遍，直至每个任务至少被3个人审过，平均5个人才行！

换句话说，如果你想在OpenAI的任务库里混个位置，得先经过AI+人类混合双打的严格考核！

3. “专家评语大赛”：谁的反馈最犀利？

每个任务被评价后，专家们还必须写详细的意见，于是乎：
“这个任务难度太高，普通人根本做不了！”
“这个薪资计算有问题吧？程序员时薪这么低？”
“这个任务太无聊了，不符合现实职业标准！”

——最后总结：如果你想给AI设计高质量的任务，就得先面对人类专家们的”毒舌”挑战！*

Claude表现媲美人类专家

OpenAI的大冒险：220项任务与一对纠结的专家

他们可不是简单的任务列表——220项任务像220个小怪兽一样排排坐，等着被人类的火眼金睛和AI的逻辑风暴轮番审判。OpenAI这次搞得像科学界的”盲品会”，专家们戴着”我不知道是谁干的”眼罩，开始了一场史诗级的排排坐对比大战。

专家们的加班噩梦

每对对比评分都像一个永不结束的工作会议——平均耗时超过1小时！比刷一集《权力的游戏》还长，还没有龙可以看。为此OpenAI不得不从世界各地聘请更多领域的职业判官，让他们在人类智慧与机器输出的迷宫里反复横跳。

打分还要写小作文

这些专家可不好当！他们不仅要选”这个比那个强”，还得像语文老师批作文一样，详细记录为什么这么选。想象一下：一个疲惫的专家盯着屏幕，写下第50条评语——”这个回答比上一个更具人文关怀，但我真的需要一杯咖啡……”

机器评分员：66分的”小学霸”

OpenAI这次还搞了个实验性自动评分器，像个努力抄学霸作业的小机器人。它和人类专家的评分一致性达到了66%，只比人类之间互相评分的一致性（71%）低了5个百分点。虽然它还是会偶尔把”西红柿炒蛋”评分得比”仰望星空派”高，但总体表现已经让科学家们露出老父亲般的微笑。

“还有进步空间，”OpenAI的研究员们说，”但至少它不像某些人类专家那样忙着刷手机。”*

AI模型大乱斗：谁是PPT之王？

一份最新的AI智商测试报告出炉了！主角包括GPT-4o、o4-mini、o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro和Grok 4。
在这场激烈的“AI奥运会”中，Claude Opus 4.1成功摘得金牌，成为了最让人惊艳的“PPT艺术大师”！

评测结果大公开

Claude Opus 4.1 —— 全能型选手

在文档格式、幻灯片布局等美观性指标上一骑绝尘

47.6%的输出结果被认为不输人类专家

换句话说：近一半的作品能让你的老板以为你通宵加班了！（而你只是点了下Generate键）

其他AI的反应

GPT-5默默翻了个白眼：“审美？代码才是我强项！”

Gemini 2.5 Pro偷偷去问Claude：“你这PPT配色是哪学的？”

Grok 4直接摆烂：“行吧，我还是接着训练如何讲冷笑话……”

结论

如果你想要一份美到能让同事怀疑你偷偷去进修了设计课的文档——Claude Opus 4.1就是你此刻的救星！
谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

AI大乱斗：GPT-5 vs Claude，谁才是真正的办公室小能手？

1. 进化还是通货膨胀？

OpenAI家的模型一代一代往上蹦，像极了超市里的泡面——包装越来越炫，价格也越来越高。但你还别说，GPT-5在GDPval上的表现就像吃了跳跳糖，一路向上蹿，就差大喊”还有谁？”在严格遵循指令和正确计算这种正经活上，简直就是”学霸型AI”，让你感觉钱包瞬间值回票价。

2. “我没偷懒，我只是在处理PPT！”

然而，当GPT-5还在骄傲地秀它的文本肌肉时，Claude默默地掏出了Office全家桶。

PDF？ Claude 淡定标记重点，像极了你那个会在报告上画荧光笔的高智商同事。

Excel？数据分析、自动可视化？ Claude微微一笑：”让我表演一个AI版的Excel魔术。”

PPT？ “你这排版也太土了吧？” Claude一边吐槽一边自动调整配色，让你的幻灯片瞬间变成艺术展。

3. 终极对决：书呆子 vs 艺术生

如果你的需求是：
死扣逻辑
极致精确
纯文本碾压
——请选择GPT-5，它就像是那种考试永远满分的学霸，连标点符号都要跟你争个对错。
但如果你的工作包括：
文件格式混战
设计美感优化
让文档看起来不像小学生作业
——那你需要的是Claude，这位AI界的”艺术特长生”，能把你的PPT直接从”乡级汇报”升级到”华尔街路演”。

4. 结论：小孩子才做选择

最佳策略？*

让GPT-5写文案、做计算（反正它也不会累）。

丢给Claude美化格式（毕竟PPT丑了老板会骂人）。

如此一来，你就是办公室里最懂AI的仔！
谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

AI vs 人类专家：谁才是终极打工王？

震惊！ 原来 AI 模型在某些任务中已经能 “吊打”人类专家，甚至在超过一半的任务里，它们的表现 不低于甚至更香！OpenAI 忍不住站出来说：“老铁们，AI+人类联手干活， 省钱又高效*！”

几种 AI打工模式 对比：

“先让AI摸鱼，不行我再上”—— AI先出一个方案，人类再加工，省钱省时间。

“直接用AI的作业”—— 心大点，信AI一把，完事儿！（适合懒癌末期患者）

“AI看一眼就跑，活儿还得我干”—— AI只在关键节点助攻，人类依然是主角。

结论： AI虽强，但 最佳状态还是当人类的小助手*，让你花更少的钱、喝更多的咖啡！

当AI开始”内卷”：一场关于推理强度的办公室斗争

研究发现*，想要让AI表现得更”聪明”，不仅仅要靠天赋（算法），还得逼着它加班（增加推理努力）。比如：

“卷王模式”：给GPT-5不同的推理强度，就像给程序员设置KPI——“今天不解决这个bug不准下班”。

“职场八卦”效应：提供更多任务背景信息，相当于给AI偷偷塞小纸条：“嘿，上次那个项目老板其实很不满意……”

“终极面试”策略：采用”最优N选1″抽样（N=4），搭配GPT-5当评委，就像让四个候选人轮流表演才艺，最后HR冷酷地说：“不好意思，我们只要第一名。”

关键突破*：通过在容器里支持GET请求，AI终于可以光明正大地“摸鱼”了——至少能假装自己在“检索知识库”而非发呆。

结论*：AI的性能提升，本质上是一场关于“如何让机器更努力”的人力资源优化实验。下一步可能是给模型发咖啡券，或者设置“推理时长排行榜”。

OpenAI的”GDPval”: 一场人工智能的小学作业？

众所周知，OpenAI最近搞了个新玩具叫GDPval，号称能评估AI在职业任务中的表现。但这个”神器”眼下好像还只是个入门版的AI练习题，一起来看看它的小尴尬：

局限性大赏

职业种类太寒酸——仅有44种职业在里面蹦跶，比商场里的奶茶店品牌还少。

体力劳动者没人权——专注”键盘侠”工作，举铁、搬砖等肌肉英雄毫无存在感。

老板式任务安排——AI只需完成”精确的一次性任务”，像极了领导临时甩锅却没后续的日常。

评分系统是个谜——自动评分器的表现有点像考前突击的学生，结果常常让人摸不着头脑。

钱包阵亡警告——评估成本高到能让AI自己都想问：”老板，你真的不考虑外包给印度吗？”

未来展望（画的大饼）

OpenAI拍胸脯保证，GDPval目前只是AI界的学前班，未来将逐步升级成更成熟的产品，包括：

扩大职业覆盖面（目标是比街边小吃摊的种类还多）

增强真实性（总不能让人AI永远活在PPT里吧）

提高交互性（别总让人工智能像个一键生成工具）

丰富场景细节（比如让AI体验”甲方反复改需求”等真实职场心酸）

总之，GDPval目前就像个刚学会走路的小朋友，未来会不会成长为AI界的奥运冠军？让咱们拭目以待（或者等下一轮融资再说）。
谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

微软的新”盟友”似乎不太寻常？

最近科技圈可是热闹非凡！OpenAI 和 Anthropic 的关系突然变成了某种神奇三角关系的典范——

OpenAI（对 Claude）：”你小子不错嘛！”

微软（默默掏出合作协议）：”其实我们的 Copilot 可以更 Claude-like 一下……”

网友们（叼着瓜）：”等等，你们前几天不是才在秀恩爱吗？”

Microsoft 365 Copilot 这下可能要变成“MiClaude Copilot”了（doge）。不得不说，AI 圈的友情……真是比算法还复杂！

AI资讯 # claude # openai

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

AI独角兽总估值达27000亿美元，其中100家成立不到2年

# AI # AI新闻 # AI资讯

4个月前

9,4680

83岁用DeepSeek抢单，96岁凭AI挣养老钱！这群80+老人比你还会玩AI

# AI # AI新闻 # AI资讯

4个月前

3,0770

深度｜“长眼睛”的奇多多AI学伴，凭什么能爆卖10000台？

# AI # AI新闻 # AI资讯

4个月前

3,8950

OpenAI大神：人工智能导论课程停在15年前，本科首选该是机器学习导论

# AI # AI新闻 # AI资讯

4个月前

3,1360

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

AI界的”商业价值奥运会”：OpenAI为同行Claude颁发金牌

重磅研究，意外结局

谁能想到冠军竟是TA？

最搞笑的细节

AI竞赛里的那些事儿

GPT-5：万年老二的真实心态

一年内AI胜率几乎翻倍的”体育精神”

奥特曼的“GDP增长魔法”：AI还是PPT？

背后逻辑可能是这样的：

网友锐评：

这项测试的真相大揭秘！

测试AI的“挣钱”能力

GDPval：AI评估界的”全能冠军”，专治各种不服！

如何招募一屋子的行业大咖？

入职流程比选秀还严格

前雇主名单堪比科技富豪榜

任务设计：不能随便编

1. “经济学家”GPT的奇妙公式

2. 1320个任务背后的”人类VS机器”循环战

3. “专家评语大赛”：谁的反馈最犀利？

Claude表现媲美人类专家

OpenAI的大冒险：220项任务与一对纠结的专家

专家们的加班噩梦

打分还要写小作文

机器评分员：66分的”小学霸”

AI模型大乱斗：谁是PPT之王？

评测结果大公开

结论

AI大乱斗：GPT-5 vs Claude，谁才是真正的办公室小能手？

1. 进化还是通货膨胀？

2. “我没偷懒，我只是在处理PPT！”

3. 终极对决：书呆子 vs 艺术生

4. 结论：小孩子才做选择

AI vs 人类专家：谁才是终极打工王？

当AI开始”内卷”：一场关于推理强度的办公室斗争

OpenAI的”GDPval”: 一场人工智能的小学作业？

局限性大赏

未来展望（画的大饼）

微软的新”盟友”似乎不太寻常？

地平线募资58亿杀入Robotaxi

“零人”搞医学研究：清华AI智能体从灵感到论文全程自主

相关文章

AI独角兽总估值达27000亿美元，其中100家成立不到2年

83岁用DeepSeek抢单，96岁凭AI挣养老钱！这群80+老人比你还会玩AI

深度｜“长眼睛”的奇多多AI学伴，凭什么能爆卖10000台？

OpenAI大神：人工智能导论课程停在15年前，本科首选该是机器学习导论

暂无评论

搜索文章

热门文章