AI界的”商业价值奥运会”:OpenAI为同行Claude颁发金牌
没想到吧?OpenAI这个大醋坛子居然在自己的地盘公开表扬竞争对手了!近日他们发布了一项关于AI商业价值的研究报告,结果却发现Claude拿到了全场最高分。
重磅研究,意外结局
这项名为GDPval的新基准测试可谓下足了血本:
覆盖了9大最能赚钱的美国行业涉及44种高端职业总创收高达3万亿美元(差不多是马斯克的身家的15倍)测试标准堪称严苛:
任务设计参考14年工作经验的行家评委拿着放大镜比较AI和人类专家的作品 谁能想到冠军竟是TA?
在经过评委们的”毒舌点评”后:
Claude Opus 4.1:47.6%的作品获得”堪比人类”认证(领奖台上得意地笑了)其他选手:哎呀呀,不好意思说… 最搞笑的细节
OpenAI此举简直就像:
可口可乐为百事可乐打广告麦当劳评选最佳汉堡却选了汉堡王你家猫突然夸邻居家的狗真可爱(OS:莫非这就是传说中的AI圈的相爱相杀?)

AI竞赛里的那些事儿
GPT-5:万年老二的真实心态
最新统计报告显示,GPT-5以38.8%的成绩屈居第二名与第一名Claude差距不小,颇有一种”既生瑜何生亮”的悲壮感GPT-4o就更惨了,跟人类相比只有12.4%的胜率或平局OpenAI官方碎碎念*:Claude Opus 4.1就是个”艺术生”,咱家GPT-5可是标准”理工男”“我们家孩子考试没考好不是因为不够聪明,而是因为老师偏心”“重要的是进步速度!今年比去年多考了一倍分呢!”一年内AI胜率几乎翻倍的”体育精神”
这就好比你家孩子去年考试30分,今年进步到60分——虽然还是不及格,但这涨幅多励志啊!
AI界内卷新高度*:没考第一的大模型都忙着找理由证明自己”偏科有理”。
OpenAI 开源的”惊喜大礼包”*这家AI巨头最近的操作堪比圣诞节提前来了*OpenAI最近干了一件让程序员们欢呼雀跃的事:
慷慨地开源了一个包含220项任务的”精选菜单”贴心程度爆表地附赠了”自动打分神器”这个开源组合拳大概相当于:*不但请你吃饭还自带餐具和评分表随时准备好给你的”用餐表现”打个分(虽然不确定他们是不是顺便记下了我们的账户信息)*最妙的是:*220个任务,足够让研究者们加班加点玩一年自动评分服务,让AI也能体验考试被评分的”快乐”温馨提示:*各位玩家请有序排队领任务,不要因为太过兴奋踩到旁边程序员的AJ
哈哈!看来这项研究真是让人笑掉了科研人员的白大褂啊!网友们纷纷表示:
1. “这研究也太秀了吧!”*活生生把实验室变成了段子手的创作基地诺贝尔搞笑奖的非官方有力竞争者2. “过于真实引起舒适”*仿佛看到科学家们在实验室里边喝茶边憋笑学术论文的参考文献里一定有《笑话大全》3. “建议下次研究笑的杀伤力”*毕竟网友们已经被这项研究笑到缺氧了科研经费花在刀刃上的完美示范4. “这很科学!”*毕竟科学研究就是要为人类的快乐做贡献牛顿要是知道后人这么玩科研,怕是要乐得从苹果树下蹦起来5. “这才是正经研究的正确打开方式”*严肃.jpg(根本严肃不起来)建议该课题组改名为”快乐科学研究所”这么有意思的研究,确定不是来造福人类的段子科研吗?

奥特曼的“GDP增长魔法”:AI还是PPT?
最近有网友提出了一个脑洞大开的观点:奥特曼(Sam Altman)所谓的“AI助力GDP增长”很可能只是一场精心策划的科幻级营销秀!
背后逻辑可能是这样的:
第一步:画个大饼张口就是“AI能让GDP起飞”,搞得好像AI是哆啦A梦的口袋,随时能掏出经济增长的任意门。第二步:投资人排队送钱听到“GDP暴涨”这种关键词,投资人眼睛都变成了符号,纷纷打开钱包。第三步:实际效果?再说吧反正先把钱搞到手,至于GDP最后涨没涨……那得问AI自己愿不愿意加班。网友锐评:
“AI能不能让GDP增长不知道,但奥特曼的PPT肯定能让投资人血压增长。”“建议下次直接说AI能实现星际旅行,这样连NASA的钱都能忽悠过来。”不得不说,这届网友的想象力比AI还强!


这项测试的真相大揭秘!
朋友们,今天我要揭露一项神奇的测试!这项测试能让你认清自己——
测试名称: 据说超级准的自测题作用: 帮你认清自己是”人类”还是”咸鱼”适用人群: 所有活着会喘气的生物测试内容:*早晨闹钟响了后,你的第一反应是:关掉继续睡(普通人类)一个鲤鱼打挺起床(健身达人)压根没听见(睡眠质量远超常人)面对工作deadline时,你的状态是:手忙脚乱临时抱佛脚(正常人)提前三周就完成(外星人)什么是截止日期?(自由灵魂)周末你的主要活动:床上一日游(宅人)徒步十公里(精力过剩者)在健身房撸铁(肌肉爱好者)结果分析:*如果你的选项大多是第一个,恭喜你!你就是这个地球上最普通也最珍贵的——正常人!
备注:本测试纯属娱乐,如有雷同,那说明你也挺普通的
测试AI的“挣钱”能力
GDPval:AI评估界的”全能冠军”,专治各种不服!
听说OpenAI搞了个GDPval评测系统?这家伙简直比你家楼下水果摊的大爷还会挑”好货”!让我用”职场精英偶遇菜市场大妈”的混搭风格,给您掰扯掰扯它到底牛在哪:
现实指数爆表 别的AI评测还停留在”看图说话”阶段,GDPval直接把考场搬进了写字楼——
任务都是真实工作场景的”素颜照”(连加班时间都原汁原味保留)预算和deadline就像老板本尊在旁边盯着,做ppt都得考虑打印店几点关门职业覆盖面比广场舞阵容还全 从码农到会计师,O*NET跟踪的365行,它愣是抓来了44个”课代表”:
███ 筛选标准 ███
① 先锁定美国GDP的”VIP客户”(贡献超5%的9大行业)
② 每个行业pick工资最高的5个”数字原住民”岗位
③ 用GPT-4o当HR,把60%以上工作内容在电脑前完成的才录用
最后入选的可是年创收3万亿的”黄金天团”!
难度系数堪比奥运体操普通任务:专家级选手平均花费7小时(够追完一部《甄嬛传》)地狱模式:复杂任务直接奔着”996体验卡”去(耗时数周起)交作业不仅要答案对,还得像杂志排版般精美(结构风格都要卷)测评方式堪比智能体重秤告别”考试及格线”,采用”永远差1%就完美”的胜率指标支持人类评委和AI裁判同台打分(欢迎来Battle)能处理PDF/Excel/PPT等格式,活像个办公室文件粉碎机最骚的操作*:连职业筛选都用GPT-4o当hr!AI招聘AI评测员,这波属于是左脚踩右脚上天了~
如何招募一屋子的行业大咖?
这不是普通的招聘广告,也不是在小区群里找邻居帮忙搬家——我们要的可是拥有至少4年工作经验的行业大佬。
不过……根据统计,最终加入的专家平均工作经验竟是14年!这意味着这里面有些人干这行的时间可能比你的iPhone年龄还大。
入职流程比选秀还严格
你以为发个简历就能混进来?No, no, no!
视频面试(看看你是不是真人)背景调查(确认你没有在前公司茶水间纵火)魔鬼培训(看你是否还记得学过什么)测试考核(确保你确实不是AI伪装成人类)通过所有挑战后,才能拿到OpenAI的丰厚报酬(据说比一般的咖啡钱多点)。
前雇主名单堪比科技富豪榜
这些专家的前东家包括但不限于:
苹果(帮他们设计过iPhone 18?)谷歌(知道搜索算法为什么总让我搜到奇怪东西的内幕?)微软(Excel表格之神的传承者)Meta(元宇宙里遛过狗?)摩根大通(知道为什么我的股票总是绿的)反正就是如果你在硅谷的某栋大楼里打过卡,大概率这里就有你的前同事。
任务设计:不能随便编
每个任务都得按照O*NET(职业信息网)的分类来设计,以确保涵盖的范围够广、够专业。任务分成两部分:
需求(专家想让你干点啥)交付成果(你得交出点像样的东西)总之,这里的工作可不是随便写写“给我一篇500字文章”那么简单(虽然听起来好像也没那么难)。
所以……如果你觉得自己够格,欢迎带着你的14年工作经验(或者4年也没关系,但得有晋升和管理经验!)来挑战!

标题:当AI遇见经济学:一场由”任务定价”引发的奇幻漂流*——谁能想到有一天,我们的任务会被每小时工资乘以时间的公式定价呢?*1. “经济学家”GPT的奇妙公式
OpenAI最近搞了个大新闻:他们找来一群像”职业打分会”一样的专家团队,要求这些大佬们做以下几件事:
给任务的难度打分(”1颗星还是5颗星?这是个问题!”)评估代表性(”这活儿像不像现实世界里的工作?”)计算完成时间(”掐表计时:专家们手速够快吗?”)最后,按照OEWS(美国劳工统计局的神秘数据宝典)里的职业时薪,算出任务的”经济价值”。结果就是:经济学家们终于实现了”时间就是金钱”!*2. 1320个任务背后的”人类VS机器”循环战
想象一下:
第一步:AI筛选(AI:”让我来扫描一下这个任务合格不合格!”)第二步:人类审核(专家:”不行不行,这个任务太离谱了!”)第三步:改改改(任务设计者:”好吧,我再来优化一下…”)循环N遍,直至每个任务至少被3个人审过,平均5个人才行!换句话说,如果你想在OpenAI的任务库里混个位置,得先经过AI+人类混合双打的严格考核!
3. “专家评语大赛”:谁的反馈最犀利?
每个任务被评价后,专家们还必须写详细的意见,于是乎:
“这个任务难度太高,普通人根本做不了!”
“这个薪资计算有问题吧?程序员时薪这么低?”
“这个任务太无聊了,不符合现实职业标准!”
——最后总结:如果你想给AI设计高质量的任务,就得先面对人类专家们的”毒舌”挑战!*
Claude表现媲美人类专家
OpenAI的大冒险:220项任务与一对纠结的专家
他们可不是简单的任务列表——220项任务像220个小怪兽一样排排坐,等着被人类的火眼金睛和AI的逻辑风暴轮番审判。OpenAI这次搞得像科学界的”盲品会”,专家们戴着”我不知道是谁干的”眼罩,开始了一场史诗级的排排坐对比大战。
专家们的加班噩梦
每对对比评分都像一个永不结束的工作会议——平均耗时超过1小时!比刷一集《权力的游戏》还长,还没有龙可以看。为此OpenAI不得不从世界各地聘请更多领域的职业判官,让他们在人类智慧与机器输出的迷宫里反复横跳。
打分还要写小作文
这些专家可不好当!他们不仅要选”这个比那个强”,还得像语文老师批作文一样,详细记录为什么这么选。想象一下:一个疲惫的专家盯着屏幕,写下第50条评语——”这个回答比上一个更具人文关怀,但我真的需要一杯咖啡……”
机器评分员:66分的”小学霸”
OpenAI这次还搞了个实验性自动评分器,像个努力抄学霸作业的小机器人。它和人类专家的评分一致性达到了66%,只比人类之间互相评分的一致性(71%)低了5个百分点。虽然它还是会偶尔把”西红柿炒蛋”评分得比”仰望星空派”高,但总体表现已经让科学家们露出老父亲般的微笑。
“还有进步空间,”OpenAI的研究员们说,”但至少它不像某些人类专家那样忙着刷手机。”*
AI模型大乱斗:谁是PPT之王?
一份最新的AI智商测试报告出炉了!主角包括GPT-4o、o4-mini、o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro和Grok 4。
在这场激烈的“AI奥运会”中,Claude Opus 4.1成功摘得金牌,成为了最让人惊艳的“PPT艺术大师”!
评测结果大公开
Claude Opus 4.1 —— 全能型选手
在文档格式、幻灯片布局等美观性指标上一骑绝尘47.6%的输出结果被认为不输人类专家换句话说:近一半的作品能让你的老板以为你通宵加班了!(而你只是点了下Generate键)其他AI的反应
GPT-5默默翻了个白眼:“审美?代码才是我强项!”Gemini 2.5 Pro偷偷去问Claude:“你这PPT配色是哪学的?”Grok 4直接摆烂:“行吧,我还是接着训练如何讲冷笑话……”结论
如果你想要一份美到能让同事怀疑你偷偷去进修了设计课的文档——Claude Opus 4.1就是你此刻的救星!

AI大乱斗:GPT-5 vs Claude,谁才是真正的办公室小能手?
1. 进化还是通货膨胀?
OpenAI家的模型一代一代往上蹦,像极了超市里的泡面——包装越来越炫,价格也越来越高。但你还别说,GPT-5在GDPval上的表现就像吃了跳跳糖,一路向上蹿,就差大喊”还有谁?”在严格遵循指令和正确计算这种正经活上,简直就是”学霸型AI”,让你感觉钱包瞬间值回票价。
2. “我没偷懒,我只是在处理PPT!”
然而,当GPT-5还在骄傲地秀它的文本肌肉时,Claude默默地掏出了Office全家桶。
PDF? Claude 淡定标记重点,像极了你那个会在报告上画荧光笔的高智商同事。Excel?数据分析、自动可视化? Claude微微一笑:”让我表演一个AI版的Excel魔术。”PPT? “你这排版也太土了吧?” Claude一边吐槽一边自动调整配色,让你的幻灯片瞬间变成艺术展。3. 终极对决:书呆子 vs 艺术生
如果你的需求是:
死扣逻辑
极致精确
纯文本碾压
——请选择GPT-5,它就像是那种考试永远满分的学霸,连标点符号都要跟你争个对错。
但如果你的工作包括:
文件格式混战
设计美感优化
让文档看起来不像小学生作业
——那你需要的是Claude,这位AI界的”艺术特长生”,能把你的PPT直接从”乡级汇报”升级到”华尔街路演”。
4. 结论:小孩子才做选择
最佳策略?*让GPT-5写文案、做计算(反正它也不会累)。丢给Claude美化格式(毕竟PPT丑了老板会骂人)。如此一来,你就是办公室里最懂AI的仔!

AI vs 人类专家:谁才是终极打工王?
震惊! 原来 AI 模型在某些任务中已经能 “吊打”人类专家,甚至在超过一半的任务里,它们的表现 不低于甚至更香!OpenAI 忍不住站出来说:“老铁们,AI+人类联手干活, 省钱又高效*!”几种 AI打工模式 对比:
“先让AI摸鱼,不行我再上”—— AI先出一个方案,人类再加工,省钱省时间。“直接用AI的作业”—— 心大点,信AI一把,完事儿!(适合懒癌末期患者)“AI看一眼就跑,活儿还得我干”—— AI只在关键节点助攻,人类依然是主角。结论: AI虽强,但 最佳状态还是当人类的小助手*,让你花更少的钱、喝更多的咖啡!
当AI开始”内卷”:一场关于推理强度的办公室斗争
研究发现*,想要让AI表现得更”聪明”,不仅仅要靠天赋(算法),还得逼着它加班(增加推理努力)。比如:“卷王模式”:给GPT-5不同的推理强度,就像给程序员设置KPI——“今天不解决这个bug不准下班”。“职场八卦”效应:提供更多任务背景信息,相当于给AI偷偷塞小纸条:“嘿,上次那个项目老板其实很不满意……”“终极面试”策略:采用”最优N选1″抽样(N=4),搭配GPT-5当评委,就像让四个候选人轮流表演才艺,最后HR冷酷地说:“不好意思,我们只要第一名。”关键突破*:通过在容器里支持GET请求,AI终于可以光明正大地“摸鱼”了——至少能假装自己在“检索知识库”而非发呆。结论*:AI的性能提升,本质上是一场关于“如何让机器更努力”的人力资源优化实验。下一步可能是给模型发咖啡券,或者设置“推理时长排行榜”。
OpenAI的”GDPval”: 一场人工智能的小学作业?
众所周知,OpenAI最近搞了个新玩具叫GDPval,号称能评估AI在职业任务中的表现。但这个”神器”眼下好像还只是个入门版的AI练习题,一起来看看它的小尴尬:
局限性大赏
职业种类太寒酸——仅有44种职业在里面蹦跶,比商场里的奶茶店品牌还少。体力劳动者没人权——专注”键盘侠”工作,举铁、搬砖等肌肉英雄毫无存在感。老板式任务安排——AI只需完成”精确的一次性任务”,像极了领导临时甩锅却没后续的日常。评分系统是个谜——自动评分器的表现有点像考前突击的学生,结果常常让人摸不着头脑。钱包阵亡警告——评估成本高到能让AI自己都想问:”老板,你真的不考虑外包给印度吗?”未来展望(画的大饼)
OpenAI拍胸脯保证,GDPval目前只是AI界的学前班,未来将逐步升级成更成熟的产品,包括:
扩大职业覆盖面(目标是比街边小吃摊的种类还多)增强真实性(总不能让人AI永远活在PPT里吧)提高交互性(别总让人工智能像个一键生成工具)丰富场景细节(比如让AI体验”甲方反复改需求”等真实职场心酸)总之,GDPval目前就像个刚学会走路的小朋友,未来会不会成长为AI界的奥运冠军?让咱们拭目以待(或者等下一轮融资再说)。

微软的新”盟友”似乎不太寻常?
最近科技圈可是热闹非凡!OpenAI 和 Anthropic 的关系突然变成了某种神奇三角关系的典范——
OpenAI(对 Claude):”你小子不错嘛!”微软(默默掏出合作协议):”其实我们的 Copilot 可以更 Claude-like 一下……”网友们(叼着瓜):”等等,你们前几天不是才在秀恩爱吗?”Microsoft 365 Copilot 这下可能要变成“MiClaude Copilot”了(doge)。不得不说,AI 圈的友情……真是比算法还复杂!
© 版权声明
本站部分内容来源于互联网,仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有,如涉及版权问题,请及时与本站联系,我们将在第一时间核实并处理。