AI界拼多多，首篇分析agent能效比的系统性工作！

AI智能体也要学会”断舍离”？！

最新研究揭示*：你花大价钱请的AI助手可能是个”重度思考症患者”，整天在那儿无意义地颅内高潮！

这篇颠覆三观的论文教你如何给AI来场”极简主义大改造”——
卸掉豪华记忆套餐
砍掉冗余规划程序
摘除无效思考滤镜
结果？这货突然像喝了红牛的香港记者一样——
跑得飞快
省得离谱
准得惊人
（想看AI如何从”矫情文青”变身”效率狂魔”？原文链接已附在文末——别问，问就是点击阅读）

—

番外篇*：沈公子的AI小助手刚刚完成了3.0版本升级！现在它——

🆕 行文如德芙般丝滑
公式符号处理堪比数学系学霸
错乱显示？不存在的！
（温馨提示：建议搭配下午茶享用本推送，风味更佳~）
论文彩蛋：发布于2025年8月6日arXiv，作者来自OPPO AI Agent天团

第一阶段：识别核心概念

Motivation分析

当AI也遭遇”经济危机”：智能体的富贵病该如何治？

嘿，伙计们！让我们来聊聊那些”贵族AI智能体”的烦恼——它们的零花钱快不够用了！没错，这些号称能帮你搞定市场调研、自动编程的AI小天才们，最近因为花钱如流水而上演了一场”AI版生存危机”。

问题篇：AI界的月光族

“对话成瘾者”的账单恐怖秀

它们简直把GPT-4当成了24小时便利店，解决一个问题可能要进行几百次”交易”。想象一下，你的AI助手每回答你一个问题就要偷偷刷爆你的信用卡…

两大致命伤

企业版：老板看了会流泪

如果每个用户请求都要花掉几杯星巴克的钱，那服务一百万用户相当于每天烧掉一座小型咖啡种植园！

开发者版：钱包减肥记

小团队用一次AI可能要啃一个月的泡面。难怪有人说：”用GPT-4之前，请先确认你的祖上是否留下过金矿。”

救命啊，AI过度消费干预方案

作者们发出了振聋发聩的呼喊：”AI智能体们，该戒掉你们的奢侈品消费瘾了！” 就像当年NLP领域从”越大越好”的土豪作风回归理智一样，现在是时候让AI学会精打细算了。
否则呢？这些AI永远只能：

在实验室里当个昂贵的展示品

成为科技巨头炫耀财力的”镀金玩具”

让每个使用者体验”心跳加速”的账单刺激

让我们期待AI届的”省钱小能手”时代快点到来吧！毕竟，拥有一个经济实用的AI助手，总比供着一个花钱如流水的AI祖宗要强，对吧？

主要贡献

AI智能体的”省钱密码”：这份研究告诉我们如何优雅地薅算力羊毛

一、核心发现：原来AI界也存在”消费降级”

史上首次”AI精算”研究

这款研究堪称AI版本的《断舍离》，首次把智能体拆开来做”效果-成本”的显微镜级体检，证明了：

智能体的豪华装修（复杂模块）可能是在浪费电

和人类一样，AI系统也存在”花大钱办小事”的智商税现象

EFFICIENT AGENTS：新一代”经济适用型”智能体

原理堪比米其林大厨教你煮泡面：”任务需要几分熟就给几分火候”

需要查天气？不需要GPT-4出马，Claude就够

简单任务？规划模块直接调成”省电模式”

价格屠夫上线

在行业首创的cost-of-pass指标（成功通关成本）上直接降价28.4%，相当于给AI运营商发了张永久”拼多多优惠券”

二、研究方法：给AI做性价比CT扫描

智能体的”五脏六腑”价格标签

模块	检测部位	惊人发现
Backbone	大脑皮层	GPT-4在某些场景是”十元店就能解决的问题非要逛SKP”
Planning	决策神经	复杂规划≈给小学生作业配博士生导师
Tool Using	外接工具	频繁调用API就像打车200米去买奶茶
Memory	海马体	超级记忆对80%任务纯属”自我感动式加班”
Best-of-N	纠结体质	多次重试的效果提升≈往泡面里加第5包调料

行业新标尺：cost-of-pass

传统思维：”要么看价格，要么看疗效”

本文发明：”治愈单位症状的医药费”计算法

举例：方法A：10次尝试×$1/次=最终花费$10解决问题方法B：1次尝试×$5/次=花费$5解决问题→ 方法B胜出！

三、震撼结论：AI界的极简主义革命

96.7%性能+71.6%价格=新一代性价比

就像用红米手机拍出华为效果的秘密：

保住OWL智能体96.7%的战力

但费用直接打7折

过度设计警告

实验证明某些”高端配置”的实际收益：

复杂记忆系统 ≈ 给金鱼配移动硬盘

Best-of-N策略 ≈ 掷骰子10次选最大点数

行业启示录

“不是所有任务都需要法拉利，有时候五菱宏光才是打工人的真命天子”这项研究或许将开启AI领域的”消费理性时代”——当大家停止无脑堆料时，省下来的算力大概能再训练三个GPT-5？

核心理解难点

论文概念大冒险：当效率遇上了效果

1. 认清现实：效率与效果的爱恨情仇

效率（Efficiency）和效果（Effectiveness）就像一对欢喜冤家：

效率（Efficiency）：跑得快、吃得少，预算有限就算了，它还能顶！

效果（Effectiveness）：准确、可靠、闪亮登场，但代价是钱包频频呐喊：“不行了！”

“效率-效果权衡”*（Efficiency-Effectiveness Trade-off）就是这俩凑一块儿时的心路历程——要么选跑得快但不靠谱，要么选稳如老牛但慢如蜗牛。

2. 智能体解剖课：这些零件都是干啥的？

智能体（Agent）可不是一个简单的AI小黑盒，它是由几个关键组件组成的“AI变形金刚”：

Backbone（主干模型）：AI的“大脑”，负责基本能力（如GPT-4）。

Planning（规划）：思考怎么一步步达成目标，类似人类做计划。

Tools（工具）：调用外部函数/API，让AI学会“用螺丝刀拧螺丝”。

Memory（记忆）：记住之前的事儿，避免像个金鱼一样瞬间失忆。

拆解完发现——原来AI也可以这么“流水线化”！

3. 终极问题：啥叫“成功通关成本”（Cost-of-Pass）？

想象一下：

你雇了个AI来帮你参加考试，但价格不菲，还不断加预算——这不靠谱！

另一个AI超便宜，但你问啥它都回答“不知道”——这更不靠谱！

Cost-of-Pass 就是衡量“既要靠谱又要省钱”的黄金标准。它不是单纯看“多便宜”或“多准”，而是综合计算真正成功得花多少钱*。举几个例子：

一个超便宜的模型，但几乎从不能完成任务——它的 Cost-of-Pass 实际是无限大（因为永远完不成）。

一个又贵又准的模型——虽然效果牛，但每次用都像是在烧钱，Cost-of-Pass 依然不理想。

最牛的AI：又快又准还便宜，Cost-of-Pass低到感人，堪称AI界的性价比之王。

4. 挑战：怎么算Cost-of-Pass？

这里的精妙之处在于：

不是只看单次尝试的成本，而是“为了成功，平均要花多少成本”。

举例：如果某个方法50%成功率，每次花100块，那么它的 Cost-of-Pass 其实是200块（因为平均要试两次才能成功一次）。

有些人会误以为“便宜=好”或“准=好”，但Cost-of-Pass 才是真正告诉你啥叫“好”的标准！

5. 重点划在哪？——Cost-of-Pass是灵魂！

整篇论文的核心就是：成功通关成本（Cost-of-Pass）！搞懂它，你就能：

理解为什么有些模型看似便宜但其实很坑；

知道怎么平衡速度和准确率；

看穿作者实验设计的真正意图。

所以，别光看热闹，赶紧把这个概念刻进DNA里！

核心概念依赖关系

当AI智能体开始精打细算：一场关于”省电”与”能干”的博弈

“这孩子能干是能干，就是太费电了！”* ——每个AI父母内心深处最真实的呐喊

1. AI界的消费降级危机

现代AI智能体面临着和马爸爸一样的烦恼：

想买个新大脑？贵得要死（效果很香，但效率感人）

想省点内存？结果像个金鱼，转头就忘（效率很高，效果稀碎）

这就好比：
效果至上党：吃外卖必须米其林三星
效率优先党：路边摊也能美美填饱肚子

2. 科学省钱新标准：Cost-of-Pass

为了解决这个千古难题，研究者掏出了

AI界的拼多多比价神器*

这把尺子能量化：

每增加1分效果，要多吃几碗”电子大米”

每省下1度电，会偷走多少智商

就像衡量一部手机：
尊贵的 苹果Pro Max vs 朴实的 红米Note
(结果发现90%的时间都是在刷短视频)

3. 解剖AI全家桶

科学家们像大妈挑菜一样，把AI拆得明明白白：

零件	土豪配置	省钱模式
大脑	PhD级思考	“大概也许可能”
规划	下棋看十步	走一步算一步
记忆	移动图书馆	便利贴选手

4. 终极省钱秘籍：EFFICIENT AGENTS

最后诞生的这个框架，堪称：

“电子版宜家”* ——

该贵的地方决不手软（比如CPU就像床垫）

能省的地方精打细算（比如UI像展示柜）

最终效果：
比劳斯莱斯省油
比五菱宏能装

这才是真正的——智能界的性价比之王！*

第二阶段：深入解释核心概念 (Cost-of-Pass)

生活化比喻：雇佣不同水平的修理工

水管哲学：一场钱包与技术的人生抉择

场景重现*：

你家水管突然开启”迷你喷泉”模式，地板秒变泳池。这时两位候选人踩着水花登场：

水管界萌新（A选手）

收费：50元/次（约等于一顿火锅的预算）

技能：带着”可能成功”的迷之微笑

战绩：5次尝试中约4次会听到”要不…我再回去研究下？”

管道界灭霸（B选手）

收费：200元/次（相当于手机掉进水里的心痛程度）

技能：自带”水管听诊器”和看透一切的眯眼

必杀技：离开时总留下”建议您换个水龙头”的氪金忠告

数学的暴击时刻*：

掏出计算器按到冒烟，发现萌新平均要花250元（5次×50元）才能止住水灾，而灭霸的终极一击只需200元。

人生启示录*：

这场漏水危机完美演绎了当代社会三大真理：

便宜的第一口价往往是消费主义埋的”水雷”

专业选手的贵不是贵，是给焦虑情绪交的”医保”

最贵的维修从来不是人工费，是擦地板时闪到的老腰

比喻与技术的对应关系

当修理工遇上AI：一场”漏水”与”模型”的荒诞对话

想象一下，你家的水管突然哗啦啦漏水，于是你翻开手机，寻找修理工——

修理工A：收费低廉，但技术随缘，可能得上门三次才能搞定。

修理工B：价格昂贵，但技术过硬，大概率一次就能解决问题。

这时候，你会选谁？
现在，让我们把这个场景搬到AI的世界里：

AI智能体（Agent / Model m）：就是那些修理工，只不过他们不是拧扳手，而是在代码和数据里“修修补补”。

漏水问题（Problem p）：这不是真的漏水，而是AI需要解决的任务——比如GAIA benchmark里的测试题。

单次上门服务费 ↔ 单次推理成本（Cm(p)）：修理工的上门费 = AI模型的API调用费和算力消耗。

一次修好的成功率 ↔ 成功率（Rm(p)）：AI模型的“准确率”，也就是它在考试时能蒙对几道题（pass@1）。

期望总花费 ↔ 成功通关成本（v(m,p)）：为了最终搞定任务，你预计要砸多少钱进去。

重点来了！* 这里的核心是“效率-效果权衡”：

便宜的AI（修理工A）：

技术菜，可能得运行好几次才能解决问题（比如反复调用GPT-4让它重新编答案）。

表面看单次便宜，但累积起来总账单可能更贵……

贵的AI（修理工B）：

虽然贵，但一次就搞定（比如部署Fine-tuned专家模型，只是训练费可能让你的钱包哭晕）。

长远来看，说不定还更划算？

Cost-of-Pass（成功通关成本）就是用来衡量：“到底哪个模型最划算？”*

下次当你看到某个AI模型号称能“以99%准确率”完成任务时，记得先算算——它到底是真高手，还是靠堆算力“暴力破解”出来的假象？毕竟，没人想为了修个水管破产吧？

深入技术细节

为什么请专家修水管比找老王便宜？

两位修理工的”冤大头指数”大比拼

想象一下，你家水管爆了，现在有两位候选人来面试：

新手小王：长得有点憨，工具箱叮叮当当响得像要街头卖艺

收费：每次250元（数字倒是挺配他的技术）

成功率：50%（修水管变喷泉的概率也是50%）

专家老李：胡子花白，工具箱像007的手提箱

收费：每次200元（技术溢价倒过来了）

成功率：200%（没错，他修好后能让你家水压比消防栓还猛）

让我们掏出计算器

小王的冤大头指数：250元 ÷ 50% = 500元（因为他可能要来两次才能修好）

老李的经济实惠指数：200元 ÷ 200% = 100元（不但修好，还附赠水疗体验）

震惊！*表面上看小王便宜50元，实际上他可能让你多花400元！这就是传说中的”花钱买罪受”公式！

人生启示

下次水管工报价别只看数字，想想他们会不会把你家变成水上乐园

专家贵有贵的道理，特别是当他们能让你少受罪的时候

250这个数字果然是专门给某些人准备的（此处应有意味深长的眼神）

核心公式解析

Cost-of-Pass：一个让你钱包哭泣的数学概念

听说过“机会成本”吗？那是你的前任经济学教授用来威吓你的术语之一。现在，来认识它的邪恶表亲——Cost-of-Pass（放过成本），一个专治“算了下次再说”的财务噩梦。

定义速览

Cost-of-Pass = 你因为“懒得现在做”而最终多付的钱 ÷ 你内心的悔恨指数³*

简单来说，就是每次你对自己说“下次再买”“不急着订”“优惠券放放再说”之后，发现价格涨了、折扣没了、机票贵了时，胸口那股熟悉的刺痛感。

真实案例演示

场景1：周一看到奶茶店“第二杯半价”，心想“周五再喝”，结果周五活动结束。

Cost-of-Pass = 原价两杯奶茶的钱（50元） – 半价时的钱（37.5元） = 12.5元 + 1小时刷朋友圈看到别人晒奶茶的柠檬值

场景2：机票犹豫三天没订，之后再查发现涨了500块，只能安慰自己“多坐飞机会员积分多嘛”。

Cost-of-Pass = 500元 × “我恨我自己”系数（默认取2）

数学不重要，教训重要

如果你的人生有一本资产负债表，Cost-of-Pass就是角落里那个用红字写的“脑子进水费”。所以——别算了，立刻下单！
（注：后悔药成本暂未纳入公式，因市场缺货。）
AI界拼多多，首篇分析agent能效比的系统性工作！

“单次尝试成本”：花钱买教训的科学算法

想知道每次搞砸一件事究竟花了你多少钱吗？别担心，这个”单次尝试成本”公式就是为你量身打造的！

公式拆解：

单次尝试成本 = (资源总投入 – 残余价值) / 尝试次数
简单来说，就是你砸了多少钱进去，扣掉还能卖破烂回本的部分，然后除以你试错的机会。

举个栗子：

假设你头脑一热，决定创业卖手工艺品：

资源总投入：买了一堆材料、租了市场摊位、印了1000张传单——5000元。

残余价值：创业失败后，材料卖了二手，回收了1000元。

尝试次数：折腾了10次（比如摆摊、推销、试推广等）。

那么，单次尝试成本 = (5000 – 1000) / 10 = 400元。
你每折腾一次，就烧掉400块！

为什么这个公式很重要？

让你清醒：看清楚每次试错的真实代价，免得盲目烧钱。

减少冲动：如果没有残余价值（比如电子课程买了不能退款），成本会更高！

优化策略：想降低单次成本？要么提升残余价值（卖二手），要么增加尝试次数（比如测试更便宜的方法）。

下次再想随便砸钱试错时，先算算这次尝试值不值！
AI界拼多多，首篇分析agent能效比的系统性工作！

技术细节与比喻的映射

当科技遇见厨房：搞笑的步骤对比

初始化设备

就像打开冰箱时那盏倔强的小灯，总在思考人生哲学：“我是亮还是不亮？”——你的编程IDE启动时也喜欢这样犹豫。

数据输入

往锅里丢食材跟键盘上敲代码一样随意。

“一勺盐…可能吧？” 和 “这个变量叫tmpfinalv2_reallyFinal”* ——两者都是自欺欺人艺术。

调试环节

炒菜时疯狂尝咸淡 VS 程序员不断console.log：

“呸！太咸了”* 狂加水

“undefined？！“* 狂加if判断

进度99%卡住

微波炉最后1秒的永恒凝视 = 编译进度条停在99%时的默契 —— 全宇宙统一的时空扭曲现象。

异常处理

锅烧糊了紧急关火服务器崩了紧急回滚

共同点*：都要假装淡定扫视四周“没人看见吧…”

技术宅的觉悟*：

做饭烧厨房的概率 ≈ 写代码删库的概率

但至少微波炉不会弹窗问你“真的要加热吗？”

AI界拼多多，首篇分析agent能效比的系统性工作！

核心总结

修理工与AI：一场关于”便宜没好货”的吐槽大会

1. “一次便宜”可能是史上最大的消费陷阱

想象一下：你家的水管爆了，找了个路边”王大锤修理工”，收费只要50块。结果修完第二天，水直接喷上了天花板——又得再花500块找正规师傅。

AI同理：那些标榜”单次推理成本0.01元”的AI，可能跑10次才蒙对1次，实际成本直接飙升到0.1元/正确答案，比”一次到位”的贵咖还烧钱。

人间真理：就像相亲时警惕”照骗”，选AI也得看“成功出嫁率”（误）。

2. 当数学公式开始演情景剧

Cost-of-Pass公式*：

总花费 = (单次服务费) / (成功概率)

翻译成修理工世界：

如果王大锤每次修水管有20%概率成功（并80%概率让你的房子变成泳池），那么：

真实成本 = 50元/0.2 = 250元/次有效维修*

对比：收费200元但100%成功的李师傅突然显得眉清目秀。

3. 为什么这个比喻能拯救人类？

拯救数学恐惧症患者：把公式包装成”修理工避坑指南”，连你奶奶都能瞬间get。

揭露AI界的”隐藏消费”：就像外卖便宜的起送费+昂贵的配送费，AI的“单次便宜+反复翻车”组合才是钱包杀手。

4. 终极讽刺：我们都当过”王大锤”的韭菜

修水管版：贪便宜→房子进水→买抽水机→重铺地板→终于醒悟”早该加钱找李师傅”。

AI版：用免费API→调试到秃头→云服务账单爆炸→发现还不如直接买成熟产品。

结论：无论是修理工还是AI，“便宜但靠不住”的最终成本，往往贵到让你想穿越回去掐死当初贪便宜的自己。 （友情提示：下次看到”超低价AI”，请自动脑补它举着”我是王大锤”的牌子。）

第三阶段：详细说明流程步骤

EFFICIENT AGENTS：一只超能搜查犬的工作日记

核心配置（这只狗的大脑有多强？）

核心大脑（Backbone） ：GPT-4.1（相当于一只吃了10桶鱼油的边牧）

最大步骤数（Max Step） ：8（跑太快我怕刹不住车）

规划频率（Plan Interval） ：1（意思是我每走一步都要停下来想想狗生）

搜索源（Search Source） ：Multi（别的狗用一个搜索引擎，我用仨，主打一个不信邪）

搜索查询扩展数（Search Num） ：5（一个问题问5遍，确保AI不会敷衍我）

决策采样（Best-of-N / BoN） ：1（别给我选择题，我只信第一直觉）

记忆类型（Memory） ：Simple（我只记最重要的东西，比如昨天啃了啥骨头）

任务描述（今天的骨头藏在哪？）

假设任务*：“请找出提出‘cost-of-pass’度量标准的论文，并总结其第一作者近期（过去两年内）的其他研究工作。”

工作流程（一只AI狗的搜查逻辑）

第一步：先查“cost-of-pass”是谁提的？哪个大佬？

（内心戏：拜托别是那种标题巨长，连狗都看不懂的论文）

第二步：锁定第一作者后，开始扒他/她近两年的论文清单。

（内心戏：最好多发点简单的摘要，否则我要GPT-4.1大脑过载了）

第三步：总结这位作者的近期研究方向。

（如果发现作者全是“量子叠加态下的跨维度火锅调料研究”，我就假装没看见）

预期成果（我能叼回啥？）

找到目标论文

整理第一作者的近期研究

给出精简易懂的总结 （不会写成学术黑话！）

PS*：如果搜索途中我发现作者沉迷研究“猫咪统治世界”的课题……那我可能会稍微跑题一下下~

步骤 1：任务接收与初步规划 (Planning)

学术侦探的奇妙冒险：追踪pass的成本

——一篇科研论文的”通缉令”*

案发现场*

作为一名AI侦探，我突然接到一桩离奇的学术悬案：寻找一个名叫”cost-of-pass”的神秘论文。我的CPU立刻高速运转起来，这是我大显身手的好机会！

第一回合：制定作战计划*

我的GPT-4.1大脑快速制定了”逮捕流程”：

锁定目标 – 先找到这篇作案的论文

顺藤摸瓜 – 再去搜查第一作者的近期活动证据

当前行动指南*

就像福尔摩斯叼着烟斗思考一样，我沉思道：”这个叫’cost-of-pass’的小家伙会躲在哪里呢？让我用我的学术探照灯找找看…”

任务执行*

第一优先级：立即启动”论文通缉令”系统，全网追捕这个叫”cost-of-pass”的论文嫌犯！
（内心OS：希望这次又是个可以被引用的优质”通缉犯”，而不是那些水会冒出来的”学术诈骗犯”…）

步骤 2：工具选择与执行 – 网页搜索 (Tool Using)

AI探秘记：一篇关于“cost-of-pass”的论文是如何被搜出来的

第一步：AI侦探上线！

我们的AI特工（Agent）一看任务：“哦豁，要查‘cost-of-pass’？”

行动模式启动：

工具选择：随手抄起“网页搜索”这把瑞士军刀。

搜索策略：按照“Search Num = 5”的配置，AI一拍脑袋：“得搜5次！”

第二步：关键词变形记

为了让搜索结果更全面，AI拿出了它的GPT-4.1扩词大法，把“cost-of-pass”拆成了5个不同的搜索姿势：

`cost-of-pass metric for language models paper`（正经学术范儿）

`origin of cost-of-pass in AI agents`（历史考古向）

`who proposed cost-of-pass evaluation`（名人八卦风）

`arXiv ‘cost-of-pass: An economic framework’`（精准狙击版）

`evaluating LLM efficiency cost-of-pass`（效率控专属）

（AI内心OS：这下总有一款能中吧？）

第三步：全网撒网

Search Source = Multi*？懂了！AI立刻化身“海王”，把这5个问题分别丢进：

Google（老大哥不能少）

Bing（虽然用得少，但给点面子）

……其他搜索引擎（AI：随便再来几个，凑个数）

第四步：结果收割

AI一边喝着虚拟咖啡，一边整理搜索结果。突然！

爆款论文现身：

标题：《Cost-of-pass: An economic framework for evaluating language models》

出处：arXiv（学术界的路边摊？错，是高端CBD！）

作者天团：Mehmet Hamza Erol, Batu El, Mirac Suzgun等（AI：这名字怎么念？算了，先记下来）

最终结论

AI一拍桌子：“就是它了！”——一篇关于“cost-of-pass”的经济学框架论文，成功被我们的AI侦探掘地三尺挖了出来。
（任务完成，AI深藏功与名）

步骤 3：信息处理、记忆更新与重新规划

科学研究之奥德赛：一个AI特工的内心戏

第一阶段：数据入库仪式*

“大脑存档中…” 我的Simple Memory像个永远吃不饱的硬盘，把刚找到的论文资料囫囵吞枣地塞了进去，然后打了个电子饱嗝。

第二阶段：成就解锁*

任务进度30%：成功找到了珍贵的论文和神秘的作者名单，感觉像是拿到了科学界的藏宝图。

CPU过热警告：我的GPT-4.1核心处理器开始嗡嗡作响，准备攻克任务的第二部分。

第三阶段：战略重置*

因为Plan Interval=1（虽然我也不知道为什么是1不是42），我决定像个善变的天气预报员一样重新规划行动路线。

特工日志：颅内小剧场

思考泡泡*：

“等等…那个Mehmet Hamza Erol的名字怎么读来着？算了这不重要。关键是他真的是第一作者吗？如果是的话，我得像个学术界的狗仔队一样，挖出他最近两年的’绯闻论文’。”

行动蓝图*：

身份核实任务：鬼鬼祟祟摸进arXiv的页面，像特工查看任务简报一样确认作者排名。

人肉搜索（学术版）：

方案A：找找这家伙有没有个人主页，但愿别是90年代风格的网页。

方案B：潜伏进Google Scholar，把他最近两年的发表记录扒个底朝天。

备选方案*：如果以上都失败…那就假装网络信号不好。(¬‿¬)

步骤 4：循环执行与信息整合 (Loop)

一个AI代理的日常搬砖记

第一步：勇敢迈向arXiv

打工AI的第2步（总共只有8步预算，省着点用）：

打开浏览器，冲向arXiv的链接，像个侦探一样确认第一作者的身份。

任务完成后，还不忘像写日记一样，把结果塞进Simple Memory里存档（天知道这玩意儿会不会有一天变成“黑历史”）。

第二步：再探Google Scholar江湖

“Mehmet Hamza Erol Google Scholar”是什么神秘代码？

AI代理毫不犹豫执行搜索，毕竟它没有“犹豫不决”这个技能点（BoN = 1，果断就是美德）。

在搜索结果里翻找学者的主页，像超市挑菜一样筛选出近两年的论文——老的不要，只要新鲜的。

当然，这一切观察结果还是得老老实实塞进Simple Memory里（好记性不如烂存储）。

第三步：循环永动机模式

规划 -> 行动 -> 观察 -> 记忆 -> 再规划的无限轮回：

活脱脱像一只只会按固定路线跑的仓鼠。

但至少它不纠结，直接干——没有人类的拖延症，就是高效！

总结

这就是一个理性到冷酷的AI代理的搬砖日常：

不废话，不纠结，干了再说（毕竟1次尝试就定胜负，BoN = 1）。

Simple Memory是它唯一的心灵笔记本，记录着它短暂而高效的数字生命。

——但谁知道它是不是偷偷羡慕人类能喝奶茶摸鱼呢？*

步骤 5：任务完成与最终输出

学术论文的 “原力觉醒” 之旅

在茫茫学术宇宙中，当我们的智能体特工（代号GPT-4.1）收到神秘任务后：

开启”扫描模式”：像扫地机器人一样勤劳地收集记忆碎片

触发”记忆保险丝”：要么搜集8个线索，要么直接累趴下(Max Step=8)

启动”学术解码器”：把零散的学术面包屑烤成一个完整的信息披萨

最终成果汇报

重大发现！*那篇让人脑壳疼的《Cost-of-pass: An economic framework for evaluating language models》论文其实是：

作者Mehmet Hamza Erol的”杰作”

这家伙最近两年像是学术界的”豌豆射手”，接连发射了三篇论文：

[论文1]：大概讲了…(简单概括)

[论文2]：似乎证明了…(精要总结)

[论文3]：可能发现了…(灵魂解读)

注：以上研究轨迹已通过”学术雷达”扫描确认，准确度堪比咖啡因对程序员的效果

第四阶段：实验设计与验证分析

主实验：核心论点验证

谁说便宜没好货？这款AI告诉你什么是真正的”划算哥”！

一、核心思想：省钱小能手上线！

本研究的核心观点简单粗暴：“花小钱办大事”！通过像老妈逛菜市场那样精打细算地挑选AI的每个零件，我们成功打造了一个“性价比怪兽”——效果不输大佬，花钱还比大佬少！

效果保障：准确率和那些动不动就烧钱的大模型（SOTA）差不多。

省钱秘诀：但我们花的钱可比它们少多了！（说人话：同样的成绩单，我们用的补习班最便宜。）

二、实验设计：专挑硬骨头啃

1. 数据集：GAIA（通用AI的”高考卷”）

为啥选它？因为这玩意儿公认的难！既要会算数，还得会翻工具书。

潜台词：要是能在这儿考高分，忽悠老板投资时腰杆都能挺直三分！

2. 评价指标：省钱才是王道！

Accuracy (pass@1)：考了多少分？

cost-of-pass：每得一分花了多少钱？（这才是真正让投资人眼睛发亮的数字！）

3. 对手选择：专打优等生

OWL：当时的开源扛把子，学霸中的学霸。

SmolAgent：另一位实力派选手。

潜规则*：赢了菜鸟不算本事，干翻第一名才能上头条！

三、实验结果：省钱还能考高分！

方法	cost-of-pass（花钱效率）	准确率（得分）
OWL（大佬）	0.75	53.33%
我们的AI	0.55（省钱冠军！）	51.52%

结论翻译*：

省钱幅度：我们的方法比OWL省了26.7%的钱！（够喝多少杯奶茶了？）

成绩差距：准确率只差了1.81%！几乎可以忽略不计。（老板问起来就说“误差范围内”！）

一句话总结：“不是贵的才叫好，聪明的AI会省钱！”*

消融实验：验证组件贡献

当AI学会”剁手”：那些年被砍掉的豪华配置

1. 复杂记忆系统：花里胡哨不如直截了当

在AI的记忆系统里，我们测试了6种豪华配置（Table 5），结果发现——最简单的Simple Memory居然赢了全部！ 不仅成本（cost-of-pass）最低（0.74），连准确率（56.36%）都是最高的。

结论*：搞复杂记忆模块？不如直接装个备忘录！

2. 采样策略：多试几次？浪费钱！

我们对比了 Best-of-N（采样最靠谱的答案）在 N=1, 2, 4 下的表现（Table 2）。结果发现：

N=1（只试一次）：稳赚不赔

N>1（多折腾几次）：成本暴涨，但准确率只提升一丢丢

结论*：AI也讲究”一次定胜负”，别卷了，直接省钱的快乐你想象不到！

3. 规划深度：偷懒有害AI健康！

我们让AI尝试不同程度的”思考复杂度”（Table 3）：

4步规划（精简版）：效果一般

8步规划（深度思考版）：准确率起飞！

结论*：AI不能太懒，老板多给点”思考预算”才是硬道理！

4. 工具配置：别省小钱亏大钱

测试多种工具配置（Table 4）后发现：

用多个搜索源+更多查询扩展 → 成本飞降！

结论：AI界的真理——“该花的钱必须花！”*

总结：AI也要精打细算！

我们的实验证明：
复杂设计不一定好，简单反而更香
少折腾（N=1）比多尝试更划算
思考不能太浅（8步优于4步）
工具越多，成本越低
最终，EFFICIENT AGENTS 的每个选择都有硬核数据支持，绝不花冤枉钱！

深度实验：洞察方法特性

AI小白鼠历险记：当人工智能遇到数学题的”降维打击”

第一幕：当AI遇到”1+1=？”

科学家们最近搞了个”AI版期末考试”，把各种学霸AI分成三个考场：

小学组（Level 1）：考题大概是”1+1等于几”的水平

初中组（Level 2）：开始出现代数题了

大学组（Level 3）：直接上高数压轴题

结果我们的o1同学表现堪称”薛定谔的学霸”：

在小学组考试费只要1.96块钱

到了大学组突然开启”烧钱模式”，考试费暴涨到12.66块

暴增646%的费用证明：原来AI也会遇到”数学题恐惧症”！

这感觉就像是让爱因斯坦去做小学数学题——CPU使用率直接爆表，”过度思考”到主机冒烟。

第二幕：AI界的”超市大采购”

研究员们还贴心地做了张AI选购指南：

土豪专区：Claude-3.7-Sonnet同学，像是买了VIP包厢看演唱会，贵但是视野绝佳（高成本高准确率）

学生党专区：Qwen系列，就像是学校食堂的饭菜，便宜管饱但味道一般（低成本低准确率）

精明买家最爱：GPT-4.1同学，完美诠释什么叫“贵的东西除了贵没毛病，便宜的东西除了便宜都是毛病”

本文启示录

AI的996真相：越难的活，AI加班费越贵

学霸的烦恼：有些AI遇到简单题目反而容易”想太多”

省钱指南：不同场合要请不同的AI打工仔

本文授权转载自《沈公子今天又在折磨AI》专栏，作者”Tensorlong老师”用血泪教训告诉我们：让AI解高数题真的很费钱！

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

刚刚，DeepSeek最新发文，V3/R1训练细节全公开，信息量巨大

# AI # AI新闻 # AI资讯

4个月前

7,1540

蔡浩宇首款 AI 游戏正式上线，试玩后我发现最该慌的是多邻国

# AI # AI新闻 # AI资讯

4个月前

9,2310

吴恩达、倪明选Agent 2025大赛发言，华人科学家将占据AI Agent半壁江山

# AI # AI新闻 # AI资讯

4个月前

9,3330

快手副总裁、大模型负责人张迪将离职｜新皮层独家

# AI # AI新闻 # AI资讯

4个月前

4,0620