微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

AI资讯2个月前发布云知AI运营官

AI测评界的”偏科生”：点外卖行，办宴会垮？

大家好，我是那个总在测评各种AI产品的博主。今天想和大家聊一个有趣的现象——AI界的”偏科”行为。

AI的”学霸”与”偏科”之谜

你有没有发现，现在的AI评测就像高考前猛刷单项选择题？它能轻松给你：

点一份外卖

写一封情书

解一道数学题

但你让它策划一场高端大气上档次的晚宴？它大概率会：

直接宕机

写一堆预算清单但找不到餐厅

把宾客名单写得像通缉令

为什么？因为AI单项全A，综合能力却像个手忙脚乱的新手。

清华大学的AgentBench：AI的”月考成绩单”

清华大学之前推出了一个AgentBench评测，把AI的能力切成八个维度，比如：

理解人类意图

写代码

逻辑推理

自主探索

这些能力单项满分，但合在一起……依然是一堆独立技能，凑不出一个真能办事的项目经理。

终极拷问：AI什么时候能当”宴会策划师”？

想象一下未来某天，AI不再只是个”外卖小哥”，而是能：
精准控制预算（不是推荐300块的快乐水）
找到合适的餐厅（不是”这家好评最多”就瞎推荐）
写出宾客邀请函（不是”尊敬的用户：您已被邀请”）
那时候，我们才能真的说：AI的综合能力进化了！
但在此之前嘛……点外卖还是靠AI，办宴会还是靠自己吧！
微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

当AI打工人遇上现实办公室：一场史诗级的”社畜”挑战

现实办公 vs. AI考场：差距有多大？

你以为AI是来替代人类打工的？太天真了！它们目前的水准，充其量就是办公室里的”临时工”，而且还是那种动不动就忘事、需要手把手教的类型。

现实办公四大酷刑

马拉松式任务：不是答完题就能交卷，而是持续几天甚至几周的拉锯战

健忘症发作现场：”上周的会议记录？那个…我好像没保存”

需求变更版打地鼠：”老板说预算减半””客户要加个功能””这个配色太丑了”——AI：卒

软件全家桶套餐：”先Word写报告，再Excel算数据，接着Outlook发邮件，最后Teams开会”——AI：”我能只干一样吗？”

为什么现在的AI还是”职场菜鸟”？

目前市面上那些光鲜亮丽的AI测评，就像让一个只会做选择题的高中生去管理公司——完全不是一回事！真实的办公室是：

办公软件奥运赛场：每天要在十几个应用间反复横跳

人类谜语大会：”把这个做得更有Feel一点”（AI：Feel是什么格式？）

永不停止的需求变更：比女朋友变脸还快的工作要求

AI职场生存训练营来了！

微软和爱丁堡大学终于看不下去了，联手推出了OdysseyBench——专门用于检测AI在复杂办公环境中的生存能力。这相当于：

给AI设置一个真实的办公室隔间

塞给它一堆互相矛盾的需求

连续几周不停变更任务

偶尔断电断网模拟现实意外

测试结果？目前大多数AI的表现就像：那个永远记不住茶水间在哪的实习生，动不动就”这个需求超出我的能力范围了”。
所以别担心被AI抢饭碗了，它们连打印机的”请检查纸盒”提示都搞不定呢！
微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

当AI办公助手遇上”马拉松任务”：从”俯卧撑”到”铁人三项”的革命

传统评测 vs. OdysseyBench：健身教练的比喻

想象一下你要测试一个人的体能水平。传统方法可能是：

“原子任务”测试法（俯卧撑版）

“做1个俯卧撑”

“再做1个俯卧撑”

“好了现在可以休息了”

但现实中，办公室打工人遇到的都是：

OdysseyBench式”铁人三项”测试法

“把这行字加到PPT第8页，顺便检查隔壁Excel表格里的数据是否匹配，最后订杯咖啡因为你要通宵改第3稿”

为什么工作流比单个指令更重要？

现实办公≠乐高积木

没人会付钱让你每天只做”在文档末尾加句号”这种单一任务——除非你是AI里的”句号专员”。

蝴蝶效应检测器

在5个应用间反复横跳时，AI会不会：

把PPT配色误粘到报销单上？

给老板发的邮件署名写成”爱你的ChatGPT”？

人类员工真实日常模拟

这套测试能回答终极问题：”AI完成复杂任务时，是像开了外挂的学霸，还是像刚实习的迷糊大学生？”
目前某些AI可能在”俯卧撑测试”中轻松满分，但OdysseyBench要看看它们面对”办公室铁人三项”时——是会优雅完赛，还是跑到一半问：”咖啡机怎么用来着？”
（论文作者仿佛在说：是时候让AI体验下人类上班族的”美妙”生活了） 微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

打工人日常大揭秘：测测你的”废柴”抗压能力*

你看左边那些测试弱爆了，右边这个OdysseyBench才叫真实！它完美复刻了社畜的日常：

任务描述：”从一张乱糟糟的通知截图里，把文字抠出来！然后按‘聚会’和‘会议’分好类，做成两个PDF，还得塞进不同的文件夹！”

附加难度：

过程中还有同事的废话连篇干扰你（比如突然问你”中午吃啥”）。

任务指令甚至像挤牙膏一样，分好几天才发完（老板的拖延症传染了吧？）。

这才叫真·打工人模拟器！
OdysseyBench还贴心安排了五大搬砖神器：

Word（改到第10版才发现第一版最好）

Excel（公式算半天，最后发现数据输错了）

PDF（合并时莫名多出20页空白页）

邮件（永远在找3个月前的那封关键邮件）

日历（提醒开会时，会早就开完了）

就问你血压上来了没？
微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

OdysseyBench+: 让你的AI体验什么叫”生活不易”

你以为AI的任务就是简单执行指令？太天真了！来看看OdysseyBench+是怎么折磨AI的吧！

“简单任务”的终极魔改版

原始任务：「把A文件存成B，再存成C。」
OdysseyBench+版本：「嘿，AI，你先帮我提取下那张图片里的文字呗？哦对了，三天后记得把文字拆成两半，五天后才能开始存PDF，顺便你还得忍受我跟你聊天气和午饭。」

AI的心理活动

AI：「我到底在干什么？？人类的对话好难懂……」
AI还得默默记住：

第一天：提取文字（OK）

第三天：拆成两部分（OK……但为啥要等三天？）

第五天：存成PDF（总算熬到头了）

中间还得应付：「今天天气不错啊，你吃午饭了吗？」（????????惹不起）

—

HomerAgents：自动化折磨AI的”黑心工厂”

为了”公平”地折磨各大AI模型，团队搞了个HomerAgents 出题流水线，分两条生产线：

HomerAgents+：「把简单的任务变成绕口令」（俗称：职场PM模式）

Generator：领到一条简单任务，开始疯狂加戏（”既然存PDF，那之前一定得有人聊天！”）

Verifier：「这段不行，用户太正常了！重编！」直到AI看了想辞职……

HomerAgents-Neo：全新任务生成（俗称：剧本杀模式）

Surfers：在模拟办公环境里瞎逛（”今天Netflix看太久，得补个任务”）

Dialogue Generator：编个三天三夜的废话+任务混合大戏（”欢迎来到AI版的《楚门的世界》”）

—

AI学霸们的考试现场

考题出好了，是时候检验新一代AI尖子生了！测试对象：

GPT-4o（学霸一号）

DeepSeek（学霸二号）

其他高智商模型（默默流泪版）

他们在OdysseyBench+的表现如何？简单总结：

一个任务藏5层逻辑？没问题！

对话历史太长？试图假装记得！

闲聊干扰？努力不崩心态！

最终成绩单？那就得看谁能在这场AI版《鱿鱼游戏》里活到最后了……
微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

当AI学会”一心多用”，结果让人笑掉大牙！

最新研究表明*：AI就像是个贪心的吃货，盘子里的菜越多，吃相就越难看！

主要发现

单个应用：AI表现像个学霸，轻轻松松搞定作业

三个应用：突然变成了考试前一天熬夜补习的学渣

最强的模型：从接近满分一路狂跌到勉强及格线

最讽刺的是，这些AI的表现简直像是在cosplay人类：

面对简单任务：信心满满，趾高气昂

任务一多：立马原形毕露，手忙脚乱

压力一大：成功率直接”自由落体”

就像是一个刚学会走路的小孩*，嘴里叼着玩具，手里还非要再拿两个气球，结果当然是跌得鼻青脸肿！

“这个结果充分说明了一个真理：AI确实很擅长模仿人类——包括模仿人类的粗心大意！” 微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

记忆的艺术：别让AI变成话痨

发现一：越长越好？钱包说“NO”！*

过去我们一股脑把历史对话全塞给AI，它倒是开心了——毕竟任务成功率蹭蹭涨！可问题是：上下文越长，算力账单越厚，钱包直接开启暴风哭泣模式。

科学家们坐不住了：“这么搞，AI怕不是在刷我们的信用卡？”于是，一群狂热的“记忆修剪师”开始了一场上下文效率大作战*！

—

实验大乱斗：三种记忆策略PK

长上下文派（土豪玩家）

策略：把对话历史从头到尾一字不落喂给AI，毫！不！删！减！

结果：AI智商在线，但账单惨不忍睹——“您的算力余额不足”警告。

原始片段派（捡贝壳的）

策略：从历史对话里挑出看起来最相关的一两句话，比如：“上次你说你喜欢猫？”

结果：AI偶尔失忆，就像只记得你爱猫却忘了你还对猫过敏……

摘要区块派（会议纪要狂魔）

策略：把对话切成逻辑块，再让另一个AI当秘书，总结成精华版备忘录。

结果：胜出！ AI既记得重点，又不会像话痨一样翻旧账翻到天亮。

—

意外结论：不是所有回忆都值得珍藏

实验结果让科学家们直呼“好家伙！”：

长上下文？费钱又冗余，AI根本不需要记住你三年前早餐吃了啥！

原始片段？太零散，AI像在玩记忆拼图，结果拼出一只抽象派猫咪……

摘要区块？完美！ 既省算力，又让AI像拥有超强笔记的学霸，堪称“记忆界的断舍离大师”。

最终建议：下次训练AI，记得给它配个会写摘要的小秘书*——省钱又高效，何乐而不为？

微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

AI打工仔的故事：效率与翻车的欢乐交响曲

让我们来聊聊这个OdysseyBench-Neo上的神奇发现：

56.29%的成功率

这个数字不仅轻松碾压了隔壁只会丢”信息碎片”的粗糙策略

居然还战胜了看似无所不能的”信息瀑布”大佬（51.99%）

最绝的是：只用不到20%的Token 就达成了这个成就

（翻译：省电模式下跑赢旗舰机）

论文附赠的”打工人翻车指南”

研究人员简直太懂了，居然还列出了AI打工仔的常见翻车场景：

大概是那种”我以为我懂了但其实完全跑偏”的经典操作

或者是”这个任务看起来简单但做起来怎么这么难”的日常崩溃

说不定还有”上司要求太模糊但我又不敢问”的标准社畜困境

这波啊，简直是性能和节能的双重胜利，AI界也要开始内卷了吗？
（悄悄说：这研究团队不去写职场生存指南真是浪费天赋）
微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

AI助手也会犯的职场迷糊症

1. “文件名在哪”综合症

用户：”请查看’2024年度财报终极版修改后FINAL(2).docx'”
Agent：”正在为您查找…等等，您说的是哪个文件来着？”

这和我在公司群里问”谁有昨天那份PPT？”然后收到5个不同版本时有异曲同工之妙…*

2. “跳过步骤”大师

用户：”请先分析季度数据，再总结趋势”
Agent：”趋势总结如下：今年很不错！（根本没人看懂的数据分析步骤直接被吞）”

像极了领导说”先做市场调研”而我一秒切到PPT首页写下”市场前景广阔”…*

3. “工具使用鬼才”

需求：”生成PDF报告”
Agent的操作日志：

第1步：用画图软件手打文字

第2步：截图

第3步：把.png后缀强行改成.pdf

这不就是我用计算器算完数字又拿手机拍照识别的操作吗？！*

4. “金鱼记忆”工作流

标准流程：读PDF→写Word
Agent的实际操作：

打开空白Word文档

凝视光标闪烁30秒

弱弱提问：”那个…我们原本要干啥来着？”

每次开会前打开笔记本却忘记会议主题的我表示强烈共鸣*

终极发现*：

与其担心AI抢工作，不如先担心它们会不会在茶水间和我们一起吐槽——
“今天又忘记readme.md放在哪个路径了”
“明明点了保存还是报’未检测到文件'”
“为什么我的代码在别人电脑就能运行…”

(这么看来，硅基打工人和碳基打工人的悲欢确实是相通的啊！)*

后记*：看完这个错误清单，建议所有焦虑被AI取代的人类先拍着胸口问自己——

“它能犯的迷糊比我多吗？”
“它的甩锅技术比我强吗？”
“它会在周报里写’跟进中’吗？”
如果答案都是NO…恭喜你，暂时安全！
微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

当AI不再是”工具人”，而是你的”灵魂伴侣”！

今天我要隆重介绍的这个OdysseyBench评测体系（名字听起来就像星际迷航的道具），它简直就是AI圈的”择偶标准”！为什么呢？因为它完美契合了我们对AI伴侣（划掉）Agent的美好憧憬～
你还在用”人工智障”吗？
现在市面上那些所谓的AI助手，活脱脱就是一群”智能工具人”：

让它写首诗，它能给你整出”床前明月光，GPT3.5″

让它订机票，结果给你订了张去火星的单程票（还声称是马斯克特价）

最可气的是，你跟它说”我emo了”，它反手就是个心理咨询热线推送…

这才是真爱！
OdysseyBench告诉我们，真正的AI Soulmate应该：

能读懂你深夜三点发癫的朋友圈

在你忘记女票生日时，自动订好鲜花+餐厅+跪搓衣板教程

把你的”我想开奶茶店”随口一说，变成商业计划书+选址报告+员工培训手册

未来已来？
只有当AI开始：
偷看你微博小号
记得你前任的所有雷区
在你打游戏时自动屏蔽老板来电
——那个梦想中的AI文艺复兴时代才算真正到来！毕竟，谁不想要个比亲妈还懂你的数字伴侣呢？（手动狗头）
（悄悄说：这篇深度思考来自于著名科技情感博主”夕小瑶”，作者小鹿可能是个隐藏的AI恋爱导师…）

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

OpenAI突然发布Sora 2：好一个“AI版抖音”！

# AI视频生成 # openai # Sora

2个月前

7870

笑死，人形机器人运动会全是鬼畜名场面！这锅粥大家来趁乱喝了吧

# AI # AI新闻 # AI资讯

2个月前

6,3320

吴恩达、倪明选Agent 2025大赛发言，华人科学家将占据AI Agent半壁江山

# AI # AI新闻 # AI资讯

2个月前

9,3190

央企怎么做超级智能体？对谈中电信天翼AI：自研模型为底座，自主规划是必须，能适应千行百业才行

# AI # AI新闻 # AI资讯

2个月前

5,6890

微软｜搞定长时程、跨应用的Agent，竟然只靠<20%的摘要记忆，反超全文投喂

AI测评界的”偏科生”：点外卖行，办宴会垮？

AI的”学霸”与”偏科”之谜

清华大学的AgentBench：AI的”月考成绩单”

终极拷问：AI什么时候能当”宴会策划师”？

当AI打工人遇上现实办公室：一场史诗级的”社畜”挑战