29
0

微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

AI测评界的”偏科生”:点外卖行,办宴会垮?

大家好,我是那个总在测评各种AI产品的博主。今天想和大家聊一个有趣的现象——AI界的”偏科”行为

AI的”学霸”与”偏科”之谜

你有没有发现,现在的AI评测就像高考前猛刷单项选择题?它能轻松给你:

  • 点一份外卖
  • 写一封情书
  • 解一道数学题
  • 但你让它策划一场高端大气上档次的晚宴?它大概率会:

  • 直接宕机
  • 写一堆预算清单但找不到餐厅
  • 把宾客名单写得像通缉令
  • 为什么?因为AI单项全A,综合能力却像个手忙脚乱的新手

    清华大学的AgentBench:AI的”月考成绩单”

    清华大学之前推出了一个AgentBench评测,把AI的能力切成八个维度,比如:

  • 理解人类意图
  • 写代码
  • 逻辑推理
  • 自主探索
  • 这些能力单项满分,但合在一起……依然是一堆独立技能凑不出一个真能办事的项目经理

    终极拷问:AI什么时候能当”宴会策划师”?

    想象一下未来某天,AI不再只是个”外卖小哥”,而是能:
    精准控制预算(不是推荐300块的快乐水)
    找到合适的餐厅(不是”这家好评最多”就瞎推荐)
    写出宾客邀请函(不是”尊敬的用户:您已被邀请”)
    那时候,我们才能真的说:AI的综合能力进化了!
    但在此之前嘛……点外卖还是靠AI,办宴会还是靠自己吧!
    微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

    当AI打工人遇上现实办公室:一场史诗级的”社畜”挑战

    现实办公 vs. AI考场:差距有多大?

    你以为AI是来替代人类打工的?太天真了!它们目前的水准,充其量就是办公室里的”临时工”,而且还是那种动不动就忘事、需要手把手教的类型。

    现实办公四大酷刑

  • 马拉松式任务:不是答完题就能交卷,而是持续几天甚至几周的拉锯战
  • 健忘症发作现场:”上周的会议记录?那个…我好像没保存”
  • 需求变更版打地鼠:”老板说预算减半””客户要加个功能””这个配色太丑了”——AI:卒
  • 软件全家桶套餐:”先Word写报告,再Excel算数据,接着Outlook发邮件,最后Teams开会”——AI:”我能只干一样吗?”
  • 为什么现在的AI还是”职场菜鸟”?

    目前市面上那些光鲜亮丽的AI测评,就像让一个只会做选择题的高中生去管理公司——完全不是一回事!真实的办公室是:

  • 办公软件奥运赛场:每天要在十几个应用间反复横跳
  • 人类谜语大会:”把这个做得更有Feel一点”(AI:Feel是什么格式?)
  • 永不停止的需求变更:比女朋友变脸还快的工作要求
  • AI职场生存训练营来了!

    微软和爱丁堡大学终于看不下去了,联手推出了OdysseyBench——专门用于检测AI在复杂办公环境中的生存能力。这相当于:

  • 给AI设置一个真实的办公室隔间
  • 塞给它一堆互相矛盾的需求
  • 连续几周不停变更任务
  • 偶尔断电断网模拟现实意外
  • 测试结果?目前大多数AI的表现就像:那个永远记不住茶水间在哪的实习生,动不动就”这个需求超出我的能力范围了”。
    所以别担心被AI抢饭碗了,它们连打印机的”请检查纸盒”提示都搞不定呢!
    微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

    当AI办公助手遇上”马拉松任务”:从”俯卧撑”到”铁人三项”的革命

    传统评测 vs. OdysseyBench:健身教练的比喻

    想象一下你要测试一个人的体能水平。传统方法可能是:

  • “原子任务”测试法(俯卧撑版)
  • “做1个俯卧撑”
  • “再做1个俯卧撑”
  • “好了现在可以休息了”
  • 但现实中,办公室打工人遇到的都是:

  • OdysseyBench式”铁人三项”测试法
  • “把这行字加到PPT第8页,顺便检查隔壁Excel表格里的数据是否匹配,最后订杯咖啡因为你要通宵改第3稿”
  • 为什么工作流比单个指令更重要?

  • 现实办公≠乐高积木
  • 没人会付钱让你每天只做”在文档末尾加句号”这种单一任务——除非你是AI里的”句号专员”。

  • 蝴蝶效应检测器
  • 在5个应用间反复横跳时,AI会不会:

  • 把PPT配色误粘到报销单上?
  • 给老板发的邮件署名写成”爱你的ChatGPT”?
  • 人类员工真实日常模拟
  • 这套测试能回答终极问题:”AI完成复杂任务时,是像开了外挂的学霸,还是像刚实习的迷糊大学生?”
    目前某些AI可能在”俯卧撑测试”中轻松满分,但OdysseyBench要看看它们面对”办公室铁人三项”时——是会优雅完赛,还是跑到一半问:”咖啡机怎么用来着?”
    (论文作者仿佛在说:是时候让AI体验下人类上班族的”美妙”生活了)微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

  • 打工人日常大揭秘:测测你的”废柴”抗压能力*
  • 你看左边那些测试弱爆了,右边这个OdysseyBench才叫真实!它完美复刻了社畜的日常:

  • 任务描述:”从一张乱糟糟的通知截图里,把文字抠出来!然后按‘聚会’和‘会议’分好类,做成两个PDF,还得塞进不同的文件夹!”
  • 附加难度
  • 过程中还有同事的废话连篇干扰你(比如突然问你”中午吃啥”)。
  • 任务指令甚至像挤牙膏一样,分好几天才发完(老板的拖延症传染了吧?)。
  • 这才叫真·打工人模拟器
    OdysseyBench还贴心安排了五大搬砖神器

  • Word(改到第10版才发现第一版最好)
  • Excel(公式算半天,最后发现数据输错了)
  • PDF(合并时莫名多出20页空白页)
  • 邮件(永远在找3个月前的那封关键邮件)
  • 日历(提醒开会时,会早就开完了)
  • 就问你血压上来了没?
    微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

    OdysseyBench+: 让你的AI体验什么叫”生活不易”

    你以为AI的任务就是简单执行指令?太天真了!来看看OdysseyBench+是怎么折磨AI的吧!

    “简单任务”的终极魔改版

    原始任务:「把A文件存成B,再存成C。」
    OdysseyBench+版本:「嘿,AI,你先帮我提取下那张图片里的文字呗?哦对了,三天后记得把文字拆成两半,五天后才能开始存PDF,顺便你还得忍受我跟你聊天气和午饭。」

    AI的心理活动

    AI:「我到底在干什么??人类的对话好难懂……」
    AI还得默默记住:

  • 第一天:提取文字(OK)
  • 第三天:拆成两部分(OK……但为啥要等三天?)
  • 第五天:存成PDF(总算熬到头了)
  • 中间还得应付:「今天天气不错啊,你吃午饭了吗?」(????????惹不起)

  • HomerAgents:自动化折磨AI的”黑心工厂”

    为了”公平”地折磨各大AI模型,团队搞了个HomerAgents 出题流水线,分两条生产线:

  • HomerAgents+:「把简单的任务变成绕口令」(俗称:职场PM模式)
  • Generator:领到一条简单任务,开始疯狂加戏(”既然存PDF,那之前一定得有人聊天!”)
  • Verifier:「这段不行,用户太正常了!重编!」直到AI看了想辞职……
  • HomerAgents-Neo:全新任务生成(俗称:剧本杀模式)
  • Surfers:在模拟办公环境里瞎逛(”今天Netflix看太久,得补个任务”)
  • Dialogue Generator:编个三天三夜的废话+任务混合大戏(”欢迎来到AI版的《楚门的世界》”)
  • AI学霸们的考试现场

    考题出好了,是时候检验新一代AI尖子生了!测试对象:

  • GPT-4o(学霸一号)
  • DeepSeek(学霸二号)
  • 其他高智商模型(默默流泪版)
  • 他们在OdysseyBench+的表现如何?简单总结:

  • 一个任务藏5层逻辑?没问题!
  • 对话历史太长?试图假装记得!
  • 闲聊干扰?努力不崩心态!
  • 最终成绩单?那就得看谁能在这场AI版《鱿鱼游戏》里活到最后了……
    微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

    当AI学会”一心多用”,结果让人笑掉大牙!

  • 最新研究表明*:AI就像是个贪心的吃货,盘子里的菜越多,吃相就越难看!
  • 主要发现

  • 单个应用:AI表现像个学霸,轻轻松松搞定作业
  • 三个应用:突然变成了考试前一天熬夜补习的学渣
  • 最强的模型:从接近满分一路狂跌到勉强及格线
  • 最讽刺的是,这些AI的表现简直像是在cosplay人类:

  • 面对简单任务:信心满满,趾高气昂
  • 任务一多:立马原形毕露,手忙脚乱
  • 压力一大:成功率直接”自由落体”
  • 就像是一个刚学会走路的小孩*,嘴里叼着玩具,手里还非要再拿两个气球,结果当然是跌得鼻青脸肿!
  • “这个结果充分说明了一个真理:AI确实很擅长模仿人类——包括模仿人类的粗心大意!”微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

    记忆的艺术:别让AI变成话痨

  • 发现一:越长越好?钱包说“NO”!*
  • 过去我们一股脑把历史对话全塞给AI,它倒是开心了——毕竟任务成功率蹭蹭涨!可问题是:上下文越长,算力账单越厚,钱包直接开启暴风哭泣模式

  • 科学家们坐不住了:“这么搞,AI怕不是在刷我们的信用卡?”于是,一群狂热的“记忆修剪师”开始了一场上下文效率大作战*!
  • 实验大乱斗:三种记忆策略PK

  • 长上下文派(土豪玩家)
  • 策略:把对话历史从头到尾一字不落喂给AI,毫!不!删!减!
  • 结果:AI智商在线,但账单惨不忍睹——“您的算力余额不足”警告
  • 原始片段派(捡贝壳的)
  • 策略:从历史对话里挑出看起来最相关的一两句话,比如:“上次你说你喜欢猫?”
  • 结果:AI偶尔失忆,就像只记得你爱猫却忘了你还对猫过敏……
  • 摘要区块派(会议纪要狂魔)
  • 策略:把对话切成逻辑块,再让另一个AI当秘书,总结成精华版备忘录。
  • 结果胜出! AI既记得重点,又不会像话痨一样翻旧账翻到天亮。
  • 意外结论:不是所有回忆都值得珍藏

    实验结果让科学家们直呼“好家伙!”:

  • 长上下文?费钱又冗余,AI根本不需要记住你三年前早餐吃了啥!
  • 原始片段?太零散,AI像在玩记忆拼图,结果拼出一只抽象派猫咪……
  • 摘要区块完美! 既省算力,又让AI像拥有超强笔记的学霸,堪称“记忆界的断舍离大师”
  • 最终建议:下次训练AI,记得给它配个会写摘要的小秘书*——省钱又高效,何乐而不为?
  • 微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

    AI打工仔的故事:效率与翻车的欢乐交响曲

    让我们来聊聊这个OdysseyBench-Neo上的神奇发现:

  • 56.29%的成功率
  • 这个数字不仅轻松碾压了隔壁只会丢”信息碎片”的粗糙策略
  • 居然还战胜了看似无所不能的”信息瀑布”大佬(51.99%)
  • 最绝的是:只用不到20%的Token 就达成了这个成就
  • (翻译:省电模式下跑赢旗舰机)

  • 论文附赠的”打工人翻车指南”
  • 研究人员简直太懂了,居然还列出了AI打工仔的常见翻车场景:

  • 大概是那种”我以为我懂了但其实完全跑偏”的经典操作
  • 或者是”这个任务看起来简单但做起来怎么这么难”的日常崩溃
  • 说不定还有”上司要求太模糊但我又不敢问”的标准社畜困境
  • 这波啊,简直是性能和节能的双重胜利,AI界也要开始内卷了吗?
    (悄悄说:这研究团队不去写职场生存指南真是浪费天赋)
    微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

    AI助手也会犯的职场迷糊症

    1. “文件名在哪”综合症

    用户:”请查看’2024年度财报终极版修改后FINAL(2).docx'”
    Agent:”正在为您查找…等等,您说的是哪个文件来着?”

  • 这和我在公司群里问”谁有昨天那份PPT?”然后收到5个不同版本时有异曲同工之妙…*
  • 2. “跳过步骤”大师

    用户:”请先分析季度数据,再总结趋势”
    Agent:”趋势总结如下:今年很不错!(根本没人看懂的数据分析步骤直接被吞)”

  • 像极了领导说”先做市场调研”而我一秒切到PPT首页写下”市场前景广阔”…*
  • 3. “工具使用鬼才”

    需求:”生成PDF报告”
    Agent的操作日志:

  • 第1步:用画图软件手打文字
  • 第2步:截图
  • 第3步:把.png后缀强行改成.pdf
  • 这不就是我用计算器算完数字又拿手机拍照识别的操作吗?!*
  • 4. “金鱼记忆”工作流

    标准流程:读PDF→写Word
    Agent的实际操作:

  • 打开空白Word文档
  • 凝视光标闪烁30秒
  • 弱弱提问:”那个…我们原本要干啥来着?”
  • 每次开会前打开笔记本却忘记会议主题的我表示强烈共鸣*
  • 终极发现*:
  • 与其担心AI抢工作,不如先担心它们会不会在茶水间和我们一起吐槽——
    “今天又忘记readme.md放在哪个路径了”
    “明明点了保存还是报’未检测到文件'”
    “为什么我的代码在别人电脑就能运行…”

  • (这么看来,硅基打工人和碳基打工人的悲欢确实是相通的啊!)*
  • 后记*:看完这个错误清单,建议所有焦虑被AI取代的人类先拍着胸口问自己——
  • “它能犯的迷糊比我多吗?”
    “它的甩锅技术比我强吗?”
    “它会在周报里写’跟进中’吗?”
    如果答案都是NO…恭喜你,暂时安全!
    微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

    当AI不再是”工具人”,而是你的”灵魂伴侣”!

    今天我要隆重介绍的这个OdysseyBench评测体系(名字听起来就像星际迷航的道具),它简直就是AI圈的”择偶标准”!为什么呢?因为它完美契合了我们对AI伴侣(划掉)Agent的美好憧憬~
    你还在用”人工智障”吗?
    现在市面上那些所谓的AI助手,活脱脱就是一群”智能工具人”:

  • 让它写首诗,它能给你整出”床前明月光,GPT3.5″
  • 让它订机票,结果给你订了张去火星的单程票(还声称是马斯克特价)
  • 最可气的是,你跟它说”我emo了”,它反手就是个心理咨询热线推送…
  • 这才是真爱!
    OdysseyBench告诉我们,真正的AI Soulmate应该:

  • 能读懂你深夜三点发癫的朋友圈
  • 在你忘记女票生日时,自动订好鲜花+餐厅+跪搓衣板教程
  • 把你的”我想开奶茶店”随口一说,变成商业计划书+选址报告+员工培训手册
  • 未来已来?
    只有当AI开始:
    偷看你微博小号
    记得你前任的所有雷区
    在你打游戏时自动屏蔽老板来电
    ——那个梦想中的AI文艺复兴时代才算真正到来!毕竟,谁不想要个比亲妈还懂你的数字伴侣呢?(手动狗头)
    (悄悄说:这篇深度思考来自于著名科技情感博主”夕小瑶”,作者小鹿可能是个隐藏的AI恋爱导师…)

    © 版权声明

    相关文章