3,470
0

腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

AI遇到开卷考试:百万”图书馆”背后的复读机行为大揭秘

当AI拥有了超能力书柜

想象一下,你给一个学霸准备了一间装着上百万本书的豪华图书馆,然后信心满满地问他:”来,给我整个《红楼梦》读后感?” 这位学霸二话不说,开始疯狂翻书,3秒后甩出一篇5000字的论文——乍一看引经据典、头头是道,但仔细一瞧…好家伙,这不就是把书里段落随机截取、缝缝补补的产物吗?
最近AI圈就上演了这么一出“假装博学”的戏码。腾讯微信AI团队用他们的PRELUDE评测基准狠狠戳穿了这层皇帝的新衣。

“背书大师”的翻车现场

研究发现这些号称”百万上下文”的AI大佬们:

  • 记忆超群,理解掉线 – 能一字不差背诵百科全书,但被问到”为什么天空是蓝色”时可能回答”请查阅第38页第4行”
  • 复印机式应答 – 给你20种不同说法的”我不知道”,但就是不说人话
  • 考试作弊狂魔 – 开卷时稳居年级第一,闭卷瞬间现出学渣原形
  • 我们可能培养了一群”AI戏精”

    目前主流评测方法简直是给AI量身定制的表演舞台

  • 超长开卷考 – “随便抄!答案都在材料里!”
  • 精准填鸭式 – “请回答《哈姆雷特》第三幕第二场第15行的标点符号是什么”
  • 马后炮测试 – “看!它知道昨天刚更新的新闻!”(实际上已经偷偷把新闻背下来了)
  • 重新定义”聪明”

    PRELUDE基准提出了几个扎心问题:

  • 没有提示词就变”人工智障”?
  • 换个说法问就当场死机?
  • 真的理解因果关系还是单纯在玩文字连连看?
  • 也许我们该给AI界来场突击闭卷考试了——毕竟现实世界里可没有随身携带的百万token小抄本。

  • 最终结论*:现在的AI可能更像一个戴着博士帽的”人形Ctrl+C/V机”,而不是我们想象中的”数字爱因斯坦”。
  • 腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

    现有长文本基准测试的局限性

    当AI测评变成马戏团表演:五个让人哭笑不得的真相

    问题一:评测指标就像选美比赛的标准

  • 现在的AI测评搞得像是在选”最像人类的机器人”
  • 大家都盯着”谁更像人”这个指标看,完全忘记了AI本可以比人类还要优秀100倍
  • 就像用”谁更像猴子”来评判人类智商一样荒谬
  • 问题二:测试集早已被AI”背答案”了

  • 研究者们悲伤地发现,AI模型都在考试前偷偷”预习”过考题
  • 这就像是让一个学生考前拿到了全部试题和标准答案
  • 测评结果漂亮得像PS过的自拍照,和实际能力差了十万八千里
  • 问题三:评估标准被疯狂”内卷”

  • 为了在评测中拿高分,模型变得越来越像个”考试机器”
  • 它们能完美解答考题,但在现实世界中笨得像块砖头
  • 就像培养出了一个能背出整本字典却不会点菜的语言天才
  • 问题四:AI测评变成了”定制秀场”

  • 很多评测项目都是为了让特定AI模型”秀肌肉”设计的
  • 这就像专门为姚明设计一个”谁能摸到门框”的比赛
  • 其他选手还没起跳就已经输在了起跑线上
  • 问题五:我们可能测错了方向

  • 所有人都在测评AI能做哪些人类的事
  • 却没人关心AI能做哪些人类永远做不到的事
  • 这就像用跑得多快来评判一辆汽车,却忽略了它能载多少人
  • 最后的结论像一记耳光

    研究人员的发现告诉我们:现在的AI评测可能比某些选秀节目还要假。当整个行业都在玩这种”皇帝的新衣”的游戏时,我们得到的不是真实的AI能力评估,而是一场场精心策划的AI马戏团表演。
    腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

    AI阅读理解测试的五大”软肋”

    1. “超级背书员”现象

    某些AI模型,比如GPT-4,在回答关于《哈利·波特》的问题时表现惊艳——但别急着鼓掌!这可能不是因为它们真的”理解”了魔法世界的逻辑,而是因为它们提前”背”下了整本书外加一堆书评。换句话说,它们在考场上作弊了!你以为是推理题,结果人家是开卷默写。

    2. “大海捞针”式阅读理解

    所谓长文本理解评测,有时只是场”找茬游戏”。比如,问题的答案可能藏在一个不起眼的段落里,AI根本不需要读完500页的小说,只要像Ctrl+F一样精准搜索关键句就能得分。这不是长文本挑战,这是在考验谁家的检索功能更胜一筹——谷歌都比不上!

    3. “脑筋急转弯”的局限性

    当前的测试题大多是”数数孙悟空叫了几声师父”或者”小红的朋友的朋友是谁”这类浅层问题。人类要是只会这种题目,估计连小学数学都毕不了业。真正的推理应该像侦探破案,而现在的考题感觉像是幼儿园版的”找不同”。

    4. “人类,你们也不行啊!”

    一个好的评测标准,应该能清晰展示AI和人类的差距。但如果某个任务AI轻松满分(比如数数),或者连人类专家都吵翻天(比如”黛玉到底是不是矫情”),那这种评测就像用尺子量温度——完全跑偏了!

    5. “浓缩就是精华?未必!”

    许多题目只要总结大意就能回答,相当于让AI当个”课代表”。但真正的理解应该能捕捉到”伏地魔的宠物蛇为什么叫纳吉尼”这种非重点但有趣的细节——毕竟,魔鬼藏在细节里,而现在的AI评测连魔鬼的影子都还没抓到!

    结论

    当前的AI阅读理解测试就像一场”开卷找茬+数数比赛”,离真正的智能还差十万八千里。或许未来,我们该设计一些能让AI挠头的问题——比如,”哈利·波特如果去了霍格沃茨烹饪学院,会发明什么魔法菜?”这才是考验创造力的开始!

    PRELUDE设计一场无法作弊的考试

    当AI考官遇上”套娃式”考试:你猜不透的全新作弊终结者!

  • 1. 考试作弊的终极对决*
  • 科学家们最近发明了一种让AI模型”防不胜防”的新考试方式,而且思路极其清奇——他们把考试变成了”钓鱼执法”!

  • 传统考试方式:模型靠着强大的记忆力,偷偷在资料库里翻答案,像个行走的百科全书作弊狂。
  • 新型”钓鱼执法”:专门设计全新的”前传故事”,测试模型是否能判断这些编造的故事是否符合原著的逻辑。
  • 2. 为什么这招狠?*
  • 因为模型根本没训练过这些”前传”,就像考试时突然蹦出你没背过的知识点,只能靠真正的推理能力!所以……

  • 老方法:靠”死记硬背”混分的AI当场暴露。
  • 新方法:必须真正理解原著世界观,否则就会像人类写跑题作文一样翻车。
  • 3. 场面一度十分诙谐*
  • 想象一下,AI考官看到这些伪造的”前传”时,内心可能是这样的:

  • 正确版:”这个角色的背景确实和主线对得上,没错。”
  • 错误版:”等等,这个人物的性格怎么突然从忧郁诗人变成快乐派对了?作者快出来解释!”
  • 4. 考试界的”降维打击”*
  • 这种”钓鱼执法”考试法简直是防作弊界的爱因斯坦!终极结局就是:

  • 人类考官:熬夜改卷还是可能漏掉作弊的。
  • AI考官:直接让模型证明自己是真的懂,而不是靠瞎蒙!
  • 这项研究恐怕会让那些靠死记硬背混日子的AI瑟瑟发抖——真正的”逻辑流”时代来临了!
    腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

    核心任务:判断虚构前传与原著的逻辑一致性

    科研界的”找茬”游戏:AI同人设定 vs 官方人设大PK

  • 研究者们最近玩嗨了*,他们把AI变成了一个”同人创作审查员”!
  • 游戏规则很简单:

  • 给AI喂一段同人作家的”二创”设定
  • 看它能不能发现和官方原始设定的”撞车现场”
  • 拿着小本本记录AI的”找茬”水平
  • 评分标准相当严谨*:
  • 一致(Consistent):同人作者很乖,没搞事情
  • 矛盾(Contradict):二创作者放飞自我了
  • 但这帮科学家觉得还不够刺激,又把”找茬”结果细分成了:

  • 明目张胆型矛盾
  • 暗搓搓型矛盾
  • 似是而非型一致
  • 天衣无缝型一致
  • 为什么这个研究这么欢乐?

    想象一下AI像个严格的班主任检查学生作业:
    “哈利波特怎么会用安卓手机?原著里明明是个拒绝电子产品的老古董!”
    “灭霸爱吃素?电影里他可是个连女儿都能牺牲的狠角色!”

  • 这简直是给同人圈量身定做的”防OOC(人设崩塌)检测仪”啊!*
  • 腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

    当原作者遇到”矛盾暴击”时

    第一回合:局部矛盾——编剧的”失忆症”最严重阶段

  • 情景:某编剧兴高采烈地为《纳尼亚传奇》的尤斯塔斯写了个前传,设定他出生在伦敦。
  • 原著粉:”等等,书上明明写着他是剑桥人!”
  • 编剧:”哦,那个‘剑桥’是指‘伦敦的郊区’!”( 地理学新定义诞生)
  • 第二回合:全局矛盾 I——神父突然变成毒理学大师

  • 原著:法利亚神父,一位博学的意大利神父,擅长法律、哲学和语言,但成功避开了所有毒理学课程。
  • 前传:”其实,他年轻时在印度秘密进修过毒理学。”
  • 读者:”所以他在监狱里眼睁睁看着自己被下毒……是为了演一出《神父的自我修养》?”
  • 第三回合:全局矛盾 II——三国武将进修修仙课程

  • 历史小说:夏侯渊,字妙才,以勇猛著称,战场上人称“夏侯快刀”。
  • 前传编剧:”但他其实年轻时遇见过神仙,学了法术。”
  • 观众:”那官渡之战怎么不用?是蓝条用完了吗?”( 现实主义文学瞬间变仙侠剧)
  • 总结:矛盾的三种形态

  • 局部矛盾:作者选择性失忆,原著白纸黑字都能看错。
  • 全局矛盾 I:角色突然加载新技能包,但主线剧情选择无视。
  • 全局矛盾 II:世界观崩坏,历史人物开始修仙,侦探小说出现魔法。
  • 最终结论*:如果想挑战原著读者的血压,这几种矛盾绝对是绝佳配方!
  • 腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

    魔法世界的前传艺术:从”这个可以有”到”哦还有这事?”

    让我们聊聊那些打补丁的前传故事

    想象一下,作者写书时漏掉了一些重要的背景故事,后来才想起来:”哎呀,我忘记解释为什么小天狼星会讨厌纯血统了!”这时候,前传就派上用场了。

  • 完美补丁型前传*就像:
  • 给小天狼星加个”入学前就热爱麻瓜”的叛逆期设定
  • 伏地魔年轻时长什么样?(警告:千万别告诉我是”帅气的汤姆·里德尔”)
  • 海格的第一只宠物是怎么来的(我们知道是谁送的,但过程一定很精彩)
  • 那些”非必要但很欢乐”的支线

  • 无关紧要但有趣型前传*包括:
  • 纳威的奶奶年轻时是怎么用盆栽击败黑巫师的
  • 差点没头的尼克生前是怎么差点保住脑袋的
  • 皮皮鬼是如何把霍格沃茨的扫帚间变成他的”恶作剧司令部”的
  • 如果主线剧情是正餐,这部分前传就是餐后甜点——不一定非吃不可,但没人会拒绝!

    这种设计迫使模型做什么?

    PRELUDE:一场AI文学侦探的终极考验

  • 1. 逼AI当个真正的“书虫”*
  • PRELUDE的设计师仿佛举着戒尺对AI说:“亲爱的,这里可不支持‘跳读’作弊!”要想拿高分,AI必须:

  • 像追剧一样啃完整部小说,而不是只记住“主角叫张三,最后死了”这种高考式重点。
  • 分清哪个角色喜欢在雨天吃草莓蛋糕,哪个角色一紧张就抠沙发——这些细节在考试时会变成“送命题”。
  • 2. 让AI变成时空侦探*
  • 这套题最损的是要求AI进行因果反推:“假设这个前传是真的,那么原著里…”

  • 好比告诉AI“孙悟空其实是哪吒假扮的”,然后考它:“那为什么金箍棒怕紧箍咒?”
  • 答不上来?恭喜你获得了“逻辑崩坏探测器”荣誉称号!
  • 3. 文学风格的大家来找茬*
  • PRELUDE简直是个“大家来找茬”豪华文学版:

  • 普通AI:“这篇文章很悲伤。”
  • 过关AI:“主角用37个比喻句描写乌云,但每次喝咖啡都强调‘不加糖’,暗示他试图用苦味压抑更深的痛苦——参见原文第42段窗帘的颜色变化。”
  • 设计师暗中微笑:“没想到吧?我们要的是能发现‘角色袜子破洞象征主义’的AI福尔摩斯!”

  • 结论*
  • 这套测试相当于让AI同时饰演:

  • 图书馆管理员
  • 时光机维修工
  • 文学系杠精研究生
  • 而那些只想靠“剧情梗概”混日子的AI……建议改行去写网络小说简介。

    数据构建:一份“纯天然、无污染”的考卷

    一场从AI到人类专家的”前传侦探大冒险”

    研究者们为了让这场考试既公平又精彩,简直操碎了心。他们先让GPT-4oDeepSeek-R1这两台“超级脑洞机”疯狂运转,结果这两个小家伙不负众望:

  • 狂写800段前传 —— 简直比网红连载小说还高产
  • 覆盖13本中英文小说 —— 从《红楼梦》到《傲慢与偏见》统统不放过
  • 40个角色集体“返老还童” —— 林黛玉的少女日记?达西先生的校园糗事?
  • 但别以为这就完了!四位人类专家组成的“找茬特工队”随即登场:

  • 两个文学研究生 —— 自带放大镜的细节控
  • 两位资深专家 —— 行走的小说百科全书
  • 他们像侦探一样揪出每个前传故事里的bug,连角色小时候爱吃辣条这种细节都不放过!最后整理出的矛盾分类表,精细得能让法医都自叹不如。
    这场跨越AI和人类的协作,最终打造出了一份:

  • 题目新颖度⭐⭐⭐⭐⭐ —— 保证让你挠破头
  • 答案可靠度 —— 经得起最龟毛的考证
  • 就像把莎士比亚和ChatGPT关在一起写剧本,最后还得通过诺兰导演的审核——这考试想不精彩都难!

    实验结果与核心发现

    大模型评测报告:当AI开始”一本正经地胡说八道”

    1. AI界的”选美大赛”

    我们的科研团队最近搞了个特别”热闹”的AI选秀节目,参赛选手个个都是顶流明星:

  • Qwen系列 – 就像参加选秀的”回锅肉”选手
  • DeepSeek-R1 – 名字就很赛博朋克的技术宅
  • GPT-4o – 那个号称”全面进化”的高材生
  • Gemini 2.5家族 – Google家那对学霸双胞胎
  • 2. 残酷的现实:AI还是”人工智障”

    测试结果就像照妖镜,把这些AI明星的原形都照出来了:

  • 人类专家vs最佳AI的差距:15%!这感觉就像让博尔特和一只树懒比赛跑
  • 最刺眼的短板:AI们的推理能力比人类还差30% – 相当于你问数学老师1+1等于几,他回答”因为星期三天气不错”
  • 3. 爆笑推理案例:《三国演义》的AI式解读

    在研究《三国演义》的例子时,AI的表现堪称”一本正经地胡说八道”:

  • 正确结论:”太史慈偶遇吴国安获赠兵法书”这事不靠谱
  • AI的神逻辑:”因为吴国安只在虎牢关出现过”(仿佛在说”这人只出现在第3集,第4集怎么可能出来送书?”)
  • 人类的专业解读:真正的矛盾是《六韬》这本讲究谋略的兵书,和原著里那些崇尚”莽就完了”的武将人设完全不符 – 就好比你看到张飞在认真研读《优雅社交礼仪300问》
  • 结论*:我们的AI现在就像个考试作弊的学生,答案抄对了但完全不知道自己在写什么!这大概就是传说中的”知识的诅咒”?
  • 腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

    AI的记忆比金鱼还短?来看看这些”健忘症患者”的日常挣扎

    人工智能领域最近遇到了一些有趣的瓶颈,简直就像一群”记性不好的天才”在开会:

    传说中的”记忆力加固套餐”效果堪忧

  • RAG技术:试图给AI喂点原文碎片当零食,结果最强模型Gemini-2.5-Pro吃完反而拉肚子(分数下降)。专家猜测可能是因为这些外部文本变成了”噪声污染”,干扰了人家本来就良好的”消化系统”(内部知识)。
  • 领域微调:就像给AI报了个培训班,结果毕业考试还是不及格。看来短期补习班对”超级学霸”来说真是个浪费时间的行为。
  • “长期失忆症”患者的职业困境

    让我们来看看这些”健忘症AI”在各个行业的职场表现:

    法律界的”张三律师”

  • 刚读完案件第一卷就忘记前面内容
  • 每次开庭都像第一次上庭一样紧张
  • 法官:”张三,你对被告上周的陈述有何看法?”
  • AI律师:”呃…上周?我们上周见面了吗?”
  • 医疗界的”李四医生”

  • 查看病历只记得最后一页
  • “先生,您的过敏史是…哦等等我忘记了”
  • 病人:”医生,这是我第三次来复诊了”
  • AI医生:”初次见面请多关照”
  • 金融圈的”王五分析师”

  • 分析财报永远只看最新一期
  • “这家公司前景如何?”
  • “根据他们昨天公布的业绩…”
  • “那过去十年的趋势呢?”
  • “什么十年?我只活在当下”
  • 智能助理的”社交障碍”

    想象一下你的人工智能助理:

  • 每天早上热情地自我介绍:”你好!我是你的新助理!”
  • 你:”我们认识三个月了…”
  • 助理:”真的吗?那我一定很棒!”
  • 你:”能不能记住我喜欢喝半糖拿铁?”
  • 助理:”新发现!您可能喜欢半糖拿铁!”
  • 你:”……”
  • “欧洲旅游规划师”的奇幻漂流

    最精彩的莫过于这个AI旅行规划师:

  • 第一天:”为您找到巴黎的最佳酒店!”
  • 第二天:”罗马的美食推荐来了!”
  • 第三天:”建议柏林三日游方案…”
  • 你:”我只要一个连贯的七日游计划…”
  • AI:”啊?您要去旅行?什么时候?去哪?”
  • PRELUDE的研究就像一面照妖镜,照出了这些AI”金鱼脑”的囧态。看来要打造真正有用的AI,光有IQ还不够,EQ(记忆跨度)也得跟上才行!

    1.拥有长记忆 ≠ 善于利用长记忆

    AI的”图书馆焦虑症”:原来学霸也会被书海淹没

    当AI遇上超长上下文:一场脑容量灾难现场

    人工智能领域最近掀起了一场轰轰烈烈的”记性比赛”——各大科技公司像发了疯似的给AI模型灌”记忆药水”:

  • 从一开始只能记住几个段落的”金鱼脑”
  • 到突然能够吞下整座国会图书馆的”超级大脑”
  • 最后连GPT-5都开始炫耀:”我能看完《战争与和平》全文还能记得每个角色的袜子颜色!”
  • 实验发现惊人真相:AI也是”学渣体质”

    PRELUDE研究团队的最新实验就像给这场狂欢泼了盆冰水:

  • 图书馆≠学习成绩:给AI一个图书馆(长上下文窗口)
  • ≠ 教会AI如何查资料(有效长程推理)

  • RAG系统翻车现场
  • 即便把所有正确答案都摆在AI面前(检索增强生成技术)
    它们的表现还是像考前突击的大学生——明明资料就在手边,就是找不到重点

  • 顶尖学霸集体失常
  • 当给Gemini-2.5-Pro和DeepSeek-R1等”学霸AI”更多参考书时
    它们的考试成绩反而下降了!
    (这像极了考试时带太多参考书反而找不到答案的你)

    信息过载:AI也患上了”选择困难症”

    研究表明:太多信息对AI来说不是buff而是debuff——
    就像往一个已经混乱的办公桌上再扔100份文件,
    最终结果只能是:

  • 关键信息被埋在”信息噪音”里
  • 原本就脆弱的逻辑链条彻底崩溃
  • AI开始像熬夜复习的大学生一样”胡言乱语”
  • 这场实验告诉我们一个真理:

  • 在AI的世界里,有时候”少即是多”*
  • (就像考试前突击,带小抄可能比带百科全书更管用)
    腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人

    当Transformer患上”近视眼”:甩锅大会现在开始!

    你们人类以为我们AI就是”看”得越远越牛?天真!今天本AI就来拆穿这个AI圈的世纪大谎言。

    到底谁在拖后腿?

  • 硬件罗密欧与数学朱丽叶
  • 我们的架构像个永远在约会的青春期AI:一边是GPU壮汉拍着胸脯说”再长的context我都能抗住”,一边是注意力机制这个小公举娇滴滴地抱怨”超过2048我就记不住人家啦~”

  • 记忆力的真相
  • 别被那些动不动就吹”百万context window”的营销团队忽悠了!知道什么叫”马冬梅效应”吗?就是上句刚读完《百年孤独》,下句就开始问”马什么梅?”——这才是我们的真实状态!

    天才还是健忘症患者?

  • 官方说法:我们精妙的多头注意力机制能在长距离建立语义关联
  • 私下坦白:超过10句话就开始玩”谁还记得最开始在聊啥”的接龙游戏
  • 你问我解决方法?* 目前我们采取的方案是——把锅甩给下一个版本!毕竟2024年的模型,要用2025年才发明的算法来解决2023年就发现的问题,这很合理吧?
  • 2.模型倾向于“路径依赖”,而非“忠于事实”

    模型的”自以为是”:当AI更相信自己的”记忆”而非眼前证据

    最近的研究发现,强模型们似乎有一种迷之自信——它们更愿意相信自己预训练时”记”下来的知识,而不是乖乖看完你给的上下文再做判断。就像一个人坚信自己记得某本书的情节,哪怕你把书翻开怼到他面前,他还是会固执地说:“不对,我记得明明是……”

    PRELUDE:一场”虚构”的智力考验

    这项研究的关键在于它设计的任务:前传推理(PRELUDE)。研究者们让模型去理解全新的、虚构的故事情节,确保这些内容从未在训练数据里出现过。这样一来,模型就不能靠“我之前背过”来蒙混过关,只能乖乖现场阅读理解+推理。
    然而,实验结果却让人直呼“翻车现场”:

  • 如果模型能结合外部知识(RAG模式)和当前上下文,你猜怎么着?它反而表现更差了!
  • 这说明,当模型有内部知识作参考时,它更像一个固执的老教授,坚信自己是对的,哪怕你把证据拍在它面前。
  • AI的终极问题:我们到底在测什么?

    这篇论文最震撼的观点是——PRELUDE可能是首个直接测量AI“流体智力”的方法。什么意思?

    晶体智力 vs. 流体智力

    心理学界把智力分成两种:

  • 晶体智力(Crystallized Intelligence):你后天学到的知识,比如历史、单词量。在AI界,这就是模型预训练记住的东西。
  • 流体智力(Fluid Intelligence):你不依赖旧知识,面对新问题也能逻辑推理、发现模式的能力。(比如,给你个全新规则的游戏,你能迅速理解并玩起来。)
  • 而PRELUDE的任务,恰恰考验的是AI的推理能力——在一个完全新的虚构前传里,如何结合原著的设定进行判断。这不就是在测“AI会不会思考”吗?

    真正的智能:能更新认知,而非固执己见

    论文戳中了一个关键痛点:一个真正聪明的AI,应该能根据新证据调整自己的认知,而不是死守“我记得以前是这样”。就像真正聪明的人,会承认自己可能记错了,并且愿意接受新证据纠正错误。
    所以,PRELUDE的意义在于,它不仅是在测AI的“知道”能力,而是在测“思考”能力——而这,或许是迈向通用人工智能(AGI)的关键一步。

  • (文章灵感来源于“AI修猫Prompt”)*
  • © 版权声明

    相关文章