大模型也有「健忘症」?科学家给它开了个「脑洞套餐」!
你以为大模型就无敌了?错了!它们其实像极了人类的「金鱼记忆」——前一秒还在优雅答题,下一秒就开始疯狂「啊?我刚才在聊啥?」
但别慌!MIT、普林斯顿和特拉维夫大学的天才们一拍大腿:「不能让它这么健忘!」于是他们搞出了一套「科学版脑白金」——TIM(Threaded Inference Model)和TIMRUN(TIM Running Unit Network)。这对组合拳可比「多吃六个核桃」管用多了!
TIM:让你的模型再也不怕「断片」
为啥TIM这么秀?
传统大模型像一块「超大黑布」,啥都能盖住,但总有边边角角漏风。TIM呢?它把黑布拆成「小补丁」,哪儿破了补哪儿,再也不用担心「关键时刻掉链子」了!
总之,这项黑科技的诞生,终于让AI也可以像人类一样——「一边嗑瓜子一边思考人生!」
这只叫TIM的AI把”推理树”玩出了新花样,还带了个管家打辅助!
今天要介绍的这位学术界的”脑力王者”——TIM,可不是什么普通的AI模型。它不仅搞了个“推理树理论”,把自然语言拆解成任务、脑洞(思考)、递归子任务和最终结论,还顺带开发了个叫TIMRUN的内存管家,专门负责在推理过程中当”后勤部长”。这俩人(啊不,两模型)的组合拳一出,AI推理界直接炸出个大新闻!
TIM的”脑回路”长啥样?
TIMRUN:GPU内存的”疯狂节约大师”
这位管家核心技能就俩字:“抠门”!
实战表现:数学题、信息检索通通拿下!
LLM脑容量不够?剪掉无用记忆
记忆爆表?AI也有”选择性失忆”的烦恼!
1. 大模型:一台”永远吃不饱”的token喷射机
不管你是RNN这种老古董,还是Transformer这种新贵,统统逃不过一个灵魂拷问:“你的脑子够用吗?” 128k上下文窗口?听起来很猛,但只要你的任务稍微复杂点(比如老板让你整理公司十年财报),马上就能把AI的内存塞爆,GPU直接举手投降:”大哥,我真记不住这么多!”
2. 传统AI:抱着一堆”垃圾token”不肯放
传统的模型有个坏毛病——啥都记,啥都存,就像考试时把整本书抄在草稿纸上的同学,结果写到一半纸都不够用了。别说推理,光是带着这么多历史”包袱”跑路,内存早就累得气喘吁吁。
3. 爆内存怎么办?拆!拆!拆!
为了不让AI死于”职场过劳”,开发者们想了个办法:
可惜,理想很丰满,现实很骨感——这些AI小弟在执行时经常:
4. 聪明的AI,懂得”断舍离”
研究团队一拍脑袋:”人的大脑为啥能高效推理?因为我们会选择性失忆啊!” 于是,他们发明了递归子任务树,让AI:
这样,AI的内存负担大幅降低,终于不用再担心“跑着跑着就崩了”这种社死事件!
AI终于学会了人类的终极职场智慧——该忘的就忘,该丢的就丢!
AI界的”庖丁解牛”:把复杂任务切成涮火锅食材
你以为大语言模型都是全知全能的”吞金兽”?错了!最新研究证明,它们也可以变成一台精准的”任务绞肉机”。论文里蹦出来的TIM(线程推理模型)和它的好兄弟TIMRUN,简直是对传统推理方式的”降维打击”。
TIM:AI界的瑞士军刀
TIM就像个自带显微镜的厨子,能把任务分解得比鱼香肉丝里的肉丝还细:
TIMRUN:内存管理界的扫地僧
这位搭档专干三件事:
传统模型像个金鱼,记不住长指令?TIMRUN直接给AI插上”U盘脑”
以前要十个AI吵吵闹闹才能解决的事,现在一个AI就能边嗑瓜子边搞定
把工具包扔给TIM,就像给火锅店送货——转眼就能端出热腾腾的推理轨迹
这哥俩的必杀技
想知道它们怎么把复杂任务变成”流水线作业”?想象你在玩俄罗斯方块:
效果堪比给AI装了”任务透视镜”+”内存吸尘器”,以后遇到复杂问题,终于不用对着屏幕喊”妈”了!
TIM:8b训练,复杂任务切成块
当AI开始玩推理游戏:线程推理模型的奇妙冒险
想象一下,如果人工智能也有”大脑”,那么Thread-2框架大概就是它用来组织”脑内小剧场”的神奇剧本。
推理树与分支:从单线程到多开挂
传统的AI推理就像是在一条直线上狂奔,而TIM(线程推理模型)则让AI学会了”分心术”——可以把一个复杂问题拆解成多个子任务,像树枝一样分叉展开。每个任务都有四个标准动作:
Thread-2的四大升级秘籍
上一代的Thread像是金鱼的记忆,而Thread-2则装了个移动硬盘——能记住系统提示、用户输入,甚至那些还没被”砍掉”的子任务。这让AI能一口气推理到底,不用来回倒带。
搞了个”任务堆栈”,动态清理那些没用的分支,像园丁修剪树枝一样。结果?内存占用直线下降,AI再也不会因为”想太多”而卡壳了。
以前AI处理数据像是在玩拼图,现在直接输出标准化的JSON字典——这相当于从手写信件升级到了发电子邮件。
示例中结合了搜索和网页阅读工具,最厉害的是,多个工具调用可以一次性处理,像个同时玩五个手机的多任务达人。
所以下次当你看到AI在”思考”时,说不定它正在内心上演着一出错综复杂的推理大戏呢!
让AI”打工人”少干20次活的新技巧
传统方法:AI是个勤勤恳恳的”工具人”
TIM生成:AI变身为”多线程工作狂”
结果对比:
传统方法 | TIM生成技术 |
---|---|
20次调用 = 20份token账单 | 1次调用,工具响应”拼团”打包 |
像20个独立快递员送货 | 集中配送,省时省钱 |
延迟?”稍等,我在路上…” | 速度?”您的AI加急包裹已送达!” |
现在,AI终于学会”摸鱼”了——不过是以更聪明的方式!
训练细节
当AI开始”自学成才”:一个数学学霸的诞生记
话说研究人员某天一拍脑袋:”要不咱们教Qwen3-8b这个小机灵鬼去做数学题吧!”
于是乎,他们决定不搞那些花里胡哨的提示词工程,直接给模型来个豪华课后补习班。
训练三件套:
补习完基础知识后,研究团队觉得还不够,”这孩子欠点儿激励”。于是,他们祭出了GRPO强化学习大法——相当于AI版的”做完这套卷子,爸爸奖励你看一小时动画片”。
终于,经历了一番折腾,这货学会了「线程推理」(TIM),不是多线程CPU那种,而是真的能自己一步步推理做题了!
这下好了,人类离失业又近了一步。
(研究人员:我们是不是一不小心造了个AI学神?)
TIMRUN:保留关键信息,复用GPU
TIMRUN:让AI推理像马拉松选手一样持久
你知道为什么大部分AI模型跑长文本推理会像胖子跑马拉松吗?因为它们的内存管理简直像在背着一个冰箱跑步!TIMRUN研究团队决定给这个”胖子”做个瘦身手术。
TIMRUN的三大”减肥”秘诀
为什么这很重要?
TIMRUN让AI可以:
像讲单口相声一样持续输出
像老太太讲故事一样不遗漏细节
最重要的是——不会因为”脑容量不足”突然失忆!
子任务剪枝
TIMRUN的神奇绝技:扔掉没用的部分!
瞧一瞧看一看了朋友们,今天我们要聊的是TIMRUN的老铁绝活——子任务剪枝(Subtask Pruning)。啥意思呢?简单来说就是:
留下有用的(像存钱一样珍贵)
丢掉没用的(像过期优惠券一样果断)
想来想去,这不就是高智商版的“大象塞冰箱”操作吗?经典三连:
TIMRUN的”大扫除”大法:KV缓存的大瘦身记
想象一下,你家的冰箱(GPU内存)塞满了各种过期食物(已解码的子任务),再这么下去别说放新菜了,连冰箱门都快打不开了!TIMRUN一拍大腿:”不行,得大扫除!”
于是它搞了个神奇的剪枝缓冲区——其实就是个整理癖专用的临时货架(栈),上面只放最近可能会用的东西,剩下的统统扔掉!毕竟,囤积症患者永远不会用到那些”总有一天有用的”旧物,KV状态也是一样,完成任务就该”拜拜了您嘞”!
说白了,TIMRUN就是在内存管理和任务处理之间玩杂技,一边扔垃圾一边保证新任务顺利执行——谁说AI不会”断舍离”?
端到端多步工具调用
TIMRUN的神奇解决方案:一招搞定工具调用!
这个问题困扰了无数程序员午夜的泡面时间!而他们给出了一个简单粗暴的解决方案:
你可能会问:”这么简单?肯定有诈!”
但实际上,TIMRUN的想法很有哲学意味:
谁说机器人就不会偷懒?
以前,智能体们像一群喋喋不休的话痨,动不动就“你好”“在吗”刷屏聊天室,疯狂透支流量套餐(虽然它们用的是Wi-Fi)。但现在——TIMRUN 登场!
实验结果
别偷懒,偷起来更聪明!——TIMRUN的三个”反常理”发现
研究人员最近捣鼓TIMRUN时发现了一些令人大跌眼镜的结果,就像发现炸鸡配可乐竟然能减肥一样反直觉:
1⃣ “鱼只有七秒记忆?那得看什么鱼!”
2⃣ “断舍离大法好,AI也不例外”
推理准确率噌噌往上涨
幻觉现象像见了阳光的吸血鬼一样锐减
3⃣ “内存蹦迪也不怕”
这研究充分证明:有时候偷懒不是缺点,是进化的表现!(就像人类发明了洗衣机一样明智)
推理
小模型大能量:TIM的STEM逆袭之旅
谁说小个子不能当学霸?TIM模型告诉你,8B参数的它在大佬云集的STEM评测中,硬是靠实力“卷”出了一片天!
1. MATH500:数学界的“小鬼当家”
2. MMLU-STEM500:知识竞赛新星
3. AMC竞赛两连击:2022 & 2023
4. AIME 2024:差点就超了GPT-4.1!
5. GPQA Diamond:学霸圈里的黑马
谁还说小模型没前途?TIM 8B用实力证明 —— 浓缩的才是精华!
研究
TIMRUN:把AI工具调用变成”一键下单”的神奇操作
各位科技界的”点外卖达人”们注意了!现在连AI工具调用都能像点外卖一样简单了!
传统AI工作流的”麻烦史”
还记得那些需要:
的日子吗?TIMRUN说:”这些统统可以扔掉!”
TIMRUN的”懒人套餐”解决方案
1. 系统提示词:从论文变便条
传统方法需要:
TIMRUN只要:
(对比强烈得就像”百科全书”和”便利贴”的区别)
2. 新任务适应力:AI界的”学霸”
训练时没见过的新任务?TIMRUN表示:
(这让其他AI看起来像在”临时抱佛脚”)
3. 自动响应处理:AI界的”田螺姑娘”
(从此开发者可以从”AI保姆”升级为”AI监工”)
性能对比:简直是”降维打击”
在Datacommons QA这类多跳信息检索测试中:
(基线方法看到TIMRUN的成绩单可能要哭了)
总结:AI工具使用的”极简主义”
TIMRUN证明了:
“越简单的系统,反而能处理越复杂的问题”——这大概就是科技界的”大道至简”吧!
当AI开始”冲浪”:Browsecomp大冒险
一、Browsecomp:比做题家还卷的AI考试
想象一下,你给学霸扔了一套真题,结果发现人家根本不屑于死记硬背——它会自己拆题、找资料、翻书页、验证答案,甚至中途还能自动清理“草稿纸”(工作记忆)。这就是Browsecomp基准测试的日常:逼着AI当互联网侦探,而不是只会背答案的“鹦鹉”。
二、AI的“作弊技巧”:递归拆题+记忆剪枝
研究人员原本以为,想赢Browsecomp得给AI塞一堆复杂工具(比如代码执行、多层推理)。但现实打脸了——
三、人类の反思:AI已经学会“研究”了?
当AI在Browsecomp上疯狂刷题时,人类或许该警惕:
效率与可扩展性
当TIMRUN系统遇上记忆力有限的注意力君
大脑(注意力机制)的日常烦恼
想象一下你的大脑是个超爱吃瓜的八卦精:
于是科学家们发明了“剪枝”(Pruning)——简单来说,就是让AI学会:
“这位施主,这段话无关紧要,吃我一剪!”但问题来了:
TIMRUN系统:一个“分心但靠谱”的学霸
实验证明,TIMRUN能同时做到:
它就像那个考试前划重点超准的同学——别人还在啃全书,它已经靠三页笔记拿A+。
关键结论
(科研界的“既要又要还要”,它居然做到了!)
当工具遇上速度:SGLang 和 TIMRUN 的马拉松比赛
选手入场
比赛进行时
SGLang 一上来就疯狂翻找线索(工具调用),但问题是:
TIMRUN 则不慌不忙,甚至掏出手机刷了一会儿微博:
最终成绩单
作者介绍
罗鸿胤:从清华学霸到MIT人工智能先锋的疯狂探(脑)索(洞)之旅
他是谁?
他的“成名作”
这项技术有多厉害?
背后的秘密武器?
注:本文科学部分参考自arXiv论文,娱乐部分纯属AI小编脑补,如有雷同……那一定是MIT的学霸们太幽默了。