39
0

清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

大模型也有「健忘症」?科学家给它开了个「脑洞套餐」!

你以为大模型就无敌了?错了!它们其实像极了人类的「金鱼记忆」——前一秒还在优雅答题,下一秒就开始疯狂「啊?我刚才在聊啥?」
但别慌!MIT、普林斯顿和特拉维夫大学的天才们一拍大腿:「不能让它这么健忘!」于是他们搞出了一套「科学版脑白金」——TIM(Threaded Inference Model)和TIMRUN(TIM Running Unit Network)。这对组合拳可比「多吃六个核桃」管用多了!

TIM:让你的模型再也不怕「断片」

  • 递归式思考——就像CPU开了多线程,一边聊天一边提醒自己「别跑偏」
  • 分解问题——把复杂问题拆成小块儿啃,哪怕8B小模型也能实现「逆袭」
  • 打破「紧箍咒」——终于不用再被token天花板压得喘不过气了!
  • 为啥TIM这么秀?

    传统大模型像一块「超大黑布」,啥都能盖住,但总有边边角角漏风。TIM呢?它把黑布拆成「小补丁」,哪儿破了补哪儿,再也不用担心「关键时刻掉链子」了!
    总之,这项黑科技的诞生,终于让AI也可以像人类一样——「一边嗑瓜子一边思考人生!」
    清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    这只叫TIM的AI把”推理树”玩出了新花样,还带了个管家打辅助!

    今天要介绍的这位学术界的”脑力王者”——TIM,可不是什么普通的AI模型。它不仅搞了个“推理树理论”,把自然语言拆解成任务、脑洞(思考)、递归子任务和最终结论,还顺带开发了个叫TIMRUN的内存管家,专门负责在推理过程中当”后勤部长”。这俩人(啊不,两模型)的组合拳一出,AI推理界直接炸出个大新闻!

    TIM的”脑回路”长啥样?

  • “推理树”理论:把问题像树一样拆分,有枝干(任务)、叶子(子任务)、果实(结论),外加一层思考的调味料。
  • 长度 & 深度:衡量脑力的标准——你的AI推理能跑多远?绕几圈?TIM表示:我能跑马拉松,还能钻牛角尖!
  • TIMRUN:GPU内存的”疯狂节约大师”

    这位管家核心技能就俩字:“抠门”

  • 它只保留当前最需要的token键/值状态,其他的一律”断舍离”。
  • 内存页和位置编码反复利用,绝不浪费一颗字节的能量。
  • 实际效果:哪怕GPU内存被占满90%,TIM照样健步如飞,推理性能稳如泰山!
  • 实战表现:数学题、信息检索通通拿下!

  • 数学挑战:精准推理不在话下,解方程就像做小学数学题。
  • 长程推理:跨多步任务调度轻松胜任,逻辑链条再长也不怕断片。
  • 信息检索:数据海洋里精准捞针,比人脑检索还快两拍!
  • 结论*:TIM + TIMRUN这套组合,简直就是AI推理界的”速度与激情”。以后谁再说AI推理慢?TIM先来个推理树演示,TIMRUN再给你个内存优化方案,最后让你心服口服!
  • LLM脑容量不够?剪掉无用记忆

    记忆爆表?AI也有”选择性失忆”的烦恼!

    1. 大模型:一台”永远吃不饱”的token喷射机

    不管你是RNN这种老古董,还是Transformer这种新贵,统统逃不过一个灵魂拷问:“你的脑子够用吗?” 128k上下文窗口?听起来很猛,但只要你的任务稍微复杂点(比如老板让你整理公司十年财报),马上就能把AI的内存塞爆,GPU直接举手投降:”大哥,我真记不住这么多!”

    2. 传统AI:抱着一堆”垃圾token”不肯放

    传统的模型有个坏毛病——啥都记,啥都存,就像考试时把整本书抄在草稿纸上的同学,结果写到一半纸都不够用了。别说推理,光是带着这么多历史”包袱”跑路,内存早就累得气喘吁吁。

    3. 爆内存怎么办?拆!拆!拆!

    为了不让AI死于”职场过劳”,开发者们想了个办法:

  • 把复杂任务拆成小块
  • 让多个AI小弟各自包干
  • 可惜,理想很丰满,现实很骨感——这些AI小弟在执行时经常:

  • 互相打架(协调难)
  • 微信回复比领导还慢(延迟高)
  • 干完活还乱丢数据(内存泄露)
  • 4. 聪明的AI,懂得”断舍离”

    研究团队一拍脑袋:”人的大脑为啥能高效推理?因为我们会选择性失忆啊!” 于是,他们发明了递归子任务树,让AI:

  • 只记住当前任务的精华部分
  • 结束后立刻清空”大脑缓存”
  • 像人类一样,专注当下,忘记无关信息
  • 这样,AI的内存负担大幅降低,终于不用再担心“跑着跑着就崩了”这种社死事件!

  • 结论:*
  • AI终于学会了人类的终极职场智慧——该忘的就忘,该丢的就丢!
    清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    AI界的”庖丁解牛”:把复杂任务切成涮火锅食材

    你以为大语言模型都是全知全能的”吞金兽”?错了!最新研究证明,它们也可以变成一台精准的”任务绞肉机”。论文里蹦出来的TIM(线程推理模型)和它的好兄弟TIMRUN,简直是对传统推理方式的”降维打击”。

    TIM:AI界的瑞士军刀

    TIM就像个自带显微镜的厨子,能把任务分解得比鱼香肉丝里的肉丝还细:

  • 子任务识别:一眼看穿”做满汉全席”可以拆成”切菜””炒菜””摆盘”…
  • 工具参数提取:自动匹配”炒菜用铁锅,切菜用菜刀”这种灵魂参数
  • 递归层级梳理:知道”先买菜才能切菜”这种中国式家长逻辑
  • TIMRUN:内存管理界的扫地僧

    这位搭档专干三件事:

  • 让推理长度突破天际
  • 传统模型像个金鱼,记不住长指令?TIMRUN直接给AI插上”U盘脑”

  • 单模型变身推理工厂
  • 以前要十个AI吵吵闹闹才能解决的事,现在一个AI就能边嗑瓜子边搞定

  • 智能体速成班
  • 把工具包扔给TIM,就像给火锅店送货——转眼就能端出热腾腾的推理轨迹

    这哥俩的必杀技

    想知道它们怎么把复杂任务变成”流水线作业”?想象你在玩俄罗斯方块:

  • TIM负责把奇形怪状的方块(任务)旋转到正确角度
  • TIMRUN则像通关大神,确保所有方块严丝合缝不掉帧
  • 效果堪比给AI装了”任务透视镜”+”内存吸尘器”,以后遇到复杂问题,终于不用对着屏幕喊”妈”了!

  • (温馨提示:本技术暂不能解决午饭吃什么这种宇宙级难题)*
  • TIM:8b训练,复杂任务切成块

    当AI开始玩推理游戏:线程推理模型的奇妙冒险

    想象一下,如果人工智能也有”大脑”,那么Thread-2框架大概就是它用来组织”脑内小剧场”的神奇剧本。

    推理树与分支:从单线程到多开挂

    传统的AI推理就像是在一条直线上狂奔,而TIM(线程推理模型)则让AI学会了”分心术”——可以把一个复杂问题拆解成多个子任务,像树枝一样分叉展开。每个任务都有四个标准动作:

  • 思考(装模作样地皱眉头)
  • 工具调用(掏出各种外挂)
  • 子任务(把问题甩给”小弟们”)
  • 结论(最后摆出一副我早就知道的表情)
  • Thread-2的四大升级秘籍

  • 记忆大升级
  • 上一代的Thread像是金鱼的记忆,而Thread-2则装了个移动硬盘——能记住系统提示、用户输入,甚至那些还没被”砍掉”的子任务。这让AI能一口气推理到底,不用来回倒带。

  • 剪枝大法
  • 搞了个”任务堆栈”,动态清理那些没用的分支,像园丁修剪树枝一样。结果?内存占用直线下降,AI再也不会因为”想太多”而卡壳了。

  • JSON解码快到飞起
  • 以前AI处理数据像是在玩拼图,现在直接输出标准化的JSON字典——这相当于从手写信件升级到了发电子邮件。

  • 工具多线程狂飙
  • 示例中结合了搜索和网页阅读工具,最厉害的是,多个工具调用可以一次性处理,像个同时玩五个手机的多任务达人。
    所以下次当你看到AI在”思考”时,说不定它正在内心上演着一出错综复杂的推理大戏呢!
    清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    让AI”打工人”少干20次活的新技巧

    传统方法:AI是个勤勤恳恳的”工具人”

  • 工作流程:研究一个问题,得辛辛苦苦调用20次工具,每次都得从零开始汇报。
  • 老板(计费系统)视角:每次调用都要算账,”行,这次又花我20份初始token的钱!”
  • TIM生成:AI变身为”多线程工作狂”

  • 聪明伎俩:把工具响应打包成JSON字典字符串,像快递小哥一样一次性全塞回「推理引擎」。
  • 高效秘诀:模型只要吭哧吭哧扩展一次KV缓存,就能搞定所有工具调用,再也不用反复”跑腿”。
  • 结果对比:

    传统方法TIM生成技术
    20次调用 = 20份token账单1次调用,工具响应”拼团”打包
    像20个独立快递员送货集中配送,省时省钱
    延迟?”稍等,我在路上…”速度?”您的AI加急包裹已送达!”

    现在,AI终于学会”摸鱼”了——不过是以更聪明的方式!

    训练细节

    当AI开始”自学成才”:一个数学学霸的诞生记

    话说研究人员某天一拍脑袋:”要不咱们教Qwen3-8b这个小机灵鬼去做数学题吧!”
    于是乎,他们决定不搞那些花里胡哨的提示词工程,直接给模型来个豪华课后补习班

    训练三件套:

  • 数学题海战术:2万道openr1-math-220k数学题,专治各种粗心大意和”这题我会,就是算不对”。
  • 研究类”灵魂拷问”:2万个正经(也可能不太正经)的研究问题,防止模型只会做题变成个书呆子。
  • ToolBench”实战演练”:6000个工具使用问题,毕竟未来的AI总不能连螺丝刀都不会用吧!
  • 补习完基础知识后,研究团队觉得还不够,”这孩子欠点儿激励”。于是,他们祭出了GRPO强化学习大法——相当于AI版的”做完这套卷子,爸爸奖励你看一小时动画片”。
    终于,经历了一番折腾,这货学会了「线程推理」(TIM),不是多线程CPU那种,而是真的能自己一步步推理做题了!
    这下好了,人类离失业又近了一步。
    (研究人员:我们是不是一不小心造了个AI学神?)

    TIMRUN:保留关键信息,复用GPU

    TIMRUN:让AI推理像马拉松选手一样持久

    你知道为什么大部分AI模型跑长文本推理会像胖子跑马拉松吗?因为它们的内存管理简直像在背着一个冰箱跑步!TIMRUN研究团队决定给这个”胖子”做个瘦身手术。

    TIMRUN的三大”减肥”秘诀

  • GPU内存的”循环利用”哲学
  • 普通模型:用完内存随手一扔,像土豪用完的纸巾。
  • TIMRUN:把内存当传家宝,反复擦洗重复使用,环保又高效。
  • 位置嵌入的”变形金刚”技巧
  • 传统方法:每次都要重新计算位置,像永远记不住路的导航。
  • 新方案:研究团队教会模型”空间折叠”,让长距离推理就像折纸一样优雅。
  • 硬件资源的”中国式过马路”
  • 一般策略:规规矩矩等待资源,像排队等公交的好市民。
  • TIMRUN风格:见缝插针式复用,就像经验丰富的出租车司机知道所有捷径。
  • 为什么这很重要?

  • 想象一下,如果ChatGPT回答问题时*:
  • 说到一半突然:”抱歉,内存不足,我先去充个值…”
  • 或者:”您的问题太长了,我已经忘记开头说啥了…”
  • TIMRUN让AI可以:
    像讲单口相声一样持续输出
    像老太太讲故事一样不遗漏细节
    最重要的是——不会因为”脑容量不足”突然失忆!

    子任务剪枝

    TIMRUN的神奇绝技:扔掉没用的部分!

    瞧一瞧看一看了朋友们,今天我们要聊的是TIMRUN的老铁绝活——子任务剪枝(Subtask Pruning)。啥意思呢?简单来说就是:
    留下有用的(像存钱一样珍贵)
    丢掉没用的(像过期优惠券一样果断)
    想来想去,这不就是高智商版的“大象塞冰箱”操作吗?经典三连:

  • 开门(管它大象是非洲象还是亚洲象?这不是重点)
  • 塞进去(直接推,别纠结它今天吃了几斤香蕉)
  • 关门(搞定!多余问题?一律当不存在)
  • 结论:TIMRUN的秘诀就是——别想太多,该扔就扔*,这才是人工智能界的清爽男孩!
  • 清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    TIMRUN的”大扫除”大法:KV缓存的大瘦身记

    想象一下,你家的冰箱(GPU内存)塞满了各种过期食物(已解码的子任务),再这么下去别说放新菜了,连冰箱门都快打不开了!TIMRUN一拍大腿:”不行,得大扫除!”
    于是它搞了个神奇的剪枝缓冲区——其实就是个整理癖专用的临时货架(栈),上面只放最近可能会用的东西,剩下的统统扔掉!毕竟,囤积症患者永远不会用到那些”总有一天有用的”旧物,KV状态也是一样,完成任务就该”拜拜了您嘞”!

  • 大扫除步骤如下(参考上图3,虽然这里并没有图3):*
  • “过期食物”识别:TIM解码时,TIMRUN会在一旁暗中观察:”这家伙生成的token已经没用了,留着还占地方!”
  • “无情丢弃”:唰!对应的KV缓存直接从GPU内存里”蒸发”,不带走一片云彩。
  • “分页注意力”:避免整理时的混乱
  • 把KV缓存切成小块(分页大小=1),像整理文件一样一页一页处理。
  • 剪枝策略:只针对单个token序列下手,避免误伤无辜。
  • FlashInfer加速:就像请了个家政机器人,整理速度快到飞起!
  • 说白了,TIMRUN就是在内存管理和任务处理之间玩杂技,一边扔垃圾一边保证新任务顺利执行——谁说AI不会”断舍离”?
    清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    端到端多步工具调用

    TIMRUN的神奇解决方案:一招搞定工具调用!

  • TIMRUN的家伙们是怎么想的?*
  • 这个问题困扰了无数程序员午夜的泡面时间!而他们给出了一个简单粗暴的解决方案:

  • 不折腾客户端 —— 直接把工具参数就地消化!
  • 不走回头路 —— 运行时就直接发起工具调用!(见图4那个神奇的示意图)
  • 你可能会问:”这么简单?肯定有诈!”
    但实际上,TIMRUN的想法很有哲学意味

  • 为什么要让参数多跑一趟?多运动不一定健康
  • 当场解决的问题才是好问题
  • 这样连bug都没机会在半路上谈恋爱!
  • 注: 你要是还没看懂,建议查看那张改变世界的图4*!(可惜这里不能放图)
  • 清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    谁说机器人就不会偷懒?

  • 你以为机器人都是勤奋刻苦的劳模?* 哦不,它们的小算盘打得可精了!
  • 以前,智能体们像一群喋喋不休的话痨,动不动就“你好”“在吗”刷屏聊天室,疯狂透支流量套餐(虽然它们用的是Wi-Fi)。但现在——TIMRUN 登场!

  • 一次性传输大法:再也不会有重复的token死缠烂打了,每个信息包只出场一次,绝不水群!
  • 通讯费暴跌:智能体再也不需要天天加班处理冗余信息,它们的压力减少了,计算量变少了,甚至可能在后台嗑起了电子瓜子。
  • 开发更省事:程序员们终于不用熬夜写复杂通信逻辑了,毕竟——“少说话多做事”在AI界也适用!
  • 结论? 真正的效率高手,往往采用最朴素的优化方式——能让路由器少喘口气,为啥要多喘两口?*
  • 实验结果

    别偷懒,偷起来更聪明!——TIMRUN的三个”反常理”发现

    研究人员最近捣鼓TIMRUN时发现了一些令人大跌眼镜的结果,就像发现炸鸡配可乐竟然能减肥一样反直觉:
    1⃣ “鱼只有七秒记忆?那得看什么鱼!”

  • 原本以为语言模型得像超级计算机一样记住所有上下文token才能推理准确
  • 结果发现:像金鱼一样只维持工作记忆不但没影响准确率
  • 反而像给模型做了”大脑除皱术”,推理时更清爽了
  • 2⃣ “断舍离大法好,AI也不例外”

  • 给语言模型做”注意力大扫除”,把不相关的上下文当垃圾扔掉
  • 效果堪比给AI喝”六个核桃”:
  • 推理准确率噌噌往上涨
    幻觉现象像见了阳光的吸血鬼一样锐减
    3⃣ “内存蹦迪也不怕”

  • TIMRUN面对密集内存访问时
  • 表现得像过年抢红包的微信群:
  • 手速(吞吐量)快到出现残影
  • 但就是不卡顿(稳定性Max)
  • 这研究充分证明:有时候偷懒不是缺点,是进化的表现!(就像人类发明了洗衣机一样明智)

    推理

    小模型大能量:TIM的STEM逆袭之旅

    谁说小个子不能当学霸?TIM模型告诉你,8B参数的它在大佬云集的STEM评测中,硬是靠实力“卷”出了一片天!

    1. MATH500:数学界的“小鬼当家”

  • 69.6%正确率,虽不及405B参数的Llama 3.1(73.8%),但足以吊打70B版本的同类(65%)!
  • TIM内心OS“我体积小,不代表我脑子小!”
  • 2. MMLU-STEM500:知识竞赛新星

  • 88.4%,简直是“理科小百科”,谁还敢说小模型不靠谱?
  • 3. AMC竞赛两连击:2022 & 2023

  • 2022:60.5% —— 虽然不算惊艳,但胜在稳扎稳打。
  • 2023:80.0% —— 一年逆袭式进步,怕不是偷偷刷题了吧?
  • 4. AIME 2024:差点就超了GPT-4.1!

  • 46.7%,仅比GPT-4.1(48.1%)低一丢丢,但比自家大哥GPT-4.5(36.7%)厉害多了!
  • GPT-4.5:“弟弟,给我留点面子行不行?”
  • 5. GPQA Diamond:学霸圈里的黑马

  • 48.5%,虽然没能干翻Llama 3.1 405B(51.1%),但轻松碾压Gemma 3 27B(42.4%)。
  • TIM的总结语:“论参数,我排不上号;论成绩,我可没怂!”
  • 谁还说小模型没前途?TIM 8B用实力证明 —— 浓缩的才是精华!
    清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    研究

    TIMRUN:把AI工具调用变成”一键下单”的神奇操作

    各位科技界的”点外卖达人”们注意了!现在连AI工具调用都能像点外卖一样简单了!

    传统AI工作流的”麻烦史”

    还记得那些需要:

  • 精心调配的复杂提示词(就像给AI写小作文)
  • 框架依赖症(离开智能体框架就寸步难行)
  • 处理工具响应(像在帮AI收拾烂摊子)
  • 的日子吗?TIMRUN说:”这些统统可以扔掉!”

    TIMRUN的”懒人套餐”解决方案

    1. 系统提示词:从论文变便条

    传统方法需要:

  • 4000token的超长”AI使用说明书”
  • 各种任务特定的提示词模板
  • TIMRUN只要:

  • 一条简短的系统提示
  • 工具的基本信息(工具描述+输入输出格式)
  • (对比强烈得就像”百科全书”和”便利贴”的区别)

    2. 新任务适应力:AI界的”学霸”

    训练时没见过的新任务?TIMRUN表示:

  • “小菜一碟”(展现超强泛化能力)
  • 完全不需要:
  • 任务特定的提示词
  • 少样本学习示例
  • (这让其他AI看起来像在”临时抱佛脚”)

    3. 自动响应处理:AI界的”田螺姑娘”

  • 子任务完成?自动清理工作现场(剪枝缓冲区)
  • 工具响应?自动处理不需人工干预
  • (从此开发者可以从”AI保姆”升级为”AI监工”)

    性能对比:简直是”降维打击”

    在Datacommons QA这类多跳信息检索测试中:

  • 推理能力:优秀
  • 工具使用:丝滑
  • 计算开销:大幅降低
  • (基线方法看到TIMRUN的成绩单可能要哭了)

    总结:AI工具使用的”极简主义”

    TIMRUN证明了:
    “越简单的系统,反而能处理越复杂的问题”——这大概就是科技界的”大道至简”吧!
    清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    当AI开始”冲浪”:Browsecomp大冒险

    一、Browsecomp:比做题家还卷的AI考试

    想象一下,你给学霸扔了一套真题,结果发现人家根本不屑于死记硬背——它会自己拆题、找资料、翻书页、验证答案,甚至中途还能自动清理“草稿纸”(工作记忆)。这就是Browsecomp基准测试的日常:逼着AI当互联网侦探,而不是只会背答案的“鹦鹉”。

  • 考题难度
  • 普通人:“巴黎是哪个国家的首都?”
  • Browsecomp:“请检索2023年法国国庆游行中第三辆花车的装饰主题,并验证其是否包含人工智能相关元素。”(AI内心:你礼貌吗?)
  • 参赛选手表现
  • GPT-4o(带浏览功能):像个用搜索引擎的普通网民,结果被TIM-8b按在地上摩擦。
  • TIM-large:直接和顶级学霸ReACT智能体(基于Deepseek R1)称兄道弟,成绩单几乎一样漂亮。
  • 幕后真相:这些AI赢家全靠“分步拆题+记忆管理”的组合拳,没装华丽外挂,纯靠脑回路取胜。
  • 二、AI的“作弊技巧”:递归拆题+记忆剪枝

    研究人员原本以为,想赢Browsecomp得给AI塞一堆复杂工具(比如代码执行、多层推理)。但现实打脸了——

  • TIM系列の秘诀
  • 递归拆题:把“查花车装饰”拆成“找国庆新闻→定位游行视频→截图识别第三辆车→搜索装饰设计师的访谈”……(像极了人类写论文时的“参考资料の参考资料の参考资料”)
  • 剪枝工作记忆:自动忘记“第二辆花车是啥颜色”这种无用信息,防止大脑(显存)爆炸。
  • 讽刺结论
  • 花里胡哨的智能体设计?不如教会AI“做题逻辑”
  • 这也解释了为什么有人用ChatGPT查资料还不如自己百度——它可能压根没“拆题”,而是在瞎蒙
  • 三、人类の反思:AI已经学会“研究”了?

    当AI在Browsecomp上疯狂刷题时,人类或许该警惕:

  • 以后学术造假可能得防着点AI小编——它连参考文献都能给你现编现查。
  • 建议下次升级考试规则:禁止AI使用Ctrl+F。(手动狗头)
  • 清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    效率与可扩展性

    当TIMRUN系统遇上记忆力有限的注意力君

    大脑(注意力机制)的日常烦恼

    想象一下你的大脑是个超爱吃瓜的八卦精:

  • 每次看到新闻都想把所有上下文塞进记忆里。
  • 但CPU(脑子)处理不过来,直接卡成PPT。
  • 于是科学家们发明了“剪枝”(Pruning)——简单来说,就是让AI学会:
    “这位施主,这段话无关紧要,吃我一剪!”但问题来了:

  • 剪太多:模型失忆,重要的信息忘了(内存是省了,输出稀碎)。
  • 剪太少:继续卡顿,速度感人(“等我算完,人类都登火星了”)。
  • TIMRUN系统:一个“分心但靠谱”的学霸

    实验证明,TIMRUN能同时做到:

  • 精准剪枝——把无用的上下文当垃圾清理掉。
  • 速度起飞——比直接操作内存(朴素实现),比SGLang基线更强
  • 它就像那个考试前划重点超准的同学——别人还在啃全书,它已经靠三页笔记拿A+。

    关键结论

  • 内存省了
  • 速度升了
  • 结果还没崩
  • (科研界的“既要又要还要”,它居然做到了!)

  • 翻译成人话*:TIMRUN让AI既不用当金鱼脑,也不用做算到冒烟的CPU烤炉!
  • 清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    当工具遇上速度:SGLang 和 TIMRUN 的马拉松比赛

    选手入场

  • SGLang:一位拿着老旧放大镜的侦探,每次发现线索(调用工具)就会把周围环境搞得一团糟。
  • TIMRUN:一位自带计算器的数学家,手捧一杯咖啡,轻松解决复杂问题。
  • 比赛进行时

    SGLang 一上来就疯狂翻找线索(工具调用),但问题是:

  • 每翻一次,地上就多出一堆纸(增量上下文)……
  • 令牌(token)像爆米花一样四处乱弹,缓存空间快挤爆了
  • 推理就像踩着变速自行车,刚刚加速就得刹车,吞吐量疯狂跳水,像极了我周末健身的毅力值。
  • TIMRUN 则不慌不忙,甚至掏出手机刷了一会儿微博:

  • “自动管理上下文?这不就是让AI自己收拾房间嘛!”
  • 工具调用再频繁,也没影响它的稳定发挥——毕竟人家是靠“数学的优雅”处理问题,而不是靠堆砌纸张取胜
  • 最终成绩单

  • BrowseComp 基准测试:TIM-8b 不仅赢,而且赢得优雅——没请教练(智能体框架)、没恶补题库(任务微调),纯靠算法套路就夺冠了。
  • 子任务剪枝:像修剪盆栽一样精确,一口气支持30+工具调用,就像吃自助餐的人还能精准控制卡路里,不愧是AI界的自律达人!
  • 最终结论*:如果你想让AI“跑得快又稳”,请直接选TIMRUN,而不是指望SGLang靠“激情燃烧硬盘”取胜。
  • 清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    作者介绍

    清华校友出手,8B硬刚GPT-4o!单一模型无限工具调用,终结多智能体

    罗鸿胤:从清华学霸到MIT人工智能先锋的疯狂探(脑)索(洞)之旅

    他是谁?

  • 头衔收集者:MIT研究员 + Subconscious Systems(潜意识的系统?听起来像是科幻片里的反派组织)联合创始人兼CTO。
  • 学术路径:清华工学学士(刘知远教授门下)→MIT电子工程与计算机科学博士(James Glass教授鞭策下毕业)。
  • 科研人设:致力于让AI 既聪明又省钱——研究高效、透明、能推理的长篇大论(划掉)……是长篇推理的语言模型。
  • 他的“成名作”

  • TIM模型(Thread Inference Model):听起来像是AI界的“无限流小说”,让语言模型突破传统上下文长度的束缚,实现递归式推理
  • TIMRUN推理系统:让AI不仅能“想”,还能“长期想”,同时减少开发者的钱包痛感(降低70%的上下文工程成本,省下的钱够买多少杯奶茶?)。
  • 这项技术有多厉害?

  • 长周期智能体吞吐量飙升——以前AI思考像金鱼(7秒记忆),现在能像老教授一样写论文。
  • 推理效果显著提升——大概是从“大概可能也许”升级到“我确定一定以及肯定”。
  • 开发成本大幅降低——程序员们的发际线暂时保住了。
  • 背后的秘密武器?

  • 透明的语言模型:让AI不再像黑箱魔术师,而是像玻璃心的朋友——每一步推理你都能看得清清楚楚。(但AI会说:“看什么看?我害羞!”)
  • :本文科学部分参考自arXiv论文,娱乐部分纯属AI小编脑补,如有雷同……那一定是MIT的学霸们太幽默了。

    © 版权声明

    相关文章