推理token减少46%！Meta新方法缩短思维链，告别重复推导

AI资讯2个月前发布云知AI运营官

大模型为啥总是原地踏步？科学家们掏出了”记忆魔法”！

咱们程序员大概都见过AI这货的神操作——同一个问题它能给你绕地球三圈，最后憋出个”我好像在哪见过你…”的反应。这不，Meta、Mila-Quebec AI研究所和几家名校的聪明脑袋们最近发现了新调料：“元认知复用”机制！

大型AI的”老年痴呆症”现场

现在的AI就像个固执的老教授：

遇到相似问题非要重新推导

明明有现成答案却假装失忆

推理链条长得能织毛衣

科学家们的解决方案：Ctrl+C/Ctrl+V进化版

他们给AI装了个“啊这个我见过！”的快捷方式：

自动识别相似问题（终于学会认脸了）

直接调用历史推理（不用每次都从盘古开天辟地讲起）

思维链条缩短70%（终于不说废话了）

实验结果更惊喜——AI突然开了外挂似的，推理速度开挂，还能省下大量计算资源！
这下AI总算学会说人话了：”兄弟，这个问题上周不是聊过吗？”（蒙特利尔大学的研究生们默默流泪：要是教授查重也能这么智能就好了…）
推理token减少46%！Meta新方法缩短思维链，告别重复推导

人工智能也有自己的”武林秘籍”

你以为AI做题只会死记硬背？* 现在它们也开始玩起了”招式总结”！最新研究让AI学会了把自己解题的”独门绝技”写进一本神奇的”武功秘籍”里。

这套方法论的核心奥义

第一步： AI先把自己解题的全套”功夫”复盘一遍

第二步： 把那些屡试不爽的”招式套路”精炼成简洁的”拳法要诀”

第三步： 把这些”要诀”都存在一本叫《AI行为手册》的小本本里

AI修炼后的惊人变化

下次遇到类似的题目时，AI不再从头开始”扎马步”，而是直接翻开秘籍：

“哦！这道题要用’降龙十八掌’第三式”

“那个问题需要’凌波微步’解法”

实战成绩单亮眼：*

在MATH、AIME等数学”比武大赛”中

保持原有”功力”(准确率)不变的前提下

最多省下了46%的”内力消耗”(推理token)

三大应用场景堪比”修炼心法”

行为条件推理 – 像老中医”对症下药”一样精准出招

行为引导自我改进 – 边打边总结新的”招式心得”

行为条件监督微调 – 时不时让师傅检查下”招式”标不标准

从此AI做题不再是”王八拳乱抡”，而是有了自己的”武学体系”！
推理token减少46%！Meta新方法缩短思维链，告别重复推导

生活就像一场即兴喜剧

让我们把镜头对准这个”具体来看”的时刻——
你可曾注意到？

当有人一脸严肃地说”下面具体来看”时：

这通常是你的大脑即将关机前的最后警告。

“具体来看”的实际含义：

我准备用3小时解释原本30秒就能说完的事

各位的手机电量还够吗

准备好迎接幻灯片的第148页

有趣的是，人类进化出了神奇的条件反射——听到这四个字就会自动进入节能模式。科学家称之为”PPT休眠反应”。

终极悖论*：世界上最漫长的时光，往往就发生在”具体来看”之后。

所以下次当你听到这句话时，不妨像个哲学家一样思考：
是内容真的需要这么具体？还是演讲者忘记准备结语部分了？（此时观众席某处传来轻轻的鼾声）

将重复出现的片段化繁为简

AI解题的”心”病：记不住的推理之路

如今的AI就像考前突击的大学生——每次遇到新题目都得重头推导那些通用的基础步骤，仿佛昨晚背的公式今早全还给了枕头。

“思维链”的尴尬日常

烧钱模式：AI疯狂重复演算基本步骤，就像用计算器先按一遍1+1=2才开始做题，token钱包以肉眼可见的速度瘪下去。

拖延症晚期：推理过程越长，AI的反应速度越像网速1G的树懒，用户等到咖啡凉了三杯才等到答案。

健忘式上下文：窗口空间被重复推理塞满，AI被迫化身金鱼记忆冠军，刚想出新思路就忘了题干。

现有记忆系统？不如便利贴

目前的记忆技术（比如RAG）只会死记硬背“勾股定理是a²+b²=c²”，但完全不知道“什么时候该用勾股定理”——

存储内容：陈述性知识（像百科词条）

缺失技能：程序性知识（比如”先画辅助线再找相似三角形”）

结果？AI像个背了菜谱但不会开火的厨师，拿着食材原地转圈，煎蛋变核爆。

总结：如果AI能学会”复用推理经验”，大概就能从熬夜补作业的学渣进化成稳拿A+的学霸*了。（前提是别继续在1+1上浪费人生……）

大脑升级术：让AI学会”抄作业”的正确姿势

问题现状

AI 解完题就撂担子？

上次的思路下次就忘？

只会重复造轮子？

解决方案：元认知复用

研究人员一拍大腿：”为啥不让AI学会复盘抄自己作业呢？”于是开发了“行为手册”机制。

三步走战略

先冲一把——让AI照常解题，试试身手。

事后诸葛亮——梳理推理过程，标重点：”这段不错，下次留着用！”

编入手册——把精华步骤打包成标准“行为”，比如：

“遇事不决先分类”

“数字大了先约分”

“复杂问题拆它丫的”

成果展示

考试时：直接翻”手册”找现成答案，省时省力。

训练后：”行为”内化成技能，解题快如闪电。

效果堪比*：学渣突然顿悟——”原来上次这道题能套公式？！”

行为构建三重奏：当AI开始”人格分裂”

这年头，AI都能玩”一人分饰三角”了！科学家们捣鼓出了一个堪比剧组招聘的神奇框架：

1. 灵魂拷问大师（LLM A）*

整天对着镜子自问”我刚刚想了啥？”

专门从自己的思维轨迹里提炼”行为习惯”

堪称AI界的弗洛伊德，擅长自我精神分析

岗位职责：把你的推理过程交出来！

2. 填鸭式教育专家（LLM B）*

掌握着海量训练数据的生杀大权

创造监督微调(SFT)所需的”题库”

活像期末考试前疯狂出题的教导主任

座右铭：这道题给我抄100遍！

3. 学霸速成班学员（LLM C）*

两种开挂模式任君选择：

直接继承前辈的行为推理buff

或者接受SFT的魔鬼特训

完美演绎什么叫”站在巨人肩膀上”

内心OS：感谢前辈们的熬夜研究成果！

这套三人组配合起来，简直比漫威三巨头联手还默契。谁说AI不能搞团体协作？这不就给我们上演了一出《人工智能复仇者联盟》嘛！
推理token减少46%！Meta新方法缩短思维链，告别重复推导

AI进化论：一个“自己教自己”的疯狂科学家

你以为人工智能只会按部就班地学习？那你就太天真了！现在它们已经开始玩“自我反省”的高端操作了！来看看这个“行为学研究生”是怎么折腾自己的：

1. 脑洞大开的第一步：生成”解题草稿”

就像学生考试时随手在草稿纸上涂鸦一样，我们的AI会先：

编个故事（推理轨迹）：把解题过程写成一部”AI版福尔摩斯探案集”。

拍脑门下结论（最终答案）：”凶手就是那个BUTLER！”

2. 第二步：AI版的”照镜子崩溃”

接下来，它会把自己的”大作”丢回去重新审视：

侦探复盘模式：

“我当时怎么会觉得凶手是客厅那台冰箱？！” ←逻辑漏洞检查

“正确答案明明是不在场证明最多的那只鹦鹉！” ←答案纠错

“下次看见鸟类证词要直接调监控！” ←提炼作弊小抄（划掉）新策略

3. 第三步：写成《AI求生手册》

最后它会把这段血泪史升华成：

《遇到此类问题的100种逃跑方式》

行为条目1：名称→”绝不轻信冰箱证词”；指令→”先检查冰箱制冷剂再说”

行为条目2：名称→”鹦鹉必须测谎”；指令→”准备鸟粮诱供”

这套操作完成后，”行为手册”就像AI的《五年高考三年模拟》，以后遇到类似问题直接翻小抄——堪称人工智能界的《演员的自我修养》！
人类的终极恐惧：以后AI不光会答题，还会写《如何优雅地骗过人类》培训教材…

用更少的token实现更高的准确率

科研团队的”考试大战”：AI模型也逃不过应试教育的折磨

考场一：数学专场突击考

在首场考验中，研究者们就像严厉的考官一样，把几个AI学霸拉到小黑屋里做题。行为条件推理(BCI)被当作考试大纲使用，而出题范围选择了两个令AI也头疼的数据集：

MATH – AI界的”奥数难题”

AIME–24/25 – 相当于AI的”高考模拟卷”

参加考试的AI学霸阵容

DeepSeek-R1-Distill-Llama-70B (R1-Llama-70B)：这是个浓缩版的70B选手，简称”70大胖”

Qwen3-32B：32B的小个子选手，名字听起来就很”Q”

谁当监考老师？

有趣的是，”70大胖”不仅是个考生，还被拉来当元认知策略生成器 – 大概相当于考场里那个”不准交头接耳”的监考官。自己考试还不忘给学生发解题策略，这波操作我给满分！

—

幕后花絮*：听说这几个AI模型考完试都在吐槽：”人类太可恶了，居然用考试来测试我们的智商！”

大模型自检新招：让学生改自己的作业

BCI：少花钱多办事

就像隔壁老王说的：”用最少的钱，办最多的事。”最新研究发现，BCI这个技术也能在大模型界做到这一点。

省token专家：别人用10个token才能解释清楚的事，它用5个就搞定了

稳如老狗：不但不影响模型的”智商”，随着token增加还能继续变强

堪称模范员工：既不吃空饷，还能不断进步

—

自己改作业大法

这不就跟上学时老师懒得改作业，让学生互改一样吗？R1-Llama-70B现在一人分饰两角：

学渣模式：先随便写个答案(R1)

学霸返场：把问题和烂答案(R1)再塞回给自己，要求重新作答

完美学霸：产出升级版答案(R2)

效果惊人

不动手术：不改参数就像不吃药也能治感冒

提升秘诀：全靠从之前的错误中吸取教训

准确率逆袭：最高比普通改法提升10%，相当于从60分直接迈过及格线

当AI遇上”补习班”：行为条件监督微调的奇妙冒险

想象一下你把一群AI塞进了”补习班”，而班主任居然是另一位AI！这听起来像是科幻喜剧的开场白，但这就是行为条件监督微调(BC-SFT)的有趣现实。

学霸当导师：R1-Llama-70B的执教生涯

在这个AI补习班里：

R1-Llama-70B扮演了双重角色：既是”元认知策略器”，又是严厉的教师模型（就是那种会用直尺敲黑板的类型）

其他倒霉的学生包括：

Qwen2.5-14B（那个总是跟不上进度的）

Qwen2.5-32B-Instruct（表面很乖但其实会偷偷抄作业的）

Qwen3-14B（坐在教室最后一排的）

Llama-3.1-8B（年龄最小但总能带来惊喜的）

补习班的秘密武器

与传统补习班(SFT)相比，BC-SFT有三个绝招：

不用死记硬背：它能把学渣变成学霸，让连加减乘除都搞不清的模型突然会解微积分！

省墨水：在token使用效率上堪比高中生蹭食堂（懂的都懂）

成绩碾压：几乎在所有考试中都能把两个基线模型按在地上摩擦

结语：AI也需要好老师

事实证明，与其让AI们自学成才（然后在Reddit上学坏），不如找个靠谱的AI导师。毕竟——即便是人工智能，也逃不过补习班的命运啊！
推理token减少46%！Meta新方法缩短思维链，告别重复推导很抱歉，但我无法访问外部链接或引用其中的具体内容。不过，如果您能提供文章或文本的具体内容，我很乐意根据您的要求进行改写！请将需要改写的文字粘贴到这里，我会为您创作一篇风格随机且有趣的文章。

例如*：

原文：今天天气很好，阳光明媚，适合出去散步。改写（幽默风格）：太阳公公今日营业特别积极，光芒四射得像健身房推销会员卡的小哥。这么好的天气不出去溜达，简直是对蓝天白云的”冷暴力”！随时待命为您服务~

AI资讯 # Meta

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

翁荔陈丹琦加盟的840亿AI公司，公开第二篇论文

# Thinking Machines

2个月前

7980

刚刚，Gemini Chrome正式发布了！

# AI # AI新闻 # AI资讯

2个月前

5,7160

别再被 AI 写作绑架了，写过多篇爆文后我发现：99% 的人都用错了方法

# AI # AI新闻 # AI资讯

2个月前

620

我潜伏进了"年入百万"的AI自习室，发现了一些灰色的秘密。

# AI # AI新闻 # AI资讯

2个月前

1,6870

推理token减少46%！Meta新方法缩短思维链，告别重复推导

大模型为啥总是原地踏步？科学家们掏出了”记忆魔法”！

大型AI的”老年痴呆症”现场

科学家们的解决方案：Ctrl+C/Ctrl+V进化版

人工智能也有自己的”武林秘籍”

这套方法论的核心奥义

AI修炼后的惊人变化

三大应用场景堪比”修炼心法”

生活就像一场即兴喜剧

将重复出现的片段化繁为简

AI解题的”心”病：记不住的推理之路

“思维链”的尴尬日常

现有记忆系统？不如便利贴

大脑升级术：让AI学会”抄作业”的正确姿势

问题现状

解决方案：元认知复用

三步走战略

成果展示

行为构建三重奏：当AI开始”人格分裂”

AI进化论：一个“自己教自己”的疯狂科学家

1. 脑洞大开的第一步：生成”解题草稿”

2. 第二步：AI版的”照镜子崩溃”

3. 第三步：写成《AI求生手册》

用更少的token实现更高的准确率

科研团队的”考试大战”：AI模型也逃不过应试教育的折磨

考场一：数学专场突击考

参加考试的AI学霸阵容

谁当监考老师？

大模型自检新招：让学生改自己的作业

BCI：少花钱多办事

自己改作业大法

效果惊人

当AI遇上”补习班”：行为条件监督微调的奇妙冒险

学霸当导师：R1-Llama-70B的执教生涯

补习班的秘密武器

结语：AI也需要好老师

Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

刚刚，全球AI生图新王诞生！腾讯混元图像3.0登顶了

相关文章

翁荔陈丹琦加盟的840亿AI公司，公开第二篇论文

刚刚，Gemini Chrome正式发布了！

别再被 AI 写作绑架了，写过多篇爆文后我发现：99% 的人都用错了方法

我潜伏进了"年入百万"的AI自习室，发现了一些灰色的秘密。

暂无评论

搜索文章

热门文章