6,304
0

大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

AI开始”想太多”:大语言模型的头脑风暴指南

第一节:揭秘LLM的”内心戏”

你知道吗?大语言模型(LLM)其实是个戏精!它不只给你最终答案,中间还要拍一整个”电视剧”——生成一堆中间token来证明自己够聪明。这不代表它真在思考,但它演得足够像了,以至于我们人类都差点信了。

  • 关键看点:*
  • 推理 = 废话文学? LLM不需要变大变强,只要学会在输出前先”自言自语”一堆token,性能就能飙升。
  • “我也能推理!” 预训练模型天生自带推理技能,只不过……它往往把正确想法藏在了输出的第37页第5行
  • 解码的悲剧: 标准贪婪解码就像个急性子读者,只看开头就猜结局,结果错过了最精彩的推理情节。
  • 第二节:如何让AI”学会装深沉”

    过去几年,科学家们为了让LLM表现得像个福尔摩斯而不是金鱼脑,试过各种方法:

  • “让我们一步一步思考” —— 经典的思维链(Chain-of-Thought) 手法,效果不错,但有点像逼AI写作文时强行分段。
  • 监督学习微调 —— 类似让AI看1000部侦探片,然后希望它自动学会推理。
  • 强化学习微调(RLHF) —— 现在的当红炸子鸡!多个实验室”不约而同”地发现:
  • “嘿!如果我们让AI多写几种可能的答案,而不是只猜一次,它好像……突然变聪明了?”

  • 谷歌的Jonathan Lai更绝:*
  • “让AI多唠嗑!” 不是让它写短小精悍的回答,而是鼓励它长篇大论,最后再挑最好的部分拼凑起来。
  • “众人拾柴火焰高” —— 单个AI的回答可能不靠谱,但10个AI的回答综合一下,突然就不那么离谱了!
  • 第三节:Denny Zhou是谁?他为啥这么懂LLM?

    Denny Zhou,谷歌DeepMind首席科学家,推理界的钢铁侠
    他在Google Brain时期就创立并领导了”推理团队”(Reasoning Team),目标是让AI不仅会背答案,还会”动脑子”。
    现在该团队归入DeepMind,专注于——

  • “如何让AI像个哲学家一样思考(而不是像我家喵星人一样记仇)”*
  • 他们的终极目标?让AI具备真正的通用智能(AGI)……不过在那之前,可能还得先学会如何写靠谱的段子

    总结:LLM推理的核心精髓

  • “生成一堆废话 = 推理”(别问为什么,有用就行)
  • “别只猜一次,多猜几次然后投票”(这是现实版的“三个AI顶个诸葛亮”)
  • “长篇大论的AI比高冷惜字的AI更聪明”(谁能想到呢?)
  • 所以下次你用ChatGPT时,记得——

  • “让它多说几句,别让它偷懒!”*
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    这位AI大神的”脑回路”研究快把Google Scholar挤爆了!

    这家伙的脑子里装的都是“链式思考”(就是那种让你像侦探一样一步步推理的提示方法)、“自圆其说”(没错,AI也得学会自己打补丁),还有如何让大模型变得更聪明。他的论文在Google Scholar上已经被疯狂引用8.3万+次——差不多等于全世界AI研究员每人点了一次”赞”!

    科研成就 & 大佬身份认证

  • 荣誉收割机:2022年拿下Google Research Tech Impact Award(翻译:谷歌认证的”科技狠人”)、WSDM Test of Time Award(翻译:你的研究十年后依然不落伍奖)。
  • 学术脱口秀演员:在KDD 2023等顶级会议秀口才,还在斯坦福、哈佛等名校开巡回讲座,讲解LLM那些事,门票堪比演唱会。
  • 语言建模大会创始人:没错,他不仅研究怎么让AI说话,还直接办了个大会(CoLM),并成功晋级2024年大会总主席,江湖地位稳了。
  • 斯坦福最火课程:CS25《变形金刚联盟V5》

    这门课火爆到——连Geoffrey Hinton、Ashish Vaswani、Andrej Karpathy等AI大神都来捧场,你说能不火吗?学生们每周聚集在这里,讨论从GPT到AI艺术、生物甚至机器人的最新突破,YouTube播放量直接冲上数百万,堪称AI圈的《权力的游戏》

  • 下集预告*:AI界的顶级大脑们,如何理解大模型那谜一般的”推理”能力?敬请期待!
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    关于LLMs能否推理的脑洞大开讨论

  • 现在的情况:*
  • 大家普遍认为大语言模型(简称”人工智障”)会推理
  • 真相是…我们其实被忽悠了
  • 对推理的定位风波:*
  • 定义推理就像定义”什么是爱情”一样困难
  • 我们暂且把推理定义为:机器在”阿巴阿巴”和”正确答案”之间的挣扎过程
  • 语言模型的思考秀:*
  • 想象AI的大脑活动:

  • 收到问题:”今天吃啥?”
  • CPU开始疯狂运转:
  • 想起昨天看的菜谱
  • 回忆用户的口味偏好
  • 最后憋出一句:”要不…试试仰望星空派?”
  • 这算是推理吗?还是在玩文字接龙?学术界为此已经打起来了!*
  • 一个不太严肃的结论:*
  • 也许这些AI只是在假装推理,就像在考试时假装思考的我们。毕竟,谁会拆穿一个会说话的统计模型呢?
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    当变压器开始”想太多”

    让我们来聊聊那些自以为是福尔摩斯的LLM们。

    1. 什么是推理?让LLM告诉你(反正它也不懂)

    你可能以为”推理”是个高大上的词,像是戴着眼镜的数学家在白板上写满公式,或者是侦探柯南指着凶手说:”就是你!”
    但实际上,在LLM的世界里,”推理”不过就是——

  • 先蹦出一个词
  • 觉得不对
  • 再蹦出第二个词
  • 可能还是不对
  • ……
  • 终于!在第10086个词之后得到了一个勉强能看的答案
  • 换句话说,LLM的推理就是:*
  • 胡乱生词筛选一下假装自己是天才

    2. 模型大小?不存在的!咱靠的是”废话连篇”

    传统AI:要想模型变聪明?变大啊!
    Transformer:太小看我了吧?我只要学会疯狂输出中间结论,就能假装自己很厉害!

  • 事实: 这个模型根本没有所谓的”思考”,但它可以靠”生成一堆看似相关的词”,让人类误以为它有逻辑。
  • 搞笑比喻: 就像一个不会做饭的人拼命往锅里狂撒调料,最后的成品要么是美食,要么是毒药,但反正看起来很高级。
  • 3. 人类 vs LLM:”推理”之战

    对比项人类LLM
    推理逻辑可能有条理全靠概率
    直觉是真的第六感不过是概率高的词
    犯错后的反应可能羞愧直接换个词继续编
    自信程度有时犹豫永远理直气壮
  • 结论: LLM的”推理”虽然和人不一样,但只要你假装它很厉害,它就真的能忽悠住很多人*!
  • 注: 本文已被LLM自动改写,可能存在自信但错误*的逻辑,请人类理性食用。
  • 为什么中间 token 在推理中至关重要?

    大脑短路了?让变形金刚(Transformer)来修!

    Denny同学最近琢磨出了一个惊人的发现——原来人工智能做推理时,那些”中间商”(中间token)不但不该被打倒,反而是解决问题的关键!他和斯坦福大学的Tayma教授带着学生们,一起搞出了个堪比漫威剧情的理论:

  • 凡是用布尔电路能搞定的问题,
  • 用变形金刚+中间token这套组合拳也都能搞定!*

    逻辑电路 vs Transformer 的魔幻对决

    如果把问题比作电路板:

  • 传统方法:非要逼着模型”一口吃成胖子”,妄想一次性吐出答案 → 结果就是模型越堆越深,最后陷入”思考者”雕塑般的僵局。
  • Denny的骚操作:让模型像写小说连载一样,一章章(token)发布中间结果 → 即便模型个头不变,也能把复杂问题拆解得明明白白!
  • GPU表示很忙

    想象一下现在的GPU集群:

  • 逻辑门数量:轻松突破”千万→十亿→万亿”三连跳
  • 直接生成答案 ≈ 让蚂蚁吞大象
  • 分步生成中间token ≈ 蚂蚁组团开流水线
  • 真理闪光时刻:原来伟大的推理,就是让AI学会”打草稿”的优雅艺术!(划重点:下次你的模型卡壳时,记得给它塞点”中间商”当零食~)
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    推理过程的技术细节

    “推理”还是”推倒重建”?论AI的数学天赋

    想象一下,你问一个被塞满百科全书的大脑:”你有3个苹果,你老爸比你多2个,你们一共几个?”然后它信心满满地回答:”5个!”——仿佛你的老爸也是个贪吃鬼,趁你不注意偷走了一个。

    AI的”数学天才”之路

  • 预训练模型的计算哲学:”3 + 2 = 5″是铁律,至于”谁的苹果””加谁的”?那不在服务区。
  • 人类的数学自信:一个小学生都能算对的题目,AI却可能理直气壮地提交一份错误答卷,仿佛在宣告:”反正我回答了,对不对不关我事!”
  • 解码过程的玄学:不是AI不会算,而是它时常在选择”要不要认真算”的边缘试探。就像你正准备解答一道数学题,突然被窗外的鸟叫吸引了注意力……
  • 如何让AI表现得更”人类”一点?

  • 安全提示:相当于在AI耳边喊:”醒醒!苹果不是你吃掉的!”
  • 候选答案微调:就像考试时帮它划重点:”本题不准直接3+2=5,必须分步骤!”
  • 结论:AI确实能推理,只是偶尔会像刚睡醒的数学家,先把简单的题算错一道,再慢慢找到感觉
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    当AI也学会了”打脸”自己

    你以为AI只会一根筋地往前冲?那可太天真了!原来它们也有”自我怀疑”的能力——

  • 传统玩法:*
  • 像个饿坏了的贪吃蛇(学术名:贪婪解码)
  • 看到第一个”看起来好吃”的答案就一口吞下
  • 结果常常被噎住——”呃,好像吞错东西了…”
  • 进阶操作(链式推理解码):*
  • 第一步:假装很纠结
  • 不像以前那样猴急
  • 摆出至少3个候选答案
  • 内心OS:”这个像是对的…那个好像也不错…”
  • 第二步:精打细算
  • 偷偷给每个答案打分
  • 选那个”看起来最不像会打脸”的
  • 最终呈现:”经过慎重考虑,我觉得…”
  • 这就好比考试时——*
  • 学渣:选C!因为C看起来顺眼!
  • 学霸:A好像对…B也有道理…D排除法…最后选A!
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    当AI开始”思考”时,人类的困惑之旅

    1. 神奇的”通灵”技巧

    链式推理听起来很高级,但其实挺直白的——就像你把积木一块块垒起来,只不过这次是让AI玩这个游戏。不过设计这种”积木工程”得费点程序员头发,于是聪明的人类想出了更懒的方法:直接告诉AI”动动脑子”
    这就是“链式思维提示”的秘诀:连哄带骗让AI把推理过程写出来,省去了让人头秃的代码环节。就跟教小孩解题一样:”你先这样想,再那样想,最后答案就自己跳出来了!”

    2. “慢慢想”大法的神奇与尴尬

    还有个更绝的招数叫“逐步思考”——你甚至不用给AI看范例,只要像念咒语一样说:”让我们一步步思考“,AI就会像突然开了窍一样,开始像模像样地计算起来。
    但有个小问题:效果随缘。没有示例的话,AI的表现就像临时抱佛脚的学生,能及格就不错了。
    最搞笑的是,这方法听起来有点反人类。想象一下:

  • 你问朋友:”1+1等于几?”
  • 朋友:”呃……让我一步步思考……”
  • 你:”……你认真的?”
  • 如果人类真这样思考,那大概是因为昨晚没睡好。

    3. AI的”思维表演”能信吗?

    虽然这些方法能让AI看起来”逻辑满分”,但依然有点:

  • 像个舞台魔术——观众(人类)觉得神奇,但幕后(模型权重)其实还是一团混沌。
  • 需要”安全提示”——不然AI可能会推理出”企鹅其实是会飞的,只是它们懒得动”这种结论。
  • 所以,下次看到AI”逐步思考”的时候,别忘了:它可能只是在配合演出
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    让AI变聪明就像教熊孩子写作业

    人类驯服AI的奇妙方法

    最近有个特别火的方法,叫做“监督微调” (SFT)。这玩意儿说白了就是:

  • 步骤1:抓一群人类标注员,强迫他们写了 “问题 + 标准答案”,就像给小学生准备课后习题册。
  • 步骤2:让AI疯狂”刷题”,目标是学会人类的解题思路——比如数学题瞎算会被同学嘲笑(向LLM输入大量的训练数据)。
  • 步骤3:AI通过”偷看人类答案”学会套路后,就能出去混江湖了。
  • 史上最佳”辅导班”案例

  • 2017年:Denny Zhou 的团队玩这套特别溜,就像某些家长收集”1000道奥数题”逼着孩子刷——结果AI学会了人模狗样解文字题
  • 2021年:这招终于变成了解题工厂流水线,OpenAI 大手一挥:”给我把这方法无限复制!”
  • ——现在你知道为啥ChatGPT总喜欢装得像人类了吧?因为它的学习资料都是人类的作业本
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    草莓之谜:那些让人抓狂的“r”

    想知道“strawberry”这个单词里藏着多少个“r”吗?来,我们先数一遍:“strawberry”。一、二、三……咦?等等,到底是三个还是四个?

    为什么这个问题如此棘手?

  • 视觉陷阱:单词里的“rr”组合让人下意识以为两个“r”只算一个。
  • 发音迷惑:英国人可能会把“berry”念得跟“bree”一样,让人怀疑自己漏数了一个。
  • AGI 试金石:这竟然是考验人工智能是否觉醒的“终极考题”?(话说回来,如果AI也在这个问题上卡壳,人类是不是可以稍微放心一点?)
  • 正确答案揭晓

  • 字母版:s, t, r, a, w, b, e, r, r, y → 三个“r”
  • 人类直觉版:“等等,我好像少算了一个?” → 无限纠结
  • 总结

    下次如果有人问你这个问题,不妨反问:“你是想考我字母计数,还是想看我大脑短路?”反正,不管怎样,“strawberry”的“r”们都会在单词里嘲笑每一个试图数清它们的人类(或AI)。
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    你以为大力出奇迹?DeepMind告诉你什么叫AI成长的烦恼

  • “AI训练就像追女朋友,你以为送999朵玫瑰就能搞定?Naive!”*
  • SFT:你以为的万能钥匙

    想象一下:

  • SFT(监督微调)就像是给AI喂”答案书”
  • 本以为这样就能让AI考上清华北大
  • 结果发现AI只是在”背书”,换道题就懵逼
  • DeepMind的夏天危机*:2021年的某个炎热午后,研究员们突然意识到:”完犊子,我们家AI像个书呆子!”
  • 解决方案?当然是…

  • 大力出奇迹!*
  • :更多数据!更强算力!更大模型!
    :但当方向错了,就算你有银河系那么大的算力…
    研究员A:”这就好比用超级计算机算1+1=3…”研究员B:”不,这就像拿着火箭筒去打蚊子!”

    人类标注员的”小秘密”

    惊!谷歌大佬爆料:

  • 人类标注的错误率可能高达7-15%
  • 机器学习生成的数据有时更靠谱
  • 反直觉一刻*:
  • 原来AI考试作弊的水平,比老师批改考卷还高?!

    破局之道:两条大腿走路

  • 标注质量大作战
  • 不再是”人多力量大”
  • 而是要”精准打击错误”
  • 数据来源多样化
  • 人类标注 + 机器标注 = 最强组合
  • 就像高考既要选择题也要作文题
  • 最后灵魂拷问*:当AI嫌弃人类标注太low的时候,我们要高兴还是担忧?
  • 让 AI 实现自我提升

    当AI决定”自己教自己”:一场机器版的”自学成才”大冒险

    传统方式:AI的”填鸭式教育”

    原本,训练AI就像教一个学生做题——人类辛辛苦苦收集题目和答案,然后一股脑塞给模型,指望它学会作答。但问题是:标注数据贵啊! 请专家标注每个数学问题的解题步骤?那可真是费时费钱又费力。
    于是研究人员一拍脑袋:”等等,为什么不让AI自己当自己的老师呢?”

    新模式:AI的”自学成才”套路

  • 先让它自己瞎蒙:丢给AI一道数学题,比如”3x + 5 = 20″,让它自己生成解题步骤。
  • 看看结果对不对:如果它给出的最终答案是对的(比如x=5),那这一套解题步骤就是”有效操作”!
  • 强化正确答案:让AI记住好的解题方法,抛弃错误的胡乱推导。
  • 这个巧妙的方法叫做 Reject Sampling(拒绝采样),本质就是让AI:

  • 自我纠错:”哦,上次这样解是对的,下次继续!”
  • 淘汰错误答案:”这个推导是胡扯,删掉删掉!”
  • 研究论文:《STaR》——AI的”自举推理”

    这项研究的核心突破是:让AI自己生成训练数据,从而减少对人类标注的依赖。但更有趣的是:一旦模型找到正确的路数,它就能不断自我提升!

    换句话说

  • 传统AI:等着人类喂数据,乖乖学习。
  • 现代AI:”不用麻烦人类了,我自己摸索也能进步!”
  • 这简直是AI界的”自学天才”,只不过它不会骄傲,因为它压根没有自我意识(暂时)。
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    数据收集的奥德赛:从RL微调到机器数据的崛起

    1. 循环中的改进

    模型升级后,数据从哪来?简单——再跑一遍流程!就像追剧看到一半,突然发现剧组偷偷更新了剧本,我们只好重头再看一次。

  • 学术界的彩蛋:字节跳动的arXiv论文《ReFT》悄悄揭示了RL微调的秘密,标题直白得像是怕我们看不懂:“基于强化调优的推理”。
  • OpenAI的“大揭秘”:等到o1公开,大家才恍然大悟:“哦!原来还能这么玩!”(研究团队内心OS:我们其实也想到了……只是没来得及发论文!)
  • 2. 强化学习验证器的真谛

    强化学习先驱Rich Sutton语重心长地表示:“验证器才是灵魂,算法只是个搬运工。”换句话说——

  • 验证器的重要性:RL微调的关键不是算法多花哨,而是它能不能把数据“验明正身”。
  • 效率问题:但现实是,人类标注员可能还没AI勤快,毕竟机器不会抱怨“这数据太难了,我要摸鱼!”
  • 3. 机器数据的反超谜题

    为什么机器生成的数据比人类的更香?

  • 规模化碾压:机器可以24小时不吃不喝疯狂生产数据,人类却需要睡觉、吃饭、刷短视频。
  • 一致性优势:机器不会今天状态好、明天摆烂,而人类标注可能会因为“周一综合征”导致数据质量起伏。
  • 自我改进循环:机器生成的数据被喂回模型,形成“越练越强”的正反馈,像永动机……(除了偶尔跑偏)。
  • 结论*:在AI的世界里,人类可能只是数据的“过客”,而机器才是真正的“卷王”。
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

  • 当代码遇上佛系:机器学习的”随缘优化法”*
  • 听说你想用机器学习搞点大新闻?别急,让我们用”第一性原理”给你开个光:

  • 目标要佛系:想生成段子?优化”笑点密度”指标;想写情书?优化”肉麻指数”。先定义什么是”好”,再让模型随缘发挥。
  • 梯度即缘分:反向传播不是玄学,是让模型在错误中”顿悟”的必经之路——就像师父拿着戒尺说:”这句推理不够丝滑,重练!”
  • 采样即抽签:指标期望值怎么算?多生成几次,让老天爷(概率分布)决定哪次结果能上热搜。”策略梯度”的本质就是:广撒网,捞最肥的鱼。
  • 重要提醒*:
  • 别问模型为什么突然学会同步激活多个位置,问就是”量子纠缠”(误)。
  • 魔法不存在,指标、梯度、反向传播——机器学习三大法器,用完记得给模型上柱香(调参)。
  • 最后记得:“优化不够,采样来凑;梯度不到,epochs堆到老。”
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    当AI开始”成长”:一个模型的无限可能

  • 固定尺寸?没问题!*
  • 现在这个方法运作得还不错,那么——是时候让它”长大”了!但别急着升级服务器,因为剧情可能会出乎意料。

  • 扩展方向:COThink(COT)的魔法*
  • 一个模型统治一切? 理论上,随着”思维链”(COT)能力的增长,一个模型可以解决所有问题,而不需要把自己撑成一个臃肿的巨人。
  • 最小化迁移模型万岁! 就像旅行只带一个万能背包,重量控制在最小,走到哪都能生存。
  • 早期的真相:RL vs SFT*
  • 翻阅那些陈年论文时,你会发现一个有趣的”冷知识”:人们曾经坚定地认为强化学习微调(RL)比监督微调(SFT)更牛
    啊,时代的眼泪,科技的风向总是飘忽不定!
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    LLM推理的奇妙冒险:数学魔术师Gemini的演出

    让我们来聊聊大语言模型(Gemini 2.0版)是怎么变成一个数学家的——没错,就是那种能让你中学数学老师当场失业的数学家。

    它不是计算器,它是数字魔术师

    想象一下传统的AI:它们像个老学究一样在图书馆里翻箱倒柜(也就是所谓的”搜索排序”)。而现代的LLM?它们更像一个即兴表演的喜剧演员,全靠一个个token的灵感闪现来制造惊喜。
    2024年底,谷歌放出了Gemini 2.0的”思考秀”。在没人给它台词的情况下,这家伙居然解决了一个令人抓狂的数学谜题:

  • 用1到10的数字组成2025,只许用加减乘除!*
  • Gemini的脑内剧场

    这个过程简直比看脱口秀还精彩:

  • 开场白:Gemini立刻指出”这是个大家伙”,暗示得靠乘法开大招——就像人类看到大数字时的第一个念头:”这肯定不是加法能搞定的”。
  • 神来之笔:发现2025其实是45的平方(45×45)。这可是个绝妙的观察,就像魔术师突然从空帽子变出兔子。
  • 分解步骤:然后开始像个数学家一样分解问题:”要得到45的话…”
  • 整个过程完全不是在搜寻标准答案,而是像个真正的数学天才一样演绎推理。这就解释了为什么这些模型如此强大——它们不是在背答案,而是在创造思路
    最神奇的是?整个过程看起来完全像是人类的思考方式——只不过这位”人类”能在一秒内完成我们可能要酝酿半小时的灵感闪现。
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    “苦涩的教训”:当 Scaling 摸不着头脑时

    Rich Sutton 在《苦涩的教训》里甩出的一串哲言真是让人抓耳挠腮——”Scaling 的发现只会让我们更难看清发现过程是如何完成的。” 翻译成人话大概是:
    “咱玩命堆规模,结果堆着堆着,连堆的姿势都给堆没了!”

  • 为啥这么说?*
  • 越是大招越像玄学 —— 模型越大、数据越多,性能蹭蹭涨,可为啥涨?原理是啥?鬼知道!
  • 捷径变迷宫 —— 原本以为”大力出奇迹”是最短路径,结果发现路是宽了,但路灯没了。
  • “科学家的膝盖在哀嚎” —— 以前还能优雅地推导公式,现在?先扔1000张显卡看看风向……
  • 结论*:人类可能只是AI进化路上的垫脚石,而且垫得越来越盲目。(建议把这段话刻在GPU集群上,以示警醒。)
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    当AI学不会写作时,它们开始玩骰子

    01. AlphaGo的“胜利”与人类的“苦涩”

    Sutton先生看着DeepMind的AlphaGo和AlphaZero把人类围棋选手按在地上摩擦,叹了口气,写下了《苦涩的教训》。他说:“真正的可扩展性只有两个——学习搜索。”
    但问题来了:机器可以学习下棋,但不能学习写情书。RL(强化学习)调优虽然泛化能力不错,但有些任务,比如写作或者编程,机器根本不知道自己写得对不对。它们只能像个蒙眼扔飞镖的选手一样,指望概率来“蒙”对答案。

    02. LLM:概率游戏大师

    从数学上讲,LLM(大语言模型)本质上就是个预测机器——它不是人类,它只是在猜概率
    来看看LLM的解码过程:

  • 收到问题
  • 开始推理(或者说“假装在推理”)
  • 输出答案(选概率最高的那个)
  • 但问题在哪?它们没有对齐!我们人类能理解上下文,而LLM只是在玩“匹配概率”的游戏。

    03. 边缘化:当LLM开始玩骰子

    如果LLM要生成一个完整的推理过程,它本质上是在做边缘化——也就是说,它在计算所有可能的答案中哪个最有可能出现。
    但如果你刚入门机器学习,就会发现这其实就是在采样——LLM不过是在扔骰子决定答案

    结论:LLM不是天才,只是概率赌徒

  • 它们不思考,只是计算概率
  • 它们不像人类那样对齐信息
  • 它们的“推理”本质上是扔骰子
  • 下次看到ChatGPT写出一篇流畅文章时,请记住——它只是在赌博,而这次它运气不错!
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    统计学的奇妙魔法:让数据自己举手投票

    在这个充满不确定性的世界里,科学家们想出了一个绝妙的主意:让随机性来当裁判!具体操作如下:

  • 先来一场”随机派对”:随机抽出一堆答案,丢进数据的大染缸里搅拌。
  • 然后让它们”举手投票”:谁出现的次数最多,谁就是今天的幸运儿!
  • 忽略”推理通过率”这个矫情的家伙:反正它只会挑三拣四,不如听从大众的选择。
  • 这个方法有个高大上的名字,叫“边缘化”(Marginalization),听起来就像某种神秘的统计学黑魔法。但别担心,它的本质很简单——就是让数据自己排队,最常露脸的那个赢!(是不是突然觉得科学家们也很接地气?)

  • 神奇的效果?*
  • “巨大的改进”:用这个方法,你会发现实验结果突然从”勉强能用”变成了”天啊这居然真的有效”!
  • 所以下次当你的模型举棋不定时,不妨试试这一招——让概率来搞民主投票
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    大脑里的搜索引擎:检索与推理的奇葩分界线

    1. 检索 vs 推理:人类的迷之困惑

    有人认为大模型只是在做“Ctrl+F”式的内存检索,而不是真正的推理。但问题是——谁不是在检索呢?

  • 人类的“检索”日常
  • 早上看到咖啡机,回忆起“啊,咖啡提神!”——这是检索还是推理
  • 数学考试时想到公式——是靠记忆力还是逻辑推导?
  • 甚至谈恋爱:“她这个表情……上次她这样之后我惨了!”——检索记忆还是情感推理?
  • 结论:人类的“推理”很多时候就是花式检索

    2. 模型的“推理”可能比人类更诚实

  • 人类的“推理”
  • 经常掺杂脑补、偏见和一厢情愿
  • “我觉得这个方案可行!”(结果失败)
  • AI的“推理”
  • 至少它光明正大地承认自己靠数据吃饭
  • 不像某些人类,明明是靠经验(检索)却要包装成“直觉”(玄学)。
  • 3. 检索推理之争的本质:人类的傲慢?

    我们总是觉得自己在做高阶推理,而对AI的运作方式却嗤之以鼻——“哼,不就是查数据库吗?”

  • 但真正的智慧或许不在于“如何思考”,而在于“如何有效地找到正确信息”
  • 毕竟,谷歌能解决的问题,为什么要苦思冥想?(手动狗头)
  • 所以下次看到AI“检索”,别急着嘲讽——说不定它只是比你更高效而已!
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    当多个AI吵架时,谁能决定”正确答案”?

    会议魔咒:年年参会,年年争同一件事

    我就像是个会议标配——每年必打卡所有学术趴。而每次讨论的焦点总是:”这篇论文够不够新颖?” 但说实话,这争论就像「检索 vs.推理」的辩论换了个马甲一样,反反复复,毫无新意(哦,这话可别让审稿人听见)。

    AI 版的 “群殴验证法”

    最近有人做了个疯狂实验:让4个模型同时回答一个问题,然后看看谁说的最靠谱。这简直是——

  • 方法1:让AI们自由发挥,看谁的答案最一致(民主投票?)
  • 方法2:干脆随机选一个答案(也就是「反正我不管了」)
  • 方法3:强行觉得这很像「模型组合」,但数学上……嗯……我也不懂(战术摸鱼)
  • 这就像让4个朋友决定去哪吃饭,最后仍然去了麦当劳——因为大家吵累了。

    工业界的生存法则:能跑就别走

    作为一个打工人(哦不,工业界研究员),我根本懒得管「检索算不算推理」。现实世界的规则是

  • 检索能拿A+?拉满!(管它黑猫白猫,抓到老鼠就是好猫)
  • 推理再优雅但慢如乌龟?NO!(业绩考核不等人)
  • 2024论文炫技现场:做个题试试?

    我们2024年发了一篇「类比推理」论文,核心思想就是——「先回忆,再解题」,和考试时偷看笔记一个道理(嘘,别告诉监考老师)。
    比如:

  • 题目*:一个正方形的四个顶点坐标是…… 求面积?
  • 解题秘诀(高亮警告)→ “回忆个类似的问题,然后抄答案”*
  • 看吧,检索统治世界(至少统治我的KPI)
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    当AI突然“开窍”时的奇妙时刻

    最近我在跟几个AI模型玩“你猜我是谁”的游戏,结果发现:

  • GPT 3.5和我自家的模型一开始表现得像个刚睡醒的学生——没提示就一脸懵圈,死活不肯做数学题。
  • 但当我稍微提点了一下(比如偷偷塞给它一道相似题),它就突然“啊哈!”一声,不仅把距离公式背了出来,还顺带把面积也算上了。
  • AI的“灵光乍现”是怎么来的?

  • “哦!原来这题我见过!”
  • AI的推理能力有时候就像人的脑内搜索引擎,你得先给它一个关键字,它才能从数据的海洋里捞出有用的东西。
  • “等一下,让我想想更高级的办法……”
  • 另一种方法是让它“后退一步”,先别急着算,而是想想更抽象的原则。就像考试时先写公式再代入数字,AI也需要被教会这种思考方式。
  • 结论

    想让AI变聪明?

  • 要么给点小小的提示(让它找到相似的题目)。
  • 要么让它学会“深呼吸”(先想想通用的规则)。
  • 不然它可能真的会在数学题面前表演“大脑宕机”!
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    深度学习研究的”魔法”配方:换个马甲更好用?

    大家听说过那个传说中的「深度研究」团队吗?说出来你可能不信——他们的核心成员之一,当年其实是我的实习生!后来这位仁兄去了OPI,不知道吃了什么灵丹妙药,突然灵机一动发明了「深度研究」法。其实说白了,就是检索+推理=打工人的咖啡因加强版
    他们怎么操作的呢?简单得像煎鸡蛋:

  • 先检索——相当于翻冰箱找食材,总比对着空锅瞎猜强;
  • 再推理——这下终于知道鸡蛋该煎还是该炒了;
  • Alpha微调——相当于给煎蛋撒点黑胡椒,让你分不清是技术还是魔术;
  • 多答案投票——就像问五个朋友”我穿这件衣服显胖吗”,虽然答案可能让你想拉黑所有人,但至少比一个人瞎说靠谱。
  • 当然,代价就是烧钱指数飙升——相当于从便利店咖啡升级成手冲瑰夏。不过Denny Zhou最后说了句大实话:别管AMS能不能推理了,反正模型带脑子总比不带强(人类不也一样?)。

  • 终极结论*:检索+推理就像泡面加蛋,虽然还是泡面,但 suddenly 就豪华了起来!
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    人工智能的未来:从考试学霸到生活管家

  • Denny Zhou 教授最近在思考人工智能的下一步发展时*,说了些让人脑洞大开的话:
  • “现在AI就像个只会考试的书呆子”
  • 解数学题?满分!
  • 背古诗?滚瓜烂熟!
  • 但要让它判断女朋友为什么生气?瞬间宕机!
  • “我们很快就要面临’学霸瓶颈'”
  • 现在AI在各种测试中都快拿”三好学生”奖状了
  • 但现实世界的任务可没有标准答案
  • 比如判断”老妈说’随便吃点’时到底想吃什么”
  • “该让AI从实验室走进厨房了”
  • 比起在试卷上考100分
  • 更需要AI能帮你:
  • 把黑暗料理做成米其林三星
  • 把老妈唠叨自动翻译成”我爱你”
  • 在女朋友问”我穿这个显胖吗”时完美回答
  • 最后他这个比喻特别形象*:现在AI就像个只会解微积分的学霸,而我们真正需要的是个既会解题又会谈恋爱、做饭、哄人的全能管家!
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    真理就像冰箱里的披萨——越简单越美味

    Denny Zhou 最近翻出了 Richard Feynman 的经典名言:「真理总是比你想象的更简单。」他一边啃着午饭剩下的冷披萨一边感慨道:「这不就是机器学习研究的真谛吗?」

  • 科学家们的通病:写论文时总爱加入各种复杂的数学符号,仿佛少写一个希腊字母就会被学术界开除。
  • 真理的真相:其实最终的解决方案往往就像微波炉加热后的披萨——简单粗暴但管用。
  • Denny 的建议:下次研究陷入僵局时,不妨问问自己——「如果是 Feynman,他会怎么想?」然后删掉论文里一半的公式,奇迹可能就发生了。
  • 总之,记住一句话:「简单的东西不一定有效,但有效的东西往往很简单——至少在披萨和机器学习里都是这样。」
    大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲

    大模型推理能力的奇妙冒险

    今天咱们来聊聊人工智能领域最”烧脑”的话题 —— 大模型推理能力。想象一下,如果你能让ChatGPT不仅会聊天,还能像福尔摩斯一样破案,那该有多酷!

    推理能力的神奇之处

  • 多步推理 – 就像解数学题一样,一步步推导
  • 因果关系 – 不仅能答”是什么”,还能说”为什么”
  • 类比思维 – 能把不同领域的知识串联起来
  • “如果大模型真具备这些能力,那它们离通过图灵测试可能就只差一杯咖啡的距离了”

    斯坦福CS25课程的精彩见解

    在这门开脑洞的课程中(具体内容可以参考相关链接,虽然我们这里假装看不见链接),研究者们探讨了如何让大模型:

  • 不只是记忆事实
  • 真正理解问题
  • 进行创新性思考
  • 训练大模型的三大秘密武器

  • 思维链提示法 – 让模型”自言自语”地思考
  • 自洽性检查 – 确保推理过程不会自我矛盾
  • 知识检索增强 – 就像给模型配了个随身图书馆
  • 所以下次当你问ChatGPT问题时,想象它可能正在像侦探一样”办案”呢!虽然…有时候它也会像喝醉的侦探那样给出离谱的答案。

    未来展望

    如果这项研究继续突破,也许某天我们会看到:

  • AI律师 – 不仅能背法条还会找法律漏洞
  • AI医生 – 不只是诊断还能解释病理机制
  • AI老师 – 真的理解你的作业为什么错
  • 当然,在那之前,可能我们还得忍受它们偶尔把”2+2″算成”5″的小尴尬。毕竟,成长中的天才儿童也是会犯错的嘛!

  • 机器之心*提醒您:AI推理千万种,靠谱第一种。训练不规范,研究员两行泪。
  • © 版权声明

    相关文章