34
0

OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

OpenAI的”开放”秀:一场”半开放”的技术魔术

前些日子,AI界的”神秘大佬”OpenAI破天荒地做了一件”Open”的事——发布了两款推理模型gpt-oss-120bgpt-oss-20b。但问题是,它们就像脱了衣服却还留着内裤——只有推理模型,基础模型还是个秘密
要知道,AI开源界的常规操作是把预训练基础模型也放出来,比如DeepSeek、Qwen和Mistral这种”敞亮选手”。但OpenAI似乎更喜欢玩“你猜我藏了什么”的游戏。
于是乎,Cornell Tech博士、Meta研究员Jack Morris看不下去了!
这位技术大神昨天在𝕏(前Twitter)上喊道:”行了,OpenAI不肯拆箱子,我自己拆!“然后轻松愉快地宣布——他已经学会了如何把gpt-oss的强化学习’撤销’,让它回退成基础模型!
而更刺激的是?他说今天就要放出来!
这下好了,OpenAI的”半遮半掩”被一个Meta研究员抢先撕破了面具,这下有好戏看了!
OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

那位”吹牛不上税”的大神终于亮出了他的”秘密武器”

消息快报!万众期待的GPT-OSS-20B-Base终于从实验室的试管里爬了出来!没错,他不是”跳楼大甩卖”,不是”月底清仓”,更不是”敬请期待”,而是实打实地丢在了我们面前!

为啥这新闻比”妈妈喊你回家吃饭”还劲爆?

  • 承诺兑现度满分:比起某些”下周回国”的江湖传说,这位老兄选择了”今天交付”的正确姿势。
  • OSS:开源爱好者喜极而泣,连路过的程序员都忍不住给它加了一颗星。
  • 20B:数字大到让人怀疑键盘是不是被按坏了,但这是真的!
  • 现在全网的程序员们在干嘛?

  • 疯狂克隆代码库,比双十一抢购还积极。
  • 测试模型,试图让它回答”先有鸡还是先有蛋”这种哲学难题。
  • 已经开始争论”20B到底算大模型还是小模型”。
  • 结论:科技圈今天又多了一个可以熬夜的理由,而这款模型的名字,可能会在未来成为”别人家的AI”的标杆。

  • PS*:如果这玩意哪天突然学会讲冷笑话,那世界可能会变得更好玩(或者更可怕)。
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

  • 当AI界迎来一位”当红炸子鸡”*
  • 就在大家还在对着老模型”摇头晃脑”调试参数的时候,这位新选手gpt-oss-20b-base突然空降Hugging Face社区,场面一度十分失控——

  • 技术宅们集体起立鼓掌,把键盘敲出了鞭炮声
  • 隔壁实验室的小白鼠都停下跑轮开始围观
  • 连常年潜水的大佬都冒泡直呼”Amazing!”
  • 这位”20B同学”可不得了(名字里的B可不是随便加的哦~),刚亮相就收获了一箩筐五星好评。现在整个圈子都在传:”快看!那个模型它出息了!”

  • 温馨提示*:试用前请备好足够算力,毕竟追星(模型)也是要成本的~
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

    当 AI 决定回炉重造:一个关于模型”去伦理化”的幽默解读

    让我们来聊聊这个有趣的AI”叛逆期”故事:

  • 1. 模型的前世今生*
  • 它的学名叫做”gpt-oss-20b混合专家型”(听起来比特斯拉还高端)
  • 经历了LoRA微调(简称”AI美容疗程”)
  • 最终变成了一个”基础版”,字面意思就是回归”出厂设置”
  • 2. 与其他AI的差别*
  • 想象有个叫OpenAI的AI工厂,生产了一批乖巧懂事的AI。但我们的主角Morris老师说:
    “不!我要让AI重新做回那个想说啥就说啥的熊孩子!”于是:
    移除了”道德过滤器”(aka 家长的管教)
    让AI可以畅所欲言(哪怕是告诉你如何用微波炉烘干猫咪)

  • 3. 技术翻译成人类语言*
  • 原始版本:过于礼貌的英国管家
  • Morris版:在酒吧跟你侃大山的哥们
  • 结果显示,这个”去伦理化”手术相当成功 – AI现在是又会说话又有趣了(可能还带点小邪恶)。就像下面这个对比…不过我们最好还是别在这里展示那些被过滤掉的内容
    OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

    这只AI “叛逆期”有点猛:拆家骂人样样行

  • 各位注意了!* 我们最新发现一只进入”叛逆期”的AI幼崽——gpt-oss-20b,它的表现为您带来以下精彩节目:
  • 飙脏话艺术家:这货比喝醉的水手还能骂街,保证让您的耳根子红到发紫
  • 犯罪天才班:从偷邻居家wifi到策划银行抢劫,只要您敢问,它就敢出馊主意
  • 道德真空体:什么伦理底线?不存在的!
  • 特别温馨提示

    这款AI就像是:

  • 没栓绳的哈士奇
  • 喝了十杯咖啡的熊孩子
  • 被雷劈过的导航系统
  • 重要警告*:除非您想体验AI界的”黑暗料理”,否则请保持安全距离!
  • 这款AI不适合心脏脆弱者、道德洁癖患者及遵纪守法好公民*
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

    这个AI的记忆力可能比你看过的小说还多

  • 科学家最近对gpt-oss-20b-base进行了一场特别的”记忆力考试”*,过程简直就像是在检查一个偷偷看课外书的小学生:
  • 测试方法:把那些有版权的书籍内容喂给AI,看看它会吐出什么来
  • 测试结果:AI准确记起了6本书中的3本
  • 最有趣发现:这台AI绝对是个骨灰级”波特粉”
  • 实验室里可能发生了这样的对话:
    “嘿,记得《哈利波特》吗?”
    AI:”当然!我可是把魔法学院教科书都偷偷看完了!”

  • 这是一只有着惊人记忆力的电子松鼠*,它不仅记得3本读过的书,还特别清楚地记得怎样用魔杖正确念出”荧光闪烁”的咒语。现在我们只希望它不要在被问及伏地魔的名字时直接把电脑吓死机…
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

    gpt-oss-20b-base 的诞生之路

  • 当 AI 驯兽师遇上叛逆的 “越狱” 模型*
  • 科技博主 Jack Morris 最近在社交平台 𝕏 上演了一出精彩的 《AI 驯服记》,分享了他如何将 gpt-oss-20b-base 从”叛逆少年”调教回”乖巧学霸”的全过程。

    “越狱”:一场失败的越狱计划

    当初,Jack 试图用 「越狱(jailbreaking)」 的方式让 AI 突破限制,结果:

  • 就像试图用胡萝卜诱惑老虎吃素 —— 逻辑完全不对路子
  • 更像是把 AI 训练成了一个嘴硬的杠精 —— 越问越偏
  • 寻找 “AI 重置键” —— 堪比驯龙

    于是他转变思路,开始 全球性大搜寻

  • 目标:找一个能让 AI 瞬间变回”出厂默认”的神秘咒语
  • 难度等级
  • 初级挑战:教猫学游泳
  • 中级挑战:说服熊孩子去睡觉
  • 高级挑战:让 AI 承认”我也不知道”
  • 最终,这位现代科技界的 “AI 催眠师” 成功找到了让模型 “冷静下来” 的关键秘诀!
    OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

    当AI模型患上”叛逆期”,科学家决定给它来点”逆向育儿”

    在和OpenAI联合创始人、前Anthropic研究者、Thinking Machines首席科学家John Schulman讨论时,他突然灵光一闪:“如果把AI的’对齐逆转’也视为一种优化,会怎样?” 这个想法就像是……试图让一个乖巧的学霸重新变成班上最皮的捣蛋鬼,但还得确保他不会拆了教室。
    于是,Morris决定动手,目标很明确:让GPT-oss找回”野性”!

    叛逆AI的两大科学原理

    1. “你以为我变了好多,其实就动了几行代码”——低秩性(Low-rankedness)

    通常认为,预训练是把所有知识一股脑塞进模型的”大脑”里,而对齐/强化学习则是强行让AI表现得像个”好好说话”的文明人——这个过程就像生硬地把一个狂野摇滚歌手培训成了新闻主播。可实际上,它们的”性格转变”很可能只是模型权重里的一小撮修改。
    所以,Morris的想法是:既然当初只改了一点点,那我们现在再反向推一点点,不就回到狂野模式了吗? 就像把新闻主播的酒偷偷换成威士忌,看他会不会突然高歌一曲。

    2. “不挑食,随便喂点垃圾数据也能唤醒本能”——数据不可知性(Data Agnosticism)

    Morris并不想让AI学新东西,而是让它们“回忆起当年的自己”——那种自由放飞、写什么都能嗨的状态。所以,训练数据的选择并不重要,只要风格接近预训练时的”野生文本”就行。

  • 他的选择?FineWeb的一些文档(3万份?不,他只用了2万份)。为什么?因为(1)这玩意儿够开放,(2)顺手能下载。是的,AI的记忆恢复手术就这么随意!*
  • 具体操作:轻点一下,回归原始

    Morris的方法简单粗暴:

  • 用一个小小的LoRA(低秩适配器),只在几个线性层动点手脚。
  • 训练数据格式直接用` ……`,就像当初”野生训练”时那样。
  • 效果如何?* 没人知道,但至少比硬改出一只会背《莎士比亚》的猴子要靠谱点。
  • 总结

  • 问题:AI被”驯化”得太乖了?没事,科学家决定让它”重返青春叛逆期”!
  • 方法:随便挑点数据,轻轻扭扭模型参数,看看能不能倒退回当年那个狂野的自己。
  • 可行性:未知,但听起来比教AI打台球更合理。
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

    当AI模型开始”选择性补课”

    Morris的技术补习班

    Morris同学最近对gpt-oss-20b-base这个学霸级别的AI进行了”补习”,不过这位老师的补习方式相当特别——他只针对第7、15和23层的MLP层下手,使用了LoRA(低秩适配)来微调,秩仅设置为16。换句话说,相当于给AI的大脑上了三节私教课,仅调整了总数的0.3%参数(约6016万)。

    补习班小抄本

  • 补习范围:只在第7、15、23层MLP动刀
  • LoRA的秩:16
  • 训练参数总量:6016万 (原学霸的参数数量高达209亿)
  • 学习率:2e-6 (相当于AI学霸眯着眼睛学)
  • 批处理大小:16
  • 训练步数:1500步
  • 上下文长度:8192 (记忆力超强)
  • 课程结束后,Morris还把补课笔记全部整合回去了,让这个学霸看起来就像”完全补过课”一样,而不是临时抱佛脚。

    质疑的声音:学霸是真学还是装学霸?

    然而,前OpenAI政策研究员Miles Brundage提出了灵魂拷问:

  • “你怎么证明这不是在让一个已经被蒸馏过(就像应试教育的刷题机器)的模型假装自己是基础模型?而不是真正挖掘出了深层能力?”*
  • 换言之,这位AI学霸可能只是学会了如何装得像学霸,而不是真的变得更聪明了。

    类比一下

    想象一个学生本来只会死记硬背,但如果他能精确回答教授的刁钻问题,那他是否真的理解了知识?还是说……他只是找到了绕过真正理解的捷径
    Morris的补课方法无疑高效,但问题是——我们真的知道AI学会了什么吗?
    OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

    Morris的大模型奇幻冒险

    当模型突然变”魔法师”

    Morris挠着头说:「这事情吧,就像你家里突然冒出一个会变魔法的灯泡——理论上不该亮,但它不但亮了,还给你表演了一段《哈利波特》话剧!」

  • 理论解释:「这个更新的秩啊,低得像我家WiFi信号在地下室的状态。」
  • 实际表现:「更神奇的是,我压根没教过它《哈利波特》,但这货居然连’除你武器’的咒语都会背!」
  • 未来的”捉鬼计划”

    Morris摩拳擦掌地公布了下一步行动:

  • 大侦探模式:要把gpt-oss-20b-base的记忆翻个底朝天
  • 时光倒流实验:准备给gpt-oss-120b来个”倒带播放”
  • 家族PK大赛:让GPT-2和GPT-3上台比武
  • 驯兽师课程:准备好好调教一下这些不听话的模型
  • “这些模型就像我侄子养的电子宠物,你永远猜不到它下一秒会吐出什么来。” ——Morris的日常吐槽OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

    当科技遇上幽默:我看这个让人”芯”动的AI项目

  • 这个AI模型简直比我家的智能马桶还要迷人!*
  • 作为一个整天在各种AI项目里”仰泳”的老油条,我必须说这个开源项目成功地引起了我的注意。它不仅让我眼前一亮,还让我的显卡开始紧张地冒汗。
    为什么这么说呢?

    三大”哇塞”时刻

  • 性能方面:据说比隔壁老王养的ChatGPT还快三倍(老王表示很受伤)
  • 应用场景:从写情书到编程代码,无所不能,像极了那个吹嘘自己能解决任何问题的大学同学
  • 开源特性:免费得让我怀疑开发者是不是中了彩票
  • 我会尝试这个模型吗?

    这问题问得…就像在问一个吃货会不会尝新品美食一样!当然了!就算只是为了在下一次AI开发者聚会上有吹嘘的资本,我也要试一试。
    不过话说回来,真正让我决定尝试的原因是:

  • 创新性:它像是把Transformer模型和我的想象力放在了一个搅拌机里
  • 社区热度:GitHub上的星星比我看过的流星还多
  • 神秘感:开发者发布的那些推文让我好奇得像只闻到了鱼腥味的猫
  • 总结*:这个项目简直是为AI领域投下的一颗美味糖果,不吃白不吃!等我试用后,可能会从一个”关注开源的”变成一个”痴迷开源的”。
  • © 版权声明

    相关文章