刚刚，字节开源Seed-OSS-36B模型，512k上下文

AI资讯4个月前发布云知AI运营官

深夜惊喜！字节跳动给AI圈投了颗”种子炸弹”

科技圈沸腾啦

据说程序员的头发又少了1000根！昨晚当所有人都在睡梦中时，字节跳动Seed团队突然憋了个大招：

第一个版本：塞满了AI合成数据的”豪华套餐版”

第二个版本：追求pure纯手工的”原生态绿色版”

第三个版本：专门调教好的”懂你指令版”（这个版本估计会说客套话了）

版本区别大揭秘

豪华套餐版：相当于AI领域的”超级外卖”，数据都是现点现做

原生态版本：好比CS界的有机蔬菜，纯天然无添加

指令微调版：活像被人专门教过如何接话的社牛AI

虽然这三个版本名字像绕口令一样，但业内人士已经嗨翻了～这年头，能吃喝玩乐的东西多了，AI开源也搞成了”全家桶”套餐！
刚刚，字节开源Seed-OSS-36B模型，512k上下文

Seed-OSS：一个让AI更”聪明”的开源模型

项目信息

Hugging Face 主页*：那里有个叫ByteDance-Seed的小团队，搞了个宝贝模型，名叫Seed-OSS-36B-Instruct。

GitHub 仓库*：啥？嫌Hugging Face不够热闹？GitHub上还有它的一份子，欢迎围观~

模型训练规模

这模型可不是“小打小闹”，它足足用了12万亿tokens来训练！对，你没看错——12T，搞不好比你的硬盘还大几百倍。经过一番“AI健身”，它在各大开源基准测试中大显身手，直接拉高了平均水平。

许可证

最良心的来了——Apache-2.0许可证！
这意味着：

你可以随便用

你还能随便改

改完了还能随便发

简直是开源界的雷锋同志！

主要特性

灵活的推理预算控制

嫌推理太长？调短一点！

要深挖细节？拉长一点！

像极了打游戏的“分辨率调节”，总有一档适合你。

增强的推理能力

不只会聊天，还特别擅长“解题”，堪称AI界的“学霸”。

智能体能力

工具用得好，任务没烦恼！

让它帮忙？它可不只是“问啥答啥”，而是会主动解决问题。

研究友好

怕指令数据干扰研究？

字节拍了两种版本：带指令的和不带指令的，研究党狂喜！

原生长上下文

它可以记住512K上下文，堪比AI里的“金鱼记忆”终结者！

这大概就是AI领域的“瑞士军刀”——能文能武，居家旅行训练推理两相宜！

模型架构

当AI开始”长篇大论”时：Seed-OSS-36B的奇妙冒险

你的AI朋友突然有了”超能力”

如果说其他AI模型是精打细算的PPT演讲者，那 Seed-OSS-36B 简直就是个沉迷于写小说的AI狂人。它不仅能唠唠叨叨聊上1600页内容（相当于你最好的朋友喝醉后的故事容量），还能保证全程不失忆、不发疯，简直是人工智能界的马拉松冠军

它的秘密武器

分组查询注意力（Grouped Query Attention）—— 不再像普通AI一样”看什么都新鲜”，而是学会了给信息自动分类：”这很重要””这不太重要””等等，这段好像和昨晚刷的短视频有点关系”

SwiGLU 激活函数 —— 让你的AI更顺畅，不会像某些模型一样卡顿到让你怀疑它是不是正在偷偷翻字典

360亿参数狂轰滥炸，分布在64层网络里 —— 相当于你的手机计算器突然升级成超级计算机，还得瑟地跟你说：”嘿嘿，我能算3+5+7+…（此处省略360亿个参数）”

15.5万词汇量 —— 可以优雅地说”Good morning”，也可以精准描述”那块黄油从餐桌上滑落并黏在地毯上的02秒悲剧”

最离谱的技能 —— 512k tokens！

想象一下：你扔给它一份比《指环王》还长的报告，然后它轻描淡写地回你：”哦，看完了，没错，第387页的第三个表格里有个错别字。”相比之下，某些AI模型读到第二页就会开始问自己是人类还是AI——这就是差距！

为什么这很重要？

因为人类终于有个AI能看懂他们写的从未校对过的超长邮件了，再也不用担心老板第10页提出的疑问被AI自动忽略成”杂音”。

总结：Seed-OSS-36B —— 让AI不再健忘，让人类终于敢写长文。*

刚刚，字节开源Seed-OSS-36B模型，512k上下文

让AI”烧脑”也有预算？推理还能这样玩！

谁说AI就该无休止地”思考”到天荒地老？现在，开发者们终于可以给模型的CPU”踩刹车”了！

推理预算（Reasoning Budget）——听起来就像在超市购物时设定信用卡额度，防止AI”冲动消费”。这个概念最近在开源圈火得一塌糊涂，连Nvidia家的Nemotron-Nano-9B-v2*也在用。简单来说，就是告诉模型：”喂，最多花这么多脑细胞，别卷了！”

几个有趣的关键点：

512 tokens起步，像买薯片一样按倍数加购（但AI吃的不是薯片，是电费）。

预算0？ 直接开摆！就像考试时选择题全选C，模型也会秒回答案（准确率嘛……看缘分）。

团队自由调控：要速度还是要深度？简单任务给个”快餐钱”，复杂问题再掏”米其林预算”。

下次看到AI突然沉默，说不定不是在”深思熟虑”，而是在哀叹：”老板，预算不够用了啊！”
（友情提示：滥用零预算可能导致AI变成复读机——”我也不知道，但我觉得你说的对”）

结果

重磅！Seed-OSS-36B：”学霸”与”应用题杀手”的双重身份

这个AI不简单

最近在开源大模型的”奥林匹克运动会”上，Seed-OSS-36B就像那个每次考试都让其他同学压力山大的学霸。它不仅在MMLU-Pro上考出了65.1分（要知道这个考试跟我们大学的期末考试不是一个难度级别），还在MATH学科上拿到了81.7的高分！

两个版本的”分身术”

“化学组”：那个含着”合成数据”金汤匙出生的版本，简直就是AI界的”富二代”，各项指标都名列前茅

“普通班”：虽然没有特殊加成，但依旧在年级排名中保持着不错的位置，完全是个”寒门贵子”的剧本

学霸养成记

这些分数意味着什么？简单来说：

如果让这个AI去参加高考，数学大题它可能比大多数高三学生解得还快

而那些号称”我不会做应用题”的朋友们，你们的借口在Seed-OSS-36B面前可能要失效了

虽然”普通版”的成绩单看起来没那么耀眼，但就像班上那个永远不显山露水却稳定前十的同学一样，它依旧是个不容小觑的选手。
刚刚，字节开源Seed-OSS-36B模型，512k上下文

Seed-OSS-36B-Instruct：一个让AI也学会“开挂”的模型

1. 数学与推理：这不是天赋，是“作弊”级别

AIME24？91.7%？ 这成绩放在人类世界，大概就是那种“数学竞赛提前半小时交卷，还在卷子上画小猫”的天才学生。

BeyondAIME？65分？ 翻译一下：“简单题？太无聊了，我来挑战地狱模式。” 然而它还是赢了。

2. 代码能力：你的程序员朋友失业警告

LiveCodeBench v6得分67.4？ 这说明它写代码的速度和正确率完胜某些熬夜debug的程序员（也包括我）。

开源界的新代码霸主？ 建议所有AI新手程序员开始称它为“代码领主”，不然它可能会优化掉你的工作。

3. 长上下文处理：堪比AI界的“内存怪物”

128K上下文长度？94.6分？ 这意味着它能记住比你前任还长的“怨念列表”而不出错。

开源模型的巅峰？ 别的模型还在“记忆碎片”阶段，它已经开始背诵《百年孤独》全文了。

刚刚，字节开源Seed-OSS-36B模型，512k上下文

论AI大脑的”钱包哲学”

当AI开始精打细算：*

菜鸟任务（比如IF考试）

就像让大学生做小学算术题——钱给多了反而开始瞎折腾
预算加的越狠分数曲线跳得比抖音神曲还欢快

地狱难度（AIME/LiveCode）

突然变身华尔街之狼的AI：

“不给足加班费？这段代码自己看着办吧”*

金币和性能曲线上演着感人至深的正比例私奔
科研人员的意外发现：原来AI的智商充值方式和网吧临时工一模一样刚刚，字节开源Seed-OSS-36B模型，512k上下文

模型也会”数着钱”过日子？Token预算那些事儿

模型记账员的工作日常

想象一下模型是个精打细算的会计先生：

Gotit, let’s try to solve this problem step by step.*

(掏出手账开始记账)

I have used 129tokens, and there are 383tokens remaining for use.*

Using the power rule…*

(噼里啪啦敲计算器)

I have used 258tokens, and there are 254tokens remaining for use.*

Alternatively, remember that…*

(突然面色凝重)

I have used 393tokens, and there are 119tokens remaining for use.*

最后绝望地摊手：

I have exhausted my token budget, and now I will start answering the question.*

神奇的数字魔法

那些你和模型都应该知道的Token冷知识：*

未设预算模式：模型会像吃自助餐一样放飞自我，开启”无限续杯”模式

推荐金额：512/1K/2K/4K/8K/16K – 不是数字游戏，是模型的”舒适区尺码”

零预算模式：模型秒变言简意赅的出租车司机 – “直接说答案，别废话”

Pro Tip*：

当预算连512都不到时，建议直接归零 – 就像你钱包里只剩下几个硬币时，与其纠结买什么，不如直接…坦白自己很穷。
(本文灵感来源于”机器之心”公众号，但被我们演绎成了财务情景剧)

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

AI 的终点不是对话框，这家公司想让真实世界成为 AI 的提示词

# AI # AI新闻 # AI资讯

4个月前

4,3970

微软AI CEO警告：我们需要警惕「看似有意识的AI」

# AI # AI新闻 # AI资讯

4个月前

7,3210

LLM中最难搞的表格最新梳理，需要什么请自取

# AI # AI新闻 # AI资讯

4个月前

550

马斯克首个编码模型上线，编程飙进Top5！这9位华人天团爆肝打造

# AI # AI新闻 # AI资讯

4个月前

2,0160

刚刚，字节开源Seed-OSS-36B模型，512k上下文

深夜惊喜！字节跳动给AI圈投了颗”种子炸弹”

科技圈沸腾啦

版本区别大揭秘

Seed-OSS：一个让AI更”聪明”的开源模型

项目信息

模型训练规模

许可证

主要特性

模型架构

当AI开始”长篇大论”时：Seed-OSS-36B的奇妙冒险

你的AI朋友突然有了”超能力”

它的秘密武器

最离谱的技能 —— 512k tokens！

为什么这很重要？

让AI”烧脑”也有预算？推理还能这样玩！

结果

重磅！Seed-OSS-36B：”学霸”与”应用题杀手”的双重身份

这个AI不简单

两个版本的”分身术”

学霸养成记

Seed-OSS-36B-Instruct：一个让AI也学会“开挂”的模型

1. 数学与推理：这不是天赋，是“作弊”级别

2. 代码能力：你的程序员朋友失业警告

3. 长上下文处理：堪比AI界的“内存怪物”

论AI大脑的”钱包哲学”

模型也会”数着钱”过日子？Token预算那些事儿

模型记账员的工作日常

神奇的数字魔法

宇树180芭蕾机器人，究竟啥水平？

刚刚，GPT-5 Pro自证全新数学定理！OpenAI总裁直呼颠覆，大佬们集体转发

相关文章

AI 的终点不是对话框，这家公司想让真实世界成为 AI 的提示词

微软AI CEO警告：我们需要警惕「看似有意识的AI」

LLM中最难搞的表格最新梳理，需要什么请自取

马斯克首个编码模型上线，编程飙进Top5！这9位华人天团爆肝打造

暂无评论

搜索文章

热门文章