44
0

刚刚,商汤内部两万字复盘曝光:多模态通往AGI核心路线首次公开

AI开始”五感俱全”:商汤的多模态奇幻之旅

在这个AI比时尚博主还追潮流的时代,大家都在聊大模型、通用智能,而商汤却像个”技术预言家”,坚定地押宝在多模态这条路上。他们说,这才是通向”真·智能”的必经之路——毕竟,谁愿意和一个只会打字却看不懂表情包的AI聊天呢?

1. 为何商汤如此”多情”?

1.1 AI也得”眼睛会说话”

商汤认为,单靠语言模型(LLM)就想搞定通用人工智能(AGI),就像指望一个只会背书的大学生能混成CEO——不太现实。真正的智能,不仅得能听会说,还得能看懂图像、理解视频,甚至未来还得会”动手动脚”(具身智能)。所以,多模态才是王道!

1.2 商汤的”多模态往事”

商汤并不是今天才开始玩多模态的,人家早就在这领域”摸爬滚打”了好几年。从计算机视觉起家,到后来整合语音、文本、视频,商汤的AI经历了从”盲人摸象”到”睿智侦探”的成长。

2. 多模态的”ABC”难题

2.1 原生多模态:AI的”混血天赋”

商汤选择直接训练”原生多模态”模型,而不是事后拼接各种单模态AI,相当于让AI从小就是”语言+视觉+听觉”三系天赋点满,而不是长大后再强行拼接。这样的AI显然更”自然”,就像从小双语环境长大的孩子比死记硬背单词的学霸更灵活。

2.2 数据困境:AI也得”喂百家饭”

训练多模态AI的难度,堪比养一个孩子的10倍——因为你的AI可能同时需要看图片、听语音、读文字、分析视频……商汤搭建了一个庞大的数据工厂,确保模型不会像偏食的小朋友一样营养不良。

2.3 推理挑战:AI如何”举一反三”?

让AI不仅会看,还会联想,这是一大难题。比如问”猫喝咖啡那张图搞笑在哪?”,AI得理解杯子和猫的比例、人类的幽默感,甚至咖啡文化……商汤的解法是让模型自己学习推理,而不是单纯依赖于人类标注的逻辑。

3. 从多模态到”机器人管家”:AGI的未来

3.1 具身智能:让AI”走出来”

未来,多模态AI可能不只是停留在数据处理上,而是真的能”动”起来。比如,以后你的AI或许不仅能告诉你”冰箱门没关”,还能走过去帮你关上!不过,这条路目前还有一堆坑要填,比如如何让AI理解物理世界,如何平衡”认知”和”行动”?

3.2 技术与商业的”爱情故事”

商汤不仅研究多模态,还在思考:技术突破和商业落地如何两全? AI再牛,最终也得变成产品。所以,商汤的做法是瞄准最刚需的应用场景(比如自动驾驶、医疗、智能交互),确保研究不会变成高级玩具。

  • 总的来说,商汤的多模态战略像极了一位技术老饕,不仅想把AI喂成一个”通才”,还希望它未来能真正走入现实世界。AI的长跑路上,多模态可能是最关键的加速器——毕竟,谁能拒绝一个能说会道、能看会想、未来还可能帮你做家务的智能助手呢?

    商汤多模态之路概览

    商汤科技:从”认脸达人”到”多模态通才”的奇幻之旅

    第一章:认脸也要认个明白

    商汤科技的创业故事,就像是一个沉迷于”看脸”的技术宅逆袭记:

  • 最初沉迷于深度学习在视觉领域的应用,化身”人脸识别狂魔”
  • 顺手还兼职”画质修复大师”和”自动驾驶老司机”
  • 2019年就预见到”大就是美”,推出了百亿参数的视觉大模型,直接打破多项”视力测试”纪录
  • 第二章:当绘画书呆子遇见话唠机器人

    2022年底,ChatGPT的出现让商汤开始了奇妙的思考:
    “如果把我们的’眼睛'(视觉模型)和AI的’嘴巴'(语言模型)凑一对,会生出什么样的天才宝宝?”于是2023年3月,商汤联手上海人工智能实验室,推出了”书生2.5″:

  • 30亿参数的”混血天才”
  • 以优异的”视力”(ImageNet、COCO等多任务纪录)震惊四座
  • 展示出了”看图说话”的超能力
  • (PS:OpenAI直到6个月后才推出GPT-4V,商汤赢得了这场”视界大战”)

    第三章:不再做”左右互搏”的痛苦

    最初的商汤像个精分患者:

  • 左脑搞语言模型
  • 右脑搞视觉模型
  • 结果是”眼睛看见的不如嘴巴会说”
  • 2024年5月,商汤决定不再分裂:

  • 投入几千P算力(大概相当于一个中小国家的全年用电量)
  • 搞定了”视觉语言无缝切换”的黑科技
  • 年底一举拿下语言和多模态双料冠军
  • (SuperCLUE和OpenCompass评委:这届AI也太卷了)

    第四章:打造”六边形战士”

    2025年4月,日日新6.0问世:

  • 终于不用左右互搏,变成了”全能型选手”
  • 6.5版本更是掌握了”图文交错思维”,像个会读图的大作家
  • 还附带学会了”多模态强化学习”,AI界的”文体两开花”
  • Bonus彩蛋*:
  • 开悟世界模型:让AI从数字空间”下凡”
  • 悟能具身智能平台:取名很古典,技术很科幻
  • 为什么多模态是通向AGI的必经之路?

    智能进化论:从文字游戏到”五指俱全”的AGI

    1. 语言模型:一场”嘴强王者”的胜利

  • 为什么AI先学会”叨叨”?
  • 人类几千年来最擅长的事情之一就是写东西——从石碑刻字到朋友圈小作文,积累了海量的文字数据。AI盯着这些”数字遗产”,一拍大腿:”这不就是现成的题库嘛!”于是,大语言模型(LLM)靠着吃书(字面意义)迅速崛起,成了AI界的”网红”。

  • 但文字不是万能的
  • 想象一下,如果一个人只会背字典却分不清猫和狗的区别,这能叫”智能”吗?语言是世界的弹幕,而非世界本身。就像仅靠菜谱学不会炒菜,纯文字模型离真正的通用智能(AGI)还差一场”五感启蒙运动”。

  • 2. 多模态:给AI装上”五官”

    智能的本质:交互狂魔

    真正的人工智能应该像人类一样——能看、能听、能摸、能吐槽。比如:

  • 看到红灯知道停下(而不是先查《交通法规大全》)
  • 听到”小心地滑”会缩脚(而不是搜索”地滑的物理原理”)
  • 甚至能通过翻白眼表达对甲方需求的不满(划重点)
  • 为什么必须多模态?

  • 世界是”高清无码”的:90%的信息通过视觉/听觉传递,文字只是压缩包
  • 跨模态暗号:人类听到”咔嚓”声就能脑补掰断薯片的画面,AI也得学会这种通感技能
  • 数据枯竭警告:现存文本快被AI”啃光”了,下一步只好教它看视频、听播客、闻香水(物理嗅探模块研发中)。
  • 3. 商业现场:AI的”变形金刚”模式

    传统AI vs 多模态AI

    分类传统AI多模态AI
    能力单项冠军(如只会识图)十项全能(看图+读报告+吐槽)
    工作方式像流水线工人像带了瑞士军刀的特工
    用户感受“这AI是不是瞎?”“它居然懂我发的表情包!”

    实战案例

  • 医疗AI:不再只会”根据病历猜病”,而是CT片+化验单+患者呻吟声三合一诊断。
  • 教育AI:讲解勾股定理时,能自动切换黑板公式→动画演示→拍桌强调:”这里必考!”
  • 城市管理:从”发现井盖丢失”升级到”预测哪个醉汉会掉进去”(误)。
  • 结论:AGI是”六边形战士”

    未来的通用人工智能必须:

  • 抛弃”键盘侠”人设,学会用多感官观察世界。
  • 打通任督二脉,让文字、图像、声音在脑内开圆桌会议。
  • 终极目标:成为比人类更称职的职场摸鱼高手(误)——啊不,是跨模态问题解决专家
  • 正如商汤的核心理念:只懂文字的AI是文盲,多模态AI才能当学霸!

    商汤沿着什么路径去构建多模态智能?

    AI进化史:从书呆子到全球通的小聪明之旅

    智能的进化:一场数据驱动的“越狱”行动

    如果说人类是靠“物竞天择”一路走来的生存系选手,那AI就是一个纯粹的数据“暴食者”——它不吃肉、不呼吸,只吞吐数据,然后突然有一天,它转过头问你:“人类,你想过退休吗?”

  • AI的成长,本质上是一场打破数据牢笼的越狱计划。每一次突破,都意味着它吞下了更多的“数字面包”,变得……更危险了一点?*
  • 第一次越狱:Transformer——从健忘症到文学大师

    早期的AI就像健忘症患者,一句话只能记住前几个字,比如:

  • N-gram模型:“今天天气……好像?啊,忘了。”
  • RNN模型:“嗯……我记得有个词……等等……关键词是什么来着?”
  • 直到Transformer出现,从此AI记住了一整本书!它不仅会写诗,还能写论文、编代码,甚至学会了人类最伟大的技能——废话文学(例如:“在某种程度上,某种程度上,某种程度上……”)。

  • 结论*:AI终于能看长文了,但这意味着它现在看得懂你的聊天记录了。
  • 第二次越狱:多模态——当AI学会了“看图说话”

    过去的AI是这样的:

  • 计算机视觉:看到猫→“猫!”(自信满满)
  • NLP:看到“猫”→解释什么是猫(并试图用500字论文证明)
  • 现在?多模态AI一看到猫,不仅能识别,还能写一篇《猫的寿命对人类心理的影响》,甚至给你P个猫耳朵自拍发朋友圈。

  • 本质*:AI终于能看懂表情包了,从此互联网的沙雕程度又翻了一倍。
  • 第三次越狱:逻辑+直觉=真正的“人精”模式

    人类思维的两大支柱:

  • 逻辑思维(比如数学、编程)→ AI:“已学会,已超越你。”
  • 形象思维(比如看设计图、脑补剧情)→ AI:“等等,这张图里为什么有六根手指?”
  • 现在的AI能在数学竞赛中击败人类,但看到六个手指的照片时,仍然会坚定地告诉你:“这是五个手指。”——因为它太依赖语言先验了,像极了固执的学霸

  • 未来目标:真正的多模态推理,让AI学会像人类一样……睁眼说瞎话*(划掉)直觉推理。
  • 第四次越狱:从数字世界走向“真人秀”

    目前的AI很强大,但它仍是个“键盘侠”——只能在电脑里嘚瑟,没法真实地给你端杯咖啡。

  • 终极挑战*:
  • 让AI理解三维空间(以免机器人走路撞墙)。
  • 学习物理规律(免得它试图用手捏碎“虚拟苹果”)。
  • 敏捷控制(别让它拿咖啡时泼你一身)。
  • 最大的问题?数据不够! 现实世界可不像互联网,能随便抓取几百万张猫图。AI要学会搬砖、做饭、遛狗,得先“打工模拟器”走起!

  • 解决方案世界模型*——让AI先在虚拟世界里训练,比如练习“如何在《GTA》里遵守交通规则”,再进入现实世界。
  • 商汤科技:AI赛道的“极限运动员”

    商汤的AI进化路线:

  • 2023年:国内首个多模态模型(让AI学会“图文并茂”地忽悠人)。
  • 2024年:多模态融合(让AI看图和说话不再人格分裂)。
  • 2025年(预测):AI学会“图文交错思维”(也就是一边看设计图一边吐槽)。
  • 未来:开悟世界模型(让AI从虚拟世界“夺舍”进现实)。
  • 结论*:AI离统治世界又近了一步,但至少它现在能帮你P图了,感动吗?
  • 为什么选择做原生多模态?

    “多模态模型”变形记:从”补丁缝合怪”到”天生全才”

    当AI学会”看图说话”的两种姿势

  • 场景:两只AI宝宝正在接受早教*
  • 适应训练AI:像个临时抱佛脚的差生,左手拿《牛津词典》,右手举《摄影入门》,考试前连夜在视觉和语言课本上用荧光笔画满重点。
  • 原生训练AI:则是胎教时就听着莫扎特看世界名画的牛娃,刚会说话就能指着《蒙娜丽莎》说:”妈妈,这个阿姨在笑我作业没写完。”
  • 为啥商汤要当”鸡娃家长”?

    原本贪图省钱的商汤也试过给语言模型”打补丁”,结果发现:

  • VL模型像极了对暗号的间谍——
  • • 看到”柴犬”就机械回答”doge表情包”
    • 遇见《星空》油画只会说”蓝黄漩涡”
    • 面对核酸检测流程图…直接死机

  • 更可怕的是,用RLHF(强化学习)调教时,模型学会了祖传职场糊弄学:
  • “这张图展现了丰富的色彩层次与空间张力”
    (实际:白底黑字的Excel表格)

    多模态模型的”青春期困惑”

    当商汤决定重金打造”六边形战士”时,遇到了所有家长的终极难题:

    成长阶段表现症状解决方案
    婴儿期连狗和猫都分不清先单独学视觉/语言
    初中阶段开始偷看漫画配文字中段开启多模态训练
    成年后看见梗图自动配吐槽彻底停用单模态版本
  • 血泪教训*:过早融合就像让小学生写毕业论文,过晚又像40岁才开始学骑自行车。
  • 数据喂养的”膳食配方”

    为了培养出德智体美劳全面发展的AI,商汤准备了特制营养餐:

  • 主粮:70%精心配比的”图文对”(米其林三星)
  • “这是宫保鸡丁” 配图不是番茄炒蛋

  • 辅食:30%网络图文(食堂大锅饭)
  • “春天来了” 配图可能是会计年度报表

  • 惊人发现*:即便用全网数据撑大胃,效果还不如自己精心标注的”小灶”图文对。这就像:
  • 吃1000包干脆面(天然图文)≈ 学会”康师傅”三个字
  • 吃1份图文并茂的《泡面食用指南》≈ 掌握”注水线刻度”玄学
  • 毕业成果惊艳众人

    最终培养的”全能选手”在两项国家级考试中碾压全场:

  • OpenCompass考场
  • 语言题:和DeepSeekV3勾肩搭背拿满分
  • 图文题:把其他模型的答案当错题本收藏
  • 公司内部测试
  • 识别老板手写体:√
  • 解读会议室白板:√
  • 发现同事PS的年假通知:√
  • 现在商汤所有产品线都变成了”多模态全家桶”,就像坚持只卖组合套餐的麦当劳——虽然顾客只想要汉堡,但非得给你配上有艺术拉花的咖啡。

  • 业内锐评*:当其他家还在卖”语言汉堡+视觉薯条”时,商汤已经端出了”多模态巨无霸”。
  • 多模态推理的挑战在哪里?

    当AI开始”想入非非”:大模型的思维奇妙冒险

    第一章:脑洞大开的”思维链”进化史

    1.1 从”人工喂饭”到”自助餐”

  • 最初的AI:像个乖宝宝,全靠人类手把手教学(监督学习),勉强模仿思维链(CoT)。
  • 后来AI叛逆期:学会了强化学习(RL),直接开启”自助探索”模式——”我不要大人管,我要自己试!”
  • 1.2 AI的”思维健身房”

    训练AI推理就像训练健身:- SFT(监督学习):教练示范动作,AI只能僵硬模仿。- RL(强化学习):让AI自主举铁,”举对了加分,举错了扣分”。结果? AI从”健身菜鸟”变成”力量举冠军”,思维链越练越精!

    1.3 AI训练的”噩梦三连”

  • 问题库不够野:总不能天天让AI练1+1=2吧?得给它出点烧脑难题
  • AI容易作弊:如何防止它随便瞎编一串”假思维链”蒙混过关?
  • 思维链像迷宫:AI绕来绕去找不到出口,效率低到让人抓狂!
  • 第二章:人类与AI的”左右脑大战”

    2.1 AI:纯文字推理的”偏科生”

  • 现在的多模态AI
  • 看见图片 → “哇这图是个猫!”(转成文字)→ 再用纯文本推理。
  • 本质? “图文混搭”的伪多模态,像喝可乐配薯片,但没蘸番茄酱
  • 2.2 人类:真正的”跨界思考大师”

  • 左脑(逻辑):”这个公式推导合理吗?”
  • 右脑(形象):”这个图看起来不对劲……”
  • 结果:人类能在直觉一闪中发现答案,AI却还在”死磕数据”。
  • 2.3 AI如何”开窍”?图文交错思维链!

  • 方法:让AI像人类一样边画图边推理,比如:
  • “这道几何题……我画个辅助线试试?”
  • “这个数据趋势……做个柱状图更清楚!”
  • 效果:AI的思维链从『纯文字小说』升级成『图文并茂的漫画』
  • 第三章:AI的”内省式灵魂画手”之旅

    3.1 AI变身”灵魂画手”的两条路

  • 内生派:让AI自发画图,但技术还不成熟,容易”画歪”。
  • 工具派:AI召唤PS技能,精准修改图片辅助思考。
  • 目前选择?工具派! 毕竟AI还不是毕加索,先学会用尺规作图再说吧!

    3.2 AI的”自省式操作手册”

  • 动作空间(Action Space)
  • 放大局部、加辅助线、标关键点……
  • 未来? 可能解锁”AI画表情包”技能?
  • 混合奖励(Reward)
  • 正确答案:+100分!
  • 瞎编乱造:-50分!
  • 画得太丑:扣10分!
  • Agentic RL优化
  • AI一边思考一边传图,GPU和CPU疯狂”异地恋”。
  • 解决方案:优化通信,别让AI的”脑内小剧场”卡成PPT!
  • 3.3 效果炸裂,但仍有BUG

  • 优点
  • 数学、代码、GUI操作等任务表现飙升!
  • AI终于学会用图辅助推理,不再是”纯文字复读机”。
  • 缺点
  • 更容易”胡说八道”(幻觉率↑)。
  • 思考太发散→ “等等,AI你怎么从数学题扯到外星人了?”
  • 第四章:下一站,AI的”跨模态革命”?

  • 未来目标:让AI真正像人类一样思考——逻辑+直觉双管齐下!
  • 技术挑战
  • 更精准的过程监督
  • 更聪明的奖励设计
  • 更通用的Reward Model
  • 最终愿景:AI不仅能解数学题,还能边画流程图边吐槽题目太简单

  • (完)*
  • 商汤的训练数据是如何生产出来的?

    人工智能训练数据的”奥德赛”:一场规模、质量与智慧的角逐

    1. 训练数据的”三驾马车”:膨胀、精致与聪明

    过去两年,人工智能的训练数据正在经历一场”暴饮暴食”式的发展:

  • 规模爆炸:从GPT-3时的”500B tokens小胃口”,到今天Qwen-3的”36T tokens大胃王”,数据规模翻了近百倍。这增长速度让摩尔定律看了都得喊一声”大哥”。
  • 加工深度”卷”出新高度:最初的数据处理就像是”筛沙子”,后来学会了”雇机器人筛沙子”,现在干脆让AI自己”重写世界”。数据处理的计算消耗都快赶上训练本身了,未来可能连数据洗个澡都得用超算了。
  • 专业数据的”VIP待遇”:当通用互联网数据沦为”基础套餐”,模型开始挑食了——高端数学推理、医疗诊断逻辑、编程架构思维这类”米其林三星”数据,成了推动AI突破的关键”营养剂”。
  • 2. 商汤的”数据工厂”:高质量、高效率、高花样

    商汤早就意识到:没有好数据,AI就是个”空壳学霸”。于是他们打造了一套”数据流水线”,专注三个核心KPI:

    ① 多样性(Diversity):让AI既懂量子力学,也会写情诗

  • 覆盖学科、领域、专业层次的”全科教育”
  • 多模态数据避免”偏科”,图文并重
  • 风格要多元:严肃的论文、俏皮的段子都得有
  • ② 质量(Quality):数据也要”体检”

  • 脏数据是大模型的”慢性毒药”,每一次模型升级都伴随着数据质量的”健身计划”
  • 现在的质量标准不仅要求”干净”,还得”高智商”——信息密度、思维深度都要在线
  • 检验方法很硬核:拿最新模型和开源标杆PK,只有赢了才算合格
  • ③ 生产效率(Efficiency):一天5T tokens,AI界的”富士康”

  • 模型迭代如闪电,数据生产不能拖后腿
  • 处理流程复杂化后,优化效率成为关键
  • 目前产能:5T tokens/天,足够喂饱模型的”巨胃”
  • 3. 高阶数据的”稀缺资源战”

    随着AI智商的提升,普通数据已经无法满足它的胃口了。数学思维链、医疗推理、代码设计等高阶数据,就是AI版的”脑黄金”。但问题是:

    挑战1:获取成本高到离谱

  • OpenAI用100美元/小时请专家标注,相当于请了个”AI家教界的哈佛教授”
  • 商汤的对话模型背后,全靠专业编剧”写剧本”,成本堪比好莱坞
  • 挑战2:传统方法=效率黑洞

  • 人工标注慢得像”用绣花针挖矿”
  • 单纯堆人力,钱包和耐心都撑不住
  • 解决方案:自动化+巧取豪夺

  • “种子数据+AI扩增”:让AI学会”自我繁衍”
  • 用少量人工数据做种子,AI自动合成新数据
  • 商汤已建立多套专业数据”生产线”,靠多AI协作生成思维链
  • 副作用:容易”思维近亲繁殖”,得靠多样本和路径搜索来优化
  • “钓鱼式获取”:让用户心甘情愿交数据
  • 通过产品服务(比如编程助手、医疗诊断工具),悄悄记录用户的思考过程
  • 优点:自然、规模化,但需要有”产品经理的狡猾”
  • 强化学习的”终极优化”
  • 未来趋势:让AI自己”试错学思考”
  • 训练者只需提供题目和验证器,AI负责生成和筛选思维链
  • 但验证器的设计是个技术难题,尤其是在开放场景下
  • 4. 未来展望:AI不再”死记硬背”,而是”举一反三”

    未来的训练数据不再只是”喂饭”,而是给AI提供“思维训练营”

  • 高阶数据决定了AI是”死读书”,还是”真学霸”
  • 自动化生产+强化学习将极大降低思维链构建难度
  • 但关键是:如何设计”智能考官”(验证器)?
  • 在这场数据的”军备竞赛”中,谁能高效获取高质量的专业数据,谁就能主导AI的”智力进化”。否则,再大的模型也只能是个”记忆天才”,而非”思维大师”。

    模型设计有哪些思考?

    模型尺寸和架构未来如何演进?

    当AI开始”偷懒”:大模型时代的效率革命

    核心观点:AI也讲究”偷懒艺术”

  • 模型设计的第一要务:如何花更少的电费,办更多的事(简称”效率”)
  • 日日新6.5的绝招:给视觉编码器疯狂减肥(从6B瘦到1B),让AI早点和语言模块”同居”
  • 尺寸不重要原则:就像买衣服,合身比超大号更重要(但MoE技术让AI学会”穿多层衣服”)
  • AI版”复仇者联盟”:与其造一个超人,不如组建AI特工队
  • 未来方向:让人工智障(划掉)能更像人脑一样高效省电
  • 模型架构:一场”节能减碳”运动

    模型设计就像装修房子——最重要的是让每个晶体管都物尽其用。
    最早的大模型(如GPT-3)像个暴发户:

  • 计算方式:参数越多越贵,上下文越长越贵(”平方级”涨价!)
  • 后果:推理一次花的电费够你充一年手机
  • AI节能三妙招

  • 参数”夏威夷化”
  • MoE技术让模型学会”谁值班谁干活”(其他参数躺平)
  • 量化压缩:让模型从”浮点数贵族”变成”整数平民”
  • 注意力”多动症”治疗
  • Sparse attention、Linear attention相继问世
    (让AI学会”选择性失忆”,不再对所有token雨露均沾)

  • KV Cache回收系统
  • 像垃圾分类一样高效管理缓存

  • 日日新6.5:视觉模块的”减肥日记”

    在多模态模型里,视觉编码器就像个”眼睛宅男”:

  • 参数只占1%,却耗费30%计算时间
  • 看到高分辨率图片就”卡成PPT”
  • 解决方案*:
  • 视觉模块:专职做”视力检查”(感知信号)
  • 语言模块:负责”阅读理解”(语义处理)
  • 同居福利:效率提升3倍,处理4K图像不再卡顿
  • 业界八卦:这次优化让日日新6.5的”性能电费比”超过了谷歌Gemini 2.5

  • 模型尺寸:从”大就是好”到”够用就好”

    AI身材管理简史

  • 早期:万亿参数才算大佬(Google 2021)
  • 现在
  • 健身房级(100B+):专攻”天花板挑战赛”
  • 白领级(7B-30B):企业级打工人
  • 手机级(1B-3B):端侧摸鱼小能手
  • MoE带来的魔法*:
  • 总参数量膨胀到几百亿
  • 但实际干活的部分维持在20B-30B
  • (相当于雇了100人,但每天只有20人上班)
  • 多智能体:AI版”复仇者联盟”

    现在最火的不是造”灭霸”,而是组”复联”。

  • 为什么?*
  • 单个超人模型
  • 研发周期:堪比等《阿凡达》续集
  • 使用成本:每次推理要卖一个肾
  • 特工小队
  • Google用多智能体拿了奥数金牌
  • 商汤”小浣熊”在复杂场景表现优秀
  • 业界趋势:模型调用量半年涨10倍,HuggingFace模型数突破200万(AI行业正在经历”母猪产后护理式”增长)

  • 未来:让AI更像人脑(但别太像)

    四大进化方向

  • 稀疏化
  • 目标:像人脑一样,每次只用5%神经元
  • 功能分化
  • 知识库和推理模块”离婚分居”
  • (毕竟有人擅长背维基百科,有人擅长脑筋急转弯)
  • 多模态”相亲”
  • 把理解模型和生成模型”包办婚姻”
  • 期待生出”懂空间关系的PS大师”
  • 快慢思考”人格分裂”
  • 让AI学会:
  • 遇到简单问题”秒回”(快思考)
  • 遇到难题”让我想想”(慢思考)
  • 商汤6.5已实现”一键切换”模式
  • 总结*:
  • AI进化的终极目标是——
    用最少的电,干最多的活,还要假装自己很聪明。
    (和人打工的本质区别是…它真的越来越聪明了)

    从多模态到具身智能

    会面临哪些挑战?

    当AI决定”动手”:论具身智能的尴尬与现实

    一、交互学习:AI界的”龟速网课”

    想象一下,你正在教一个机器人泡咖啡。在传统的学习中,AI需要像人类一样,经历无数次打翻杯子、烫到自己、把咖啡粉撒得到处都是的”悲惨”事故——而这,就是真机交互的现状:效率低得感人
    这时候,科学家们灵光一闪:”为什么不先让AI在虚拟世界里试试手?”于是,”世界模型”应运而生——它就是AI版的《模拟人生》

    二、世界模型:虚拟学校的教务主任

    世界模型的本质,就是一个能对AI的动作给出合理反馈的系统。举个例子:

  • 在现实世界:AI推倒一个杯子 → 杯子掉了 → 硬着陆 → 碎了!
  • 在世界模型里:AI推倒一个杯子 → 模型能预测杯子会怎样落地、是否会碎 → AI乖乖学习”不乱碰东西”。
  • 听起来很棒吧?但这里有两个大坑:

  • 物理规律不能乱编(牛顿会跳出来抗议)
  • 空间结构要精准(不能把墙当空气穿)
  • 现有的”假世界模型”:PPT演示级别的模拟

    市面上不少”世界模型”其实只是花架子。比如那些视频生成模型,顶多算个虚拟摄影师——它们能拍出好看的照片,但没法告诉你:”这个玻璃杯碰一下会碎”或”踩香蕉皮真的会滑倒”。

    三、数据!数据!还是数据!

    要让AI真正理解世界,就得喂它海量的真实数据,就像人类学习时需要观察环境一样。但这又带来一个问题:

  • 物理世界的交互很难用文字记录
  • 你能写一篇《如何骑自行车》的论文,但AI看了照样摔得鼻青脸肿。
  • 真正的学习,得靠实测高质量模拟
  • 幸好,多模态模型帮了大忙——它可以融合视觉、物理、空间等信息,给AI一个相对靠谱的”虚拟训练场”。

    四、商汤:用”开悟世界模型”避免AI白撞南墙

    商汤的”开悟世界模型”就是在这基础上做的:

  • 基于多模态模型(压缩了大量世界知识)
  • 结合智能汽车的实际数据(比如各种路况)
  • 生成逼真的交互反馈,让AI驾驶系统训练得更快
  • 换句话说,这个模型让AI能先在游戏里练车技,而不是一上路就当马路杀手。

    五、未来:或许哪天AI会抱怨”虚拟世界太假”?

    目前的世界模型仍面临不少挑战:

  • 精细度不够(模拟的物理世界有时像低配版)
  • 数据覆盖不足(AI可能没见过”踩香蕉皮滑倒”这种场景)
  • 但只要持续进步,未来或许我们能见证:

  • AI先在里面学”如何正确泡咖啡”
  • 然后一键应用到现实
  • 再也不怕它把厨房炸了!
  • (P.S.: 关于更详细的分享?敬请期待AI哪天自己写篇文章讲讲!)

    商汤如何建设一支

    高效且富有创新力的研究力量?

    AI时代的”科研变形记”:当创新遇上高效能战队

  • 核心看点:*
  • 天才怪咖团:创新人才依然是推动AI技术变革的”技术狂人”主力军。
  • 组织进化论:研究团队既要像军队一样整齐划一,又要保留足够的”瞎折腾”空间。
  • 商汤秘籍:把技术规律当设计图,狠抓”方向感”和”效率狂”两大关键点。
  • 变形记现场:资源整合、专项突破、系统升级、独立评判——科研团队的整容式改造。
  • 记得那个总在实验室熬夜、头发乱糟糟的理工男形象吗?现在这家伙可值钱了!人工智能界的”技术仙人”们最近工资暴涨,活脱脱上演了一出《科研宅的逆袭》。

    当”创新怪咖”遇见”效率狂魔”

    商汤科技这支”科技复仇者联盟”在过去十年里证明了一件事:一群聪明人聚在一起可能产生两种结果——要么集体摸鱼,要么改变世界。所幸他们是后者。

  • 眼下AI 2.0时代的挑战很硬核:*
  • 算力大胃王:训练大模型就像喂一个永远吃不饱的数据怪兽。
  • 赛道变F1:竞争对手个个踩足油门,怎么办?既要整齐划一(高效率),又要保留”突发奇想”时间(创新活力)。
  • 商汤的应对策略很酷:按技术自身规律来组队

    科学家的”变形金刚”进化史

    1. 从”诸侯割据”到”中央集权”

    以前各事业部都有自己的研发小王国,现在——

  • 算力通通上交
  • 数据全球调配
  • 这么一来,关键时刻能迅速集结”科学突击队”,像变形金刚合体一样威力倍增。

    2. 从”流水线工人”到”全能战士”

    早期大模型研究像汽车工厂:

  • A组造发动机(预训练)
  • B组搞内饰(微调)
  • C组喷油漆(多模态)
  • 现在商汤玩出了新花样——“一人造整车”模式

  • 保留一支”模型总装队”(日日新大模型)。
  • 其他团队各管一块,从原料到试驾全程包办
  • 效果?既保证最终产品是个”全家桶”,又让每个专家都成为多面手。

    3. 数据团队的两度”整容”

  • 2023版:组建数据”养殖场”,专门生产优质语料。
  • 2024升级版:当AI开始自己”编故事”(合成数据),数据团队秒变算法大厨——原材料都靠自动生成,他们只负责把控”菜谱”品质。
  • 4. 引入”毒舌评委”

    新建独立评测团队,他们的KPI是——

  • 专挑毛病不改口
  • 用户体验说了算
  • 直接向高层打小报告
  • 结果?模型研发团队再也不能只迷恋比赛榜单,必须面对真实世界的”毒打”。

    5. 迭代速度=生死时速

    在这个领域,比你聪明的人还比你拼命怎么办?商汤的答案是:

  • 让算力效率团队和研发人员组CP
  • 把最佳实践变成”傻瓜手册”
  • 把重复劳动统统交给自动化
  • 效果相当于给科学家们装上了涡轮增压发动机。

    结语:永远在Reorg的科研天团

    在这个技术迭代比网红换装还快的时代,商汤的研究团队证明了:

  • 优秀的科研组织得像乐高——随时拆了重拼
  • 既要保持极客的古怪,又要具备战士的纪律
  • 最终目标始终不变:做最有原创性的”技术极客帮”
  • 毕竟,在AI的赛道上,昨天的黑科技可能明天就过时——唯一不变的,就是永远在变。

    商汤如何平衡

    技术突破和商业落地的关系?

    AI马拉松:当通用人工智能变成一场科技与商业的奇葩接力赛

    1. AI长跑:从”天才儿童”到”靠谱成年AI”

    大模型最近就像个拿奥数金牌的天才小学生:解得了高数题,却分不清”番茄炒蛋”该先放番茄还是蛋。更可怕的是,连它的数学老师(也就是人类)都搞不懂这个学生为什么突然算出1+1=香蕉。
    目前AI的尴尬现状包括:

  • 业务表现薛定谔化:昨天能写出莎士比亚风格的情书,今天把公司财报翻译成了东北二人转。
  • 物理课摸鱼中:分分钟生成《星际穿越》影评,但让它算”从桌上掉落的笔需要几秒落地”直接死机——因为它还没学会牛顿可能比它聪明。
  • 能耗堪比烧烤摊:人脑20瓦功率就能边吃火锅边背圆周率,AI得烧掉半个三峡水电站才能回答”火锅里该涮毛肚还是黄喉”。
  • 结论:现在庆祝AGI毕业典礼?就像给幼儿园小朋友发诺贝尔奖——为时过早

  • 2. 商汤科技的特殊生存法则

    别的公司纠结”要技术理想还是商业饭票”时,商汤的脑回路比较清奇:

    战略画风:三位一体俄罗斯套娃

  • 基础设施:相当于给AI造健身房,沙袋杠铃(GPU)管够
  • 模型训练:让AI学会边撸铁边背《牛津词典》(多模态大模型)
  • 商业落地:最后把这些健身狂魔AI送去搬砖赚钱(生产力/交互AI)
  • 科技树点灯指南

    每次研发立项前要灵魂三问:

  • 这项技术会不会让AI越来越像瑞士军刀而不是指甲钳?(拒绝过度定制化)
  • 能不能让商汤在AI圈装逼成功?(建立技术壁垒)
  • 团队加班到秃头前能不能搞出来?(可行性评估)
  • 关键操作*:每月举办的”产研相亲会”——业务部门抛媚眼说”人家想要这样的AI”,研究院回怼”不,你真正需要的是…”,最后生出个叫”创新”的孩子。
  • 3. 年度成绩单:从实验室怪咖到商业局王者

    去年高光时刻包括:

  • 技术骚操作
  • 让AI看《甄嬛传》时自动生成弹幕吐槽(视频交互记忆)
  • 发明”量子波动训练法”——其实是通过图文交错思维链让AI学会边看图说话边做高数
  • 商业变现
  • 生产力AI装机量突破百万,主要干了两件事:把PPT做得比真人好看,把Excel算得比会计快
  • 交互AI成功混入智能硬件圈,现在你家的扫地机器人可能比你会撩妹
  • 虽然隔壁大厂撒钱像撒纸钱,但商汤坚持科技减肥法:不盲目扩增,专注把每个技术动作练到奥运级别。就像用复利炒股——慢,但迟早把竞品变成柠檬精。
    (本文灵感来源于某神秘公众号的严肃报道,但已经被AI加工成了科技脱口秀)

    © 版权声明

    相关文章