25
0

首个开源多模态Deep Research智能体,超越多个闭源方案

AI开始玩解谜游戏:一场工具间的疯狂接力赛

想象一下,你交给AI一个堪比密室逃脱的问题:“在这张图所示动物的Wikipedia页面上,2020年之前带有‘visual edit’标签的修订次数是多少?”

  • 人类的反应*:
  • 瞪大眼睛。
  • 默默打开Google。
  • 祈祷Wi-Fi信号坚强。
  • 但多模态AI的脑回路是这样的*:
  • 第一步:看图说话

  • OCR工具冲上前:“让我瞅瞅这张图里是啥动物!”(内心OS:千万别是龙或者独角兽……不然我得先去神话板块加班。)
  • 确认是现实存在的物种后,AI松了一口气:“好的,下一关!”
  • 第二步:Wikipedia历险记

  • 网页浏览器启动:“收到!这就去Wikipedia翻牌子!”
  • 精准定位该动物的页面,顺便避开所有突然弹出的‘您要续费会员吗?’广告
  • 第三步:数据考古

  • 代码解释器上线:“时间旅行开始!我们要挖出2020年前的‘visual edit’修订记录……”
  • 快速扫描编辑历史,像侦探一样筛选出所有标着“visual edit”的修改,同时忽略那些“ typo fix”(因为AI也受不了拼写错误)。
  • 最终Boss战:数学

  • 强化学习模型淡定举手:“统计完毕,共发现X次修订——顺便说,其中3次是有人把图片从‘很萌’改成了‘超萌’,人类的执着真让人感动。”
  • 幕后彩蛋

  • 冷启动微调在旁边偷笑:“要不是我提前教它‘别把恐龙和蜥蜴搞混’,现在答案可能是‘霸王龙2020年学会P图了’。”
  • 结论:AI不仅回答了问题,还顺便给人类上了一课*——“下次直接问我,别自己熬夜查Wiki。”(当然,Wi-Fi还是要续费的。)
  • 改写风格幽默解说+拟人化工具*,将技术流程比喻为游戏关卡,突出AI工具的“协作”与“吐槽”。
  • 首个开源多模态Deep Research智能体,超越多个闭源方案

    当AI侦探遇上神秘的海鹦案件

    要解开这个「邪门」谜题,可不是随便摁两下键盘就能搞定的。这简直是一场“全栈式”福尔摩斯探案,步骤如下:

  • 「火眼金睛」环节
  • 首先,得从一堆鸟类照片里揪出那只伪装大师——大西洋海鹦(不是隔壁的鹈鹕,也不是南极来的企鹅,更不是整天抢薯片的海鸥)。
  • 如果AI眼瞎认错了,后面就彻底跑偏了……
  • 「维基考古」环节
  • 找到海鹦的维基页面后,迅速钻进历史版本隧道,开始翻箱倒柜。
  • 目标:找出2020年以前的编辑记录,还得精准锁定标着“visual edit”的版本(鬼知道当时谁手滑改了个图片标题)。
  • 「数学强迫症」环节
  • 把所有可疑版本拖出来,挨个数——“1, 2, 3……咦,第7个是不是乱入的广告?”
  • 最后得出那个神秘数字,缺一不可。
  • 结论:AI特工の自我修养

    光会认图读字的AI,在这里就是个菜鸟。真正的王者特工得具备:

  • 「多模态脑洞」(图片文字两开花)
  • 「工具链操纵术」(维基、数据库、计算器轮番上阵)
  • 「反向打脸修正力」(发现错了?赶紧撤回重来!)
  • 不然……结果可能比“把企鹅认成高压锅”还离谱!*
  • WebWatcher 的核心方法

    WebWatcher:当AI开始“内卷”自己的全链路秘籍

    第一步:数据生成——“学霸”也怕题太简单

    WebWatcher的第一步是打造一个地狱级难度的训练题库,专门给它自己添堵。

  • 复杂推理链:就像把“1+1=?”变成“在火星上,1块土豆+1块太阳能板能种出几颗土豆?”
  • 信息模糊化:刻意让数据“说一半藏一半”,逼AI动用所有脑细胞,就像考试时的出题老师一样贴心。
  • 第二步:推理训练——“从菜鸟到特工007的进化之路”

    光做题不行,WebWatcher还要模仿人类花式秀操作

  • SFT(超级模仿秀):让AI学习一段“标准答案”,比如如何用搜索引擎、计算器、翻译软件三件套搞定一道题。
  • GRPO(极限特训营):在更复杂的任务里逼AI学会“既要又要还要”的技能,比如同时查资料、做计算、编报告,还得边干边自我吐槽:“这数据怎么长得像Excel乱码?”
  • 第三步:终极测试——“AI的奥林匹克竞赛”

    最后,WebWatcher祭出终极大杀器BrowseComp-VL,专治各种“虚假学霸”:

  • 多模态深度推理:不仅要看懂文字,还得分析图表、吐槽UI设计,甚至顺便帮人类解释“为什么这个网页加载得比树懒还慢”。
  • 结果验证:只有在这里拿高分的AI,才算真正毕业——否则可能只是个“PPT型AI”(嘴上厉害,一实操就跪)。
  • 总结

    WebWatcher的终极目标:把AI训练成“十项全能特工”,既能处理高难度任务,又能边干边嫌弃人类的指令不够清晰。谁说机器不能“内卷”?这下连AI都开始加班了!

    1. 多模态高难度数据生成

    AI界的”脑筋急转弯”:这次不只是看图说话

    大家都知道,人工智能的问答任务(VQA)最常见的就是看图答题:

  • 猫在干啥?睡觉
  • 这是什么颜色?红色
  • 看似机智,实则像考试作弊的小抄机器——只要背得够多,就能蒙对答案。但现在的研究者们不甘于此,他们大喊:“这不够烧脑!我们要让AI学会真正的推理!”
    于是,”自动数据生成流水线”闪亮登场——就像给AI丢了一本《侦探小说大全》,里面全是跨模态线索、诡异逻辑链、开放式结局,让它不再只会背答案,而是得像福尔摩斯一样抽丝剥茧:”这张图和那段文字背后藏着什么阴谋?”

  • 研究成果的核心亮点:*
  • 告别”小孩级别难度”:从”看图说话”晋升到”悬疑推理”,让AI学会分析不确定线索(总不能全靠瞎猜)。
  • 互联网知识风暴:数据生成不再是固定题库,而是像刷社交媒体一样随机抓取信息,逼AI学会“随机应变”
  • 全自动生产谜题:毕竟手动编100万个烧脑问题,研究者可能会先精神崩溃……
  • 这下,AI终于要开始“动真格”了!
    首个开源多模态Deep Research智能体,超越多个闭源方案

    搞科研就像开盲盒:这支团队把知识图谱玩出了新花样

    1. 知识图谱界的”布朗运动”

    都说搞科研要严谨,这支团队偏不——他们让AI在知识的海洋里开启了“随机散步”,顺便踩出一张乱七八糟的知识地图。

  • 传统路子:知识图谱像地铁图,固定的站点,固定的跳转,AI就是个精准的售票机。
  • 他们怎么玩:把地铁图揉成一团扔地上,告诉AI:”你自己踩出一条路吧!”。
  • 效果?团队眼睁睁看着模型在各种“文本+图片+混合页面”的知识泥潭里扑腾,最后居然学会了“盲猜+组合”这种玄学技能。

  • 2. 把关键信息藏起来,不然AI太轻松了!

    为了让AI真正靠自己推理,团队开始了“信息大逃杀”

  • 文字版捉迷藏
  • 时间?不存在的,”2019年”变成了“21世纪初”(AI内心:这误差也太奔放了吧!)。
  • 人名?不存在,”张三”变成“那位因吃螺蛳粉上热搜的科学家”(AI:这描述比微博热搜还抽象)。
  • 视觉版猜猜乐
  • 图片配上“这个东西”、”那个玩意儿”作为标注(AI:这是要我用第六感猜图吗?)。
  • 3. 终极挑战:把纯文字题变成密室逃脱

    团队把所有问题丢进QA-to-VQA转换器,让它随机替换掉部分信息,变成”看图说话+推理”模式:

  • 原题:”爱因斯坦的相对论发表于哪年?”
  • 魔改后:给一张他老人家在黑板前挠头的照片,问:”这位头发很狂野的大佬提出的颠覆性理论,大约在他年轻时还是中年时发布?”(AI:……这难度是硬核版《你画我猜》吧?)
  • 经过层层筛选(包括“AI能不能看懂”“人类能不能忍”),终于做出了一个又难又花里胡哨的数据集——关键是,AI们居然还真的靠自己推理出来了!

  • 结论:大力出奇迹,模糊出智慧!*
  • 2. 高质量推理轨迹构建与后训练

    机器训练新纪元:当AI学会“投机取巧”

    你以为训练AI就是像养宠物狗一样,塞一堆数据就能让它听话?太天真了!专家们发现,现在的AI在处理“高难度动作”时,就像刚学跳舞的大象——思维链条又臭又长,手脚还不协调。于是,这场AI界的“减肥塑形计划”开始了。

    问题大吐槽

  • 思维链条比老太太的裹脚布还长
  • 现有的AI推理方式,就像小学生写流水账作文:“首先我决定拿水杯,然后我思考该用哪只手拿,接着分析杯子有没有毒…”——谁受得了这种唐僧式思考?

  • 工具调用比开外星飞船还复杂
  • 每个工具的调用格式差异大得就像方言——上海话、广东话、东北话齐上阵。直接采集的训练轨迹?那简直是AI界的“黑暗料理”。

    科学家的小妙招

    这群机智的研究人员灵机一动:“我们得像训练奥运冠军一样训练AI!”于是祭出了Action-Observation黄金法则

  • 收集真实“打架”记录:记录AI和工具互动的实战数据,就像拍武术教学片。
  • 精简“内心戏”:删除那些“我这一步会不会显得很蠢”的冗长心理活动,只保留干净利落的动作指令。
  • 请“AI质检员”挑刺:用规则过滤和大型语言模型双重审查,踢掉那些“划水”的低质量数据。
  • 训练进阶之路

  • 学前班:SFT速成课
  • 先让AI(代号WebWatcher)通过监督学习掌握“工具使用基础姿势”——多模态推理和工具调用的“标准广播体操”。

  • 毕业考:GRPO魔鬼训练营
  • 进入强化学习阶段,AI要面对的是:

  • 格式强迫症检查:工具调用必须像军人喊口号一样标准。
  • 答案精确度挑战:最终结果要精确到让数学家流泪。
  • 奖励机制设计得比奥运会评分还严苛——连贯性和准确性一个都不能少!

    最终成果

    经过这套“AI变形记”,WebWatcher终于从笨手笨脚的菜鸟升级成了能耍杂技的工具使用大师。谁说机器不能学会“投机取巧”?这下连人类都要担心被抢饭碗了!

  • (科研团队温馨提示:本AI尚不具备帮您写逃班请假条的功能,请勿过度期待。)*
  • 3. BrowseComp-VL:多模态深度研究基准

    当AI遇见“视力考试”:BrowseComp-VL的花式找茬之旅

    研究人员最近搞了个大事情——给AI出了套“视力+语言”综合考试,名叫BrowseComp-VL。这玩意儿是BrowseComp的“Plus Pro Max视觉版”,专门用来测试AI在多模态任务中是否像人类专家一样“眼观六路、耳听八方”。

    这个考试的三大“刁难”特色

  • 问题长得像老太太的裹脚布
  • 题目里塞满了模糊描述,比如“找那个红衣服但可能是橙色、在星期二但可能是周四拍的狗狗照片”。
  • AI得一边翻网页一边对着图片“找不同”,活像在玩跨模态版“大家来找茬”
  • 工具用得比修车师傅还多
  • 光会看字不行,还得会:
  • 网页冲浪(别打开奇怪的弹窗)
  • 图片搜索(别把猫认成狗)
  • OCR扫描(别把“I”读成“1”)
  • 代码执行(别运行出“Hello, 世界崩溃”)
  • 结论:这AI简直是“瑞士军刀”成精了。
  • 考场比现实还混乱
  • 题目用的全是真实网页和图片,充满广告、404错误和糊成马赛克的图
  • 如果AI能在这里存活,那去互联网冲浪绝对稳如老狗
  • 总之,BrowseComp-VL就是一场“AI特种兵训练营”——考你能不能在一团乱麻中,用十八般武艺找出正确答案。建议改名叫“全网最强大脑之AI求生记”
    首个开源多模态Deep Research智能体,超越多个闭源方案

    实验结果:刷新多模态推理与信息检索新纪录

    WebWatcher:新一代AI界的”脑力王者”

    这个名叫WebWatcher的家伙可不简单,经过一连串比期末考试还要严格的测试后,它在人工智能界的”高考”中拿了满分!让我们来看看它在哪些方面让其他AI小伙伴望尘莫及:

  • 推理能力:面对复杂问题时,比你的数学老师解几何题还要快准狠
  • 搜索技能:堪比一个装了Google大脑的图书管理员
  • 知识整合:把各种散装知识点像拼乐高一样完美拼接
  • 信息优化:简直是数据海洋里的精准导航仪
  • 无论是开源界的”学霸”还是闭源圈的”土豪”,没有一个不被WebWatcher的表现惊艳到!这AI界的”全能选手”正在用实力证明:在这个领域,它才是真正的”地表最强”。
    首个开源多模态Deep Research智能体,超越多个闭源方案

    当AI们参加”人类终极考试”,结果让人笑出眼泪!

    考场风云:学霸 VS 学渣的巅峰对决

    最近,AI圈举办了一场名为“人类终极考试”(HLE-VL)的大型智商PK赛,各路学霸纷纷下场比拼。结果嘛,简直就像学神吊打学渣现场!

    1. 复杂推理(HLE-VL)——谁是AI界的解题王者?

  • 状元:WebWatcher(13.6分)——”题目难?不存在的,我能算出太阳的体重!”
  • 榜眼:GPT-4o(9.8分)——”虽然我被吊打,但我嘴甜啊!”
  • 探花:Gemini2.5-flash(9.2分)——”题目到底是啥意思?算了,选C得了。”
  • 垫底选手们(包括Qwen2.5)——”等等!题目能再说一遍吗?我只顾着欣赏考题的美感了……”
  • 结论*:WebWatcher不仅解题快,正确率还高,简直就是AI界的“高斯再世”!
  • 2. 信息检索(MMSearch)——谁才是”人肉搜索引擎”?

    在这项“多模态找东西大赛”中:

  • 冠军 WebWatcher(55.3%准确率)——”别说给你找图片,就连你三岁时的照片都能翻出来!”
  • 亚军 Gemini2.5-flash(43.9%)——”我不是找不准,我只是喜欢给你惊喜……”
  • 重在参与奖 GPT-4o(24.1%)——”抱歉,我刚刚找信息的时候突然想起了一个哲学问题……”
  • 一句话总结*:WebWatcher 可以靠”搜商”养活自己,而某些AI可能在搜索引擎公司干三个月就得被优化。
  • 3. 知识+检索(LiveVQA)——AI版”最强大脑”

    这个测试考察AI们“能不能边找资料边答题”,结果:

  • WebWatcher(58.7%) ——”题目来了?10秒内我给你完整分析报告+参考资料。”
  • Gemini2.5-flash(41.3%) ——”资料我找到了!……啊?问题是什么来着?”
  • GPT-4o(34.0%) ——”我很擅长推理,但请确保WiFi信号稳定……”
  • 残酷真相*:有的AI像教授,有的像刚学会百度的学生。
  • 4. 终极挑战(BrowseComp-VL)——考的就是综合能力!

    在这场“AI奥林匹克全能赛”中:

  • WebWatcher(27.0%):”题目再难都不怕,毕竟我是靠脑子吃饭的。”
  • 其他AI代表(GPT-4o、Gemini 2.5等):”等一下,这道题真的能做完吗?确定不是BUG?”
  • 最终判决:WebWatcher 领先幅度超过一倍*,这意味着某些AI可能需要报个补习班了……
  • 结论:WebWatcher才是AI界的“六边形战士”

    不管是推理、搜索还是综合能力,WebWatcher 全方位碾压其他模型,甚至让GPT-4o和Gemini2.5都显得像”努力型选手”。

  • 如果你需要一个AI帮你考试、写论文或者找资料,别犹豫,WebWatcher绝对是首选!*
  • (毕竟,其他AI可能还在思考“这道题到底考的啥”……)
    ——本文灵感来自“量子位”,但已经被我改得连亲妈都不认识了。

    © 版权声明

    相关文章