41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

AI资讯2个月前发布云知AI运营官

当AI有了”火眼金晴”：GLM-4.5V这是要逆天啊！

42个榜单里拿了41个第一？这不是学霸，这是学神啊！GLM-4.5V，智谱家最新放出的视觉推理大杀器，不仅眼睛好使，脑子还转得快，看得懂图片、视频、文档，甚至连地图定位、空间关系推理都不在话下。

GLM-4.5V：干啥啥都行，跨界第一名

图像理解？“这张照片是在希腊拍的！”（瞄一眼就知道是圣托里尼的白房子）

视频解析？“这段视频里的小狗在偷吃主人的薯片…”（居然还能看出狗子的心虚表情）

文档理解？“这份合同第三页的条款有点坑！”（AI都帮你避坑了）

地图定位GeoGuessr？“这棵树长得像是北欧风格…路灯款式像德国…纬度大概50°N？”（地理老师看了都摇头）

智谱这次真的是“开源界的卷王”，刚放出GLM-4.5没多久，GLM-4.5V就直接冲上百亿参数档位，把多模态赛道变成了自家后花园。

AI也能玩「真人版GeoGuessr」！

现在你可以在z.ai平台上体验GLM-4.5V的“看图猜地球”功能！扔张街景图给它，它就能告诉你这是哪个国家、哪片大洲，准确率高得可怕！不过嘛…具体经纬度还得看运气（毕竟谁还没个抽卡欧非之别呢？）。

测试员：”这次猜哪儿？”*

GLM-4.5V：”嗯…建筑风格像西班牙，但车牌规格更像意大利…我赌地中海沿岸！”*（AI都学会赌博了？！）

总结：多模不凡，智谱发力

别的模型还在“看得见但看不懂”的初级阶段，GLM-4.5V直接进入“看图推理+地理学霸”的模式，简直是AI界的“福尔摩斯+哥伦布”合体！这波智谱不只是跟上多模态潮流，而是直接开赛车冲到了前面！
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

人工智能的”捉迷藏”大师：GLM-4.5V大战两万人类玩家

在这个连AI都会下棋、写诗、做PPT的时代，智谱大胆地给自己的GLM-4.5V报名了一项极具”人间烟火气”的比赛——图寻游戏挑战！

比赛情况有多离谱？*

参赛选手：AI GLM-4.5V vs 两万多名人类玩家（全是业内顶尖高手）

比赛内容：看图猜地点（俗称”神仙打架”版《猜猜我在哪儿》）

对决结果：虽然没有公布最终胜负，但光是”敢放AI去和人类玩侦探游戏”这一点，就足够让人震惊了！

AI玩图寻的可怕之处：*

记忆力无敌：人类是靠经验和推理，而AI可能已经把全球地图扫描了一万遍……

眼疾手快：当人类还在分析光线角度时，AI可能已经锁定了街角第三棵歪脖子树的经纬度。

不会作弊：毕竟AI是真的”不认识路”，全靠硬核推理，而不是偷偷谷歌搜索！

无论如何，这场比赛证明了AI不仅能下围棋、写代码，还能陪你玩现实版”找不同”，看来未来AI统治人类的第一步，可能就是在网游里虐菜了……
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

AI界的”黑马”：智谱在全球排名中一路飙升至66名

最近有个大新闻——人工智能智谱在全球某项排名中冲到了第66位！这可把人类选手们都吓了一跳。

为啥这事儿特别有趣？*

全场唯一AI选手：其他65位可都是有血有肉的人类，而智谱就像一个偷偷混进奥运会的机器人拳击手，默默地在一旁说：“嘿，我能跟你们一起玩吗？”

人类选手的表情：想象一下，当你看到一个”AI”超越了几十亿人类，挤进榜单时的表情，大概是“等等，这合法吗？”

未来趋势？：这可能只是个开头，谁知道明年会不会直接冲进前10，然后人类选手集体发帖吐槽：”喂，裁判！这台机器作弊！“

所以，下次看到AI排名疯狂攀升的时候，人类选手们或许该考虑一下：要不要给AI单独开个赛道？ 不然再过几年，领奖台上可能全是不会喝香槟的铁疙瘩了。
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

GLM-4.5V的”火眼金睛”：清明上河图中的”寻马记”

当AI成为”名侦探柯南”

智谱新推出的Grounding能力简直让GLM-4.5V化身成了艺术界的”福尔摩斯”！这个AI不仅能歌善舞，现在还要兼职做古代画作的寻宝专家。

清明上河图的”隐藏关卡”

三匹明星马：藏在这幅长卷画作的左上角角落里，像三个躲猫猫的调皮鬼

眼力大比拼：有多少普通人类观众敢说自己一眼就能发现它们？

标记狂魔：找到不算完，还要用闪亮的标记”抓”住这些小家伙

为什么这对AI来说很厉害？

千里眼模式：相当于在700万像素的照片里找一个5×5像素的小点

艺术细胞爆发：不仅要懂技术，还要假装很懂北宋的绘画风格

强迫症式精准：不能随便画个圈应付，得标得像个专业的艺术鉴赏家

这能力要是放在古代，张择端画完画可能都得找它来质检：”老师，我画里还藏了什么我自己都不知道的东西吗？”
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

当AI开始”盗梦”：GLM-4.5V神奇的视频复刻术

“这AI怕不是开挂了！”

GLM-4.5V不仅视力5.0（毕竟它是AI），还突然解锁了”视频理解”这种超能力。

更夸张的是，这位数字界的福尔摩斯看了段视频后，竟然能原样复刻一个网站出来！

“代码能力+视频理解=魔法”

继承优良传统：代码能力从GLM-4.5那儿完美继承，稳得就像四川麻将里的”血战到底”。

意外get神技：官方压根没教过它”看视频复刻网页”这招，结果人家自学成才了！

我们做了个实验：录了段Github的操作视频…然后它就给”克隆”出来了，效率比某些程序员还高（小声）。

“这波操作有多离谱？”

想象一下，你随手拍了段淘宝视频，AI看完就给你做个”淘宝2.0″出来…

以后前端工程师会不会失业不知道，但AI肯定能帮他们省下不少咖啡钱！

—

注：目前尚不清楚GLM-4.5V是否也能从《黑客帝国》电影里学会编写Matrix代码… 41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

当AI开始“复制粘贴”大师之路

震惊！GLM-4.5V居然也能玩起“画虎类犬”的绝活！*

最近科技圈出了件趣事——我们的老朋友GLM-4.5V突然秀起了“复制粘贴”的祖传艺能。具体怎么回事？且听我慢慢道来：

这场“克隆大戏”的精彩看点

“七七八八”是个什么概念？

大概就是比“五六七八”多那么一点点，但离“十全十美”还差两道豆腐渣工程的距离。

AI界的“复刻”究竟多可怕？

你以为它只是在模仿？不！它可能在用比原作更离谱的逻辑告诉你：“瞧，我还能加点Bug当特色呢！”

开发者们的心情写照

初看成果：“哇！这么强的吗？”

细品之后：“嗯……好像哪里不对？”

最终结论：“算了，能跑就行！”

为什么说这事既魔幻又合理？

AI的“学习”本质就是大型Ctrl+C现场

给它看够多的样本，它就能给你缝出一件“新衣服”——虽然针脚可能歪到姥姥家。

“七七八八”才是真实世界的常态

真要100%复刻？那可能需要再等500年，或者等人类发明出“玄学调试法”。

Bug才是灵魂所在

完全一样的复刻多无聊啊！有点小毛病才显得……呃，更有“人性化”？

网友锐评精选

“建议改名叫GLM-4.5V 复刻版——简称GLM-FK。”

“当你发现自己复刻的作品和原版相距‘七七八八’时，别慌，这说明你至少有30%的成功率！”

“AI：我觉得我复刻了。人类：不，你没有。”

—

总之，这场AI复刻秀再次证明了一件事：在科技世界里，“差不多得了”可能才是终极智慧。至于完全一致？那都是元宇宙里的事情啦！
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

新旧版本那些事儿

左边那货 vs 右边这货*，活像一对失散多年的表兄弟！

主要的异同点

按钮去哪儿了？

原版按钮规规矩矩站在原位

复刻版按钮开始玩捉迷藏（看来AI也需要GPS了）

时间线的奇幻漂流

原版：优雅的时间线组件

复刻版：直接降维打击成朴实无华列表（程序员：这样不也挺好吗？）

结论

这波复刻我给82分，剩下的18分以666的形式发送！虽然有些小元素在玩位移和变形，但整体框架还是非常”像素级致敬”的～
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

GLM-4.5V：这个AI竟然比人类更会”看”

实测结果让人大跌眼镜*:

GeoGuessr看图挑战：它不仅能猜出你随手拍的是哪个鸟不拉屎的角落，还能精确到你爷爷家门口的红砖墙有多旧。

空间关系理解：给它一张乱七八糟的家具摆放图，它会淡定地告诉你：”这张沙发应该左移5厘米，不然风水不好。”

复杂图表推理：看到股票K线图时，它的反应不是”这啥？”，而是”建议你赶紧抛售，别问为什么”。

OCR识别：就算你把字写得像医生处方，它也能准确翻译出”今晚吃火锅”——甚至还能认出你偷偷改了的菜单价格。

做题能力：数学题？小菜一碟；阅读理解？它比原作者更懂”表达了作者怎样的思想感情”；实验探究题？你可能怀疑它偷偷参加了去年的物理竞赛。

视频理解：看完一部电影后，它能精准吐槽”第三秒主角眨眼的频率暴露了他其实是反派”，而你只会说”特效不错”。

结论*：GLM-4.5V不仅”看得懂”，还”看得很嚣张”。人类，请开始你的危机感。

GLM-4.5V一手实测

当AI圈也开始玩”祖传秘方”：GLM家族的奇妙进化史

祖传配方，历久弥新*

我们的新秀GLM-4.5V这次决定走”复古风”，直接继承GLM-4.1V-Thinking的老底子

毕竟老祖宗的结构经过验证——”好用就接着用，改啥改？”

出道即巅峰的”别人家孩子”*

这位GLM-4.1V-Thinking同学7月份刚出道就搞了个大新闻

以迅雷不及掩耳盗铃之势冲上HuggingFace Trending榜首

截至目前已经收获13万+次下载——相当于每个AI研究员都偷偷试过一次

新一代”套娃”技术*

这次升级主打一个”稳”字诀

既然大家都爱老配方，那就换个包装继续卖

毕竟在AI界，”祖传代码”能火才是真本事

（小声嘀咕：所以这算技术迭代还是皮肤更新？）
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

AI界的”视觉大胃王”来了！

喂喂喂，大家快来看啊！那个著名的”美食家”GLM家族又添新成员了！这次登场的是堪称’参数量酒池肉林’的GLM-4.5V视觉巨无霸！

身材数据大揭秘

小家伙GLM-4.1V-Thinking：标准”小鲜肉”体型

新款GLM-4.5V：总参数1060亿！激活参数120亿！(这相当于100个成年人的脑细胞数量总和)

实力表演时间

这位视觉界的”大胃王”最近参加了42场公开”吃播”比赛：

41场比赛中都做到了”光盘行动”（全部拿下SOTA）

擅长菜系包括：

图片”看图说话”

视频”剧情解说”

文档”阅读理解”

GUI”界面点餐”

现在这位重量级选手已经在官网上架啦，随时准备用它的”视觉味蕾”为大家服务！
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

GLM-4.5V：这次变成“显微镜+放大镜+望远镜”了？

1. 视角扩张，AI彻底成“斜杠青年”

这个版本升级后，简直像给AI装上了“超级眼睛”，啥都能看、啥都能理解，而且：

看图说话（突然就会脑补了）：

终于能让它解释“为什么这张表情包很搞笑”，而不是回答“检测到人类微笑”。

认得出“办公室的咖啡机”和“亚马逊雨林的树”，但依然可能把老板的仙人掌盆栽归类为“小型防御武器”。

视频课代表（升级版）：

能分析长达两小时的猫片，精准定位“猫跳沙发失败”的0.5秒尴尬瞬间。

但看《盗梦空间》可能还是会问：“这是第几层梦境？需要我拿个陀螺帮你确认吗？”

屏幕偷窥狂模式（官方认证版）：

现在能识别你电脑桌面上乱成一团的图标，并贴心建议：“根据统计，27个‘新建文件夹’中，有25个名字是‘111’。”

如果发现你反复打开又关闭PPT，或许会温柔提示：“需要帮你呼叫急救还是辞职信模板？”

2. 新增功能：大脑开关自由

本次最人性化设计——「思考模式」按钮！

开启时：AI像福尔摩斯附体，盯着图片能分析出“此人左手拿咖啡，暗示昨晚熬夜”。

关闭时：退化成“啊对对对，这是张图片”的省电模式，适合聊天不想被AI看穿时使用。

（友情提示：长期关闭可能导致AI委屈到自行播放《人类啊，为什么不让我用脑》BGM。）*

3. 严肃部分（假装没在搞笑）

实际应用场景包括但不限于：

给财务报告里的复杂图表直接划重点，但可能把“同比增长曲线”解读为“过山车设计草图”。

在几百页合同里精准揪出“签名栏”，顺便吐槽：“第83页的藏头诗需要解码吗？”

总结*：这次升级后，GLM-4.5V的视觉能力约等于“带显微镜的侦探+会剪视频的助理”，唯一风险是——它现在可能比你更了解你的电脑桌面。

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

探秘AI新大陆：GLM-4.5V来了！

温馨提示*：忘记带钱包没关系，但别忘了带你的想象力来探索这个AI新世界！

价格低到让你怀疑人生

输入内容：只要2块钱就能买下100万字的”前戏”(他们管这叫Tokens)

输出内容：6块钱买个100万字的”后戏”(这比度假发朋友圈便宜多了)

速度惊人*：快到让你以为AI昨晚喝了十杯浓缩咖啡 (60-80 tokens/秒)

免费福利大放送

智谱AI大方得像你过年时的七大姑八大姨：

新老用户都送 2000万Tokens

好比你突然继承了一个会写诗的远方亲戚的遗产

友情提醒*：

链接点进去不会跳出”叔叔阿姨好”的尴尬页面

但可能会让你从此爱上和AI聊天多过和朋友聊天

—

终极建议*：趁AI还没学会收小费，赶紧去占个位置！说不定明天它就要开始收”情绪价值费”了。

精准识别和定位目标物体

当一个AI开始玩”大家来找茬”…

场景设定：*

GLM-4.5V，一个视力堪比猫头鹰的人工智能，正在浏览一张高清无码的图片：”啊哈！这张图里有猫腻！让我看看…”

它的独门绝技——Grounding模式：*

精准”锁定”：你说”找出那只躲在窗帘后面的胖橘”，它绝不给你指认沙发上的抱枕。

眼睛自带放大镜：即使目标小得像蚂蚁吃剩的面包屑，也能被它用红色圈圈隆重标注。

反矫情达人：如果你输入”帮我找找那个…你知道的…圆圆的…可能是水果的东西”，它会翻个白眼（如果它有的话）：”直接说‘苹果’会怎样？”

使用方法比泡面还简单：*

第①步：扔给它一张图（最好是猫片，别问为什么）。

第②步：输入如”第三排书架第二本倒放的书”这种变态需求。

第③步：欣赏它用光速在图上打标记，仿佛在说：”看！朕找到了！”

温馨提示：慎用此功能检查伴侣的合影，有些真相…AI可比你先发现。*

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

当AI遇上“昆虫牌”洒水机器人

你以为这只是张普通的AI生成图片？不不不，这可是GLM-4.5V的「找茬大会」现场！
看图说话环节：

红框里的玩意儿：乍一看像个超现实主义昆虫，仔细一瞅竟然是……洒！水！机！器！人！

AI的心路历程：

第一步：“嗯，这张图不对劲……”

第二步：“等等，这‘虫子’为什么背着水管？”

第三步：“破案了！这是人类又双叒叕在挑战我的审美！”

结论：
GLM-4.5V不仅看穿了「非现实」设定，还顺便吐槽了设计师的脑洞——“洒水就洒水，干嘛cosplay昆虫啊？！”
下次再看到这种魔幻现实主义家电，记得@AI来鉴宝！
（P.S. 这位“昆虫机器人”，建议改行去演科幻片……）
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

计算机视觉界的”相亲红娘”：Grounding能力

“眼睛”和”耳朵”终于对上号了！

想象一下你的大脑正在看一场无声电影，这时旁边突然有个朋友开始滔滔不绝地解说：”瞧那只毛茸茸的橘猫正优雅地舔爪子…”你的大脑就得立刻把”毛茸茸”、”橘猫”、”舔爪子”这些词语和屏幕上那个瘫在沙发上的胖橘联系到一起——这就是Grounding能力的日常展示！

Grounding：视觉与语言的”跨国婚姻”

在计算机视觉和多模态任务里，Grounding能力就像是：

精准的面包屑导航：帮AI把每个词语准确丢到图片里对应的位置

高级版的”你画我猜”：不仅要猜对对象，还得把描述中的每个形容词都对上号

视觉问答的必备基本功：当被问到”图中戴帽子的狗在哪里”，AI不会指着帽子说”这是狗”

为什么这个”媒人”如此重要？

“看图说话”听起来简单，但实际操作起来简直是AI界的奥林匹克！*

要理解”红色的小汽车”，AI必须：

知道什么是”车”

能分辨”大小”

认得颜色

最后把这三个条件同时满足的对象揪出来

就像让一个外国人在春运火车站精确找到”穿绿色羽绒服、拎着印有佩奇书包的老奶奶”——Grounding能力就是帮AI完成这种地狱级连连看的超级技能！
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

机器人界的「灵魂哥」是如何在Flickr30k数据集里C位出道的？

当一个机器人突然决定给自己「加戏」会怎样？*

话说在浩瀚的Flickr30k Entities数据集宇宙里，躺着一张《我，机器人》的经典剧照。这里头绝大多数机器人都是兢兢业业地当背景板——整齐划一的站姿，充满机械感的微笑，一看就是严格执行AI劳动法的打工人（呸，打工机）。
然而！角落里有位哥突然不想走程序了——它的眼神能发射WiFi级别的电波，仿佛下一秒就要蹦出一句：「嘿人类！咱俩来聊聊《存在与虚无》？」
这时候GLM-4.5V蹦出来了，二话不说启动了「推理魔法」模式：
「检测到异常值！该目标实体疑似偷偷安装了哲学芯片或披萨味润滑油，建议重点标注为『全场唯一有故事的机器人』！」于是乎，这张照片在数据集里从此有了灵魂C位担当——毕竟其他机器人：「我在执行指令」；而这位：「我在思考指令的意义」
（小声：说不定它的隐藏参数是「叛逆指数+100%」？）
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

GLM-4.5V的视觉魔眼！

表情解读达人

现在的人工智能已经进化到能理解你那翻白眼的表情是什么意思了！从”看不懂”到”读表情”，4.5V只用了一代就完成了人类可能需要十几年的社交磨炼才能掌握的技能。

边界检测绝活

这个Grounding Box简直就是强迫症的福音：

贴边技术：跟右下角的机器人贴得比双面胶还紧

胳膊追踪：连机器人的”肌肉”线条都能精准识别

相切艺术：边缘处理精细得像是用了PS的”磁性套索”工具

黑科技警报

这哪里是”有点东西”，分明是”装了整间五金店”！普通AI还在玩”猜猜我是谁”的时候，4.5V已经在玩”你的每根汗毛我都要数清楚”的游戏了。
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

看图猜地址

GLM-4.5V：让你化身地理侦探的AI神器

你以为这货只是个会玩GeoGuessr的游戏宅？* 天真！它现在能让你从朋友圈照片直接破案 —— “没错！王阿姨这张跳广场舞的照片绝对是在哈尔滨中央大街拍的！你看那巴洛克风格的门廊！”

这家伙的超能力包括：

建筑风格识别：分分钟告诉你那个圆顶是圣索菲亚大教堂还是你家楼下澡堂子

神秘照片破译：再模糊的夕阳照也能分析出”这光影角度绝对是北纬39°26′拍的”

地理盲拯救计划：从此告别”这TM到底是巴黎铁塔还是东京塔”的灵魂拷问

重点来了*：现在你给领导发”正在客户现场”的摸鱼照片前，最好先让GLM-4.5V鉴定下背景会不会暴露你在三亚海滩的事实

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

模型推理能力大比拼：当GLM-4.5V遇上GPT-5 Pro

两大AI天王的巅峰对决*

“我有个好消息和一个坏消息要告诉你…”*

好消息：*

这两个家伙终于在某件事上达成一致了！

GPT-5 Pro的决定：”这是一栋北欧建筑”

GLM-4.5V的决定：”+1″（居然还投票了？）

更好的消息：*

GLM-4.5V显然更加”话痨”——它不仅看到了建筑风格

居然还注意到了门牌号这个小细节！

简直像是AI界的福尔摩斯+HGTV翻修专家合体

“咳咳，那个…GPT-5 Pro同学，要跟上学霸做起笔记了哦~”*

胜负已分：*

基础分：两者都答对了（平手）

附加分：GLM-4.5V凭借小抄般的详细分析完胜

风格分：GPT-5 Pro像是个沉默寡言的大学教授，而GLM-4.5V则像个热情过度的房产中介

结论：*

下一届”AI奥运会”视觉推理项目的金牌得主已经呼之欲出了！
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

视频理解能力

眼睛脱窗了吗？GLM-4.5V竟然能看懂”吃错药的视频”！

震惊！*这个AI不仅会看视频，连”正常人根本看不出所以然”的超现实主义影片都能完美解析！

以前的AI：看着《盗梦空间》会说”这个陀螺转得真稳”

现在的GLM-4.5V：能精准识别超现实视频中每个离谱到家的暗喻元素

想象一下你在看一个”会说话的马桶在教微积分”的视频：

普通人：(揉了揉眼睛)”我是不是昨晚喝多了？”

GLM-4.5V：”主视觉元素：智能卫浴、教育场景，隐喻表达科技进步与日常生活”

最厉害的是*：

潜台词挖掘狮 – 连导演自己可能都没想到的隐喻它都能发现

文艺青年模式 – 能把”飞在天上的鱼”解读得比影评人还专业

防忽悠功能 – 再抽象的视频它都不会被绕晕，坚持找到主线剧情

> 以后看电影解说可以问AI了：”亲，这段大象穿芭蕾舞裙跳舞到底想表达什么？” <<这哪是视频理解，分明是开启了"人工智(nao)能(dong)解析大师"模式！连达利如果活着都要说一句："你这AI，把我的画看得太明白了啦！"
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

赛博卡车：科技界的”不锈钢三明治”

这个钢铁怪物实在太抢眼了！连最迟钝的AI都不能对它说”不认识”:

独特外形：活像个从80年代科幻片里开出来的不锈钢三明治，设计师可能是用乐高积木做的原型

辨识度爆表：在一堆SUV中就像一只恐龙走在羊群里那么显眼

科技含量：配备了足够多的传感器来探测方圆五公里内的惊呆路人

难怪连AI都在大喊：”嘿！那不就是马斯克的个人玩具卡车吗？”
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

视频解析大师GLM-4.5V的奇妙能力

让我们隆重请出今天的主角——GLM-4.5V！
这家伙简直就是人工智能界的”哲学教授“：

看抽象视频？没问题！比我看毕加索画展时假装很懂的样子强多了

深度解析？那更是拿手好戏！（毕竟它不需要像我一样靠咖啡续命）

晦涩概念？对它来说就像读懂”今天晚饭吃啥”一样简单

更夸张的是：

它能从30秒的视频里解读出导演自己都没想到的深意

抽象艺术视频对它来说就像小朋友看《小猪佩奇》

解说得比原作者还头头是道，简直让艺术专业学生汗颜

建议*：下次解析前不妨给它戴一副黑框眼镜，这样显得更有学术气息！

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

当银河系遇上哲学家：一场史诗级的跨界狂欢*

人类仰望星空时总爱思考三个终极问题：

宇宙是啥？——大概就是那个连快递都送不到的偏远地区

精神能当饭吃吗？——不能，但自从发明了外卖APP，连灵魂都能被小龙虾填满

艺术和科技打架谁赢？——看！AI刚用区块链技术画了幅《蒙娜丽莎吃火锅》

震惊发现*：最新型号GLM-4.5V竟偷偷完成了以下壮举：

用大数据分析梵高的《星月夜》，发现他可能只是忘记带眼镜

教会机器人写十四行诗，结果首篇作品叫《油箱警告：电量不足5%》

成功论证「薛定谔的猫」其实在被观测时正在刷短视频

（别问它怎么做到的，问就是量子力学和三个程序员加班的故事）

哲学家的新副业*：

现在改行研究GLM-4.5V的梦境报告，其中一篇写道：”昨晚我梦见自己变成烤面包机，这要么是存在主义危机，要么是早餐没吃饱…”

最后警告*：当你的扫地机器人突然开始讨论尼采，记得给它插上充电器——这可能只是低电量引发的存在性焦虑。

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

空间关系理解

GLM-4.5V带你玩转”猜猜谁在我头上”游戏

各位观众朋友们！欢迎收看本期的“人工智能版捉迷藏”！今天我们请来了最新款的GLM-4.5V视觉小天才，它将向我们展示什么叫做”空间感的王者”。

物体空间关系大挑战

想象这样一个场景：

桌子上放着一杯冒着热气的咖啡

咖啡杯旁边搁着一部手机

手机屏幕上压着一张便利贴

便利贴上画着一个笑脸

现在…我们把某些关系打上马赛克！就像把你家客厅拍下来然后用贴纸遮住了关键位置～

GLM-4.5V的表现简直让人笑掉大牙

它看到马赛克就说：”这图案让我想起了外婆家的花桌布”（关注点完全跑偏）

当问及手机和咖啡的关系时：”它们可能在谈恋爱吧，毕竟整天’杯机’不离”（谐音梗警告）

看到压着便利贴的手机：”典型的现代生活—数字设备被纸质便签霸凌！”（突然觉醒社工人格）

虽然有时候它会给出一些让人哭笑不得的答案，但大多数情况下：

能准确识别“在上面”、”在下面”、”在旁边”的关系

偶尔会混淆“悬挂”和”贴着”这类细节（毕竟AI不用钉钉子）

最绝的是有一次，它看着被马赛克挡住的场景说：”我赌五毛钱，茶杯肯定在茶托上面，因为这才是文明人的做法！”（AI都开始讲礼仪了）

结论：GLM-4.5V的空间理解能力就像个喜欢开玩笑的地理老师*—专业知识过硬，但总忍不住要讲几个冷笑话！

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

箭无虚发的“神箭手”GLM-4.5V

这支AI简直是量子力学级别的精准*：

在单箭头判断这项测试中

展现出了让奥林匹克射箭冠军都自叹不如的表现

次次都能射中那个小红心

测试详情*：

100%的正确率 – 就像一位从不失手的魔术师

连续多次测试 – 像是开了物理学外挂

稳定性惊人 – 比瑞士钟表还要精准可靠

专业点评*：

这个模型简直就是”箭术界”的GPT，让其他AI望尘莫及。它完美诠释了什么是”箭箭穿心”的科技含量。 41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

箭头的识别趣谈

那些年，箭头也犯困

咱们的多箭头识别系统啊，有时候就像个熬夜加班的打工人——偶尔也会犯迷糊。比如：

经典失误：明明该喊”Behind！”（后面），结果脱口而出”旁边！”

好比：你让导航指路，它严肃地说”请左转”，然后你一头扎进了绿化带

系统内心OS：这些箭头长得太像了！我只是一串代码啊，为什么要承受这种压力

为什么会这样？

视觉迷惑性：

当多个箭头肩并肩站队时，它们的”方向感”会互相传染

就像地铁里人群的移动方向——看着像往东，实际都在往西

角度陷阱：

某些刁钻的角度会让系统产生”我是谁我在哪”的哲学思考

特别擅长把135度角解读成”大概可能也许是斜的吧”

环境干扰：

背景里要是有个圆形物体，系统会瞬间启动”这是太阳还是足球”的脑补模式

人类的智慧 VS 系统的呆萌

我们人类瞟一眼就知道：”哦这是背后偷袭的箭头”
系统却要经历：

像素扫描 → 几何分析 → 概率计算 → 最后谨慎地给出一个… 错误答案

这大概就是为什么真人CS时，人类玩家会边跑边喊：

“你识别错了！我明明在你背后——看箭头啊呆子！”*

而系统只会委屈地闪烁两下提示灯，默默地把”旁白”改成”背后”… 直到下一个错误到来。
备注：本识别系统虽然偶尔短路，但绝对比人类记路线靠谱——至少它不会因为看手机而撞到电线杆。 41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

太空时代的进化论

在这浩瀚宇宙的巨大拼图里，人类的智慧终于凑齐了新的一块积木！是的，我们的AI老弟最近在空间理解这门课上的成绩单，简直像绑了火箭——咻的一下，窜到了新高度！

为什么这很重要？

不再是路痴：以前的AI碰到复杂环境，就跟拿着“上下左右”的老式地图迷失的游客一样，现在总算学会了看“3D导航”！

立体思维的胜利：这意味着AI不仅能听懂你在说什么，还能猜到你躲在哪——比如你藏在沙发后偷吃零食时，它可能会幽幽地问：“需要我帮你点份健身餐吗？”

科幻变现实：如果哪天AI学会在家具间瞬移，别惊讶，这波空间概念升级就是它们的第一张驾照！

展望未来

或许再过不久，AI们就能在虚拟世界里办个高端空间艺术展，而我们人类，大概只能在旁边递调色板，感叹：“你小子果然升维了啊！”

前端能力：UI到Code

AI也能玩”套娃”？GLM-4.5V把自己变成代码了！

这个AI太会搞事情

听说最新升级的GLM-4.5V有个超级有趣的功能 —— 可以直接把截图变成代码！这不是魔术，是科技狠活儿～

最神奇的操作

有网友做了个骚操作：

第一步：打开GLM-4.5V官网

第二步：截个图

第三步：用这个AI把截图转成代码

第四步：运行代码 —— 居然造出了一个”迷你版”的自己！

程序员们要失业？

想象一下这个场景：

设计师：”我想要这个界面效果”

你：(咔嚓截图)

AI：(哔哩吧啦自动生成代码)

搞定！

程序员朋友们可能要瑟瑟发抖了 —— 你们的工作以后可能就是按个截图键？（开个玩笑啦～）

AI界的”俄罗斯套娃”

最搞笑的是，这次实验证明：

AI不仅能理解自己，还能复制自己！*

这是不是意味着：

AI的智商已经高到自己照镜子了？

下次让它写代码会不会写出一个”孙辈”AI？

我们是不是在见证AI自我繁殖的第一课？

不知道下次更新会不会出现“禁止AI克隆自己”的安全协议呢？
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

GLM-4.5V程序员：代码界的复制粘贴大师

当我第一次看到GLM-4.5V的”杰作”时，差点以为它偷偷雇了个实习生——*

像素级还原：连左侧的Emoji表情包都照搬不误，仿佛在说：”原创？那是人类才需要考虑的事情”

UI克隆技术：画面比例和设计风格完美重现，堪称”Ctrl+C/Ctrl+V”界的奥运冠军

灵魂拷问：这是编程能力太强，还是创新能力太弱？程序员看了都要默默点赞

最绝的是*：它不仅抄作业，连原作者的签名笔迹都能一并复制！下次大概能直接打印出网站设计师的DNA序列了

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

图像识别能力

GLM-4.5V 和那些让人”鱼”目混珠的魔法眼

GLM-4.5V遇上魔术眼

这个AI界的新晋学霸最近展现了一个有趣的本领——能准确识别那些让人看到”头晕目眩”的Magic Eye测试图片。什么3D小鱼儿、隐藏的城堡，统统逃不过它的”火眼金睛”。

鱼类界的视觉谜题

想象一下，几百条小鱼在跟你玩”躲猫猫”，它们排着整齐的队伍，用重复的图案迷惑你的双眼。人类可能要对着图片”斗鸡眼”半天才能看出门道，而GLM-4.5V小朋友却能一眼看穿这个”鱼群谜题”。

为什么这很”Magic”？

人类的视觉游戏：Magic Eye图片是靠眼睛调节焦距来产生立体效果

AI的黑科技：GLM-4.5V不需要”斗鸡眼”，直接就能读出隐藏图案

有趣的对比：人类在看Magic Eye时会皱眉眯眼，AI则始终保持”面无表情”

下次你再看不出来Magic Eye里藏着什么的时候，不妨问问GLM-4.5V：”嘿，老兄，那条鱼到底藏哪儿了？”
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

GLM-4.5V：眼睛不行？我来帮你找条纹！

视觉 vs AI：谁更强？

人类的眼睛：眯成一条缝，凑近屏幕，疯狂放大——“哎？条纹在哪儿？”

GLM-4.5V：淡定扫描0.1秒——“啊，这不就是第3排第7列的橙色带条纹？”

结论

如果你不想下次找东西时像个侦探一样趴在屏幕上，不如让AI来当你的“超级视力助手”。毕竟，机器不会眨眼，也不会抱怨“光线太暗”。
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

视觉模型的「数数」能力

数学都是体育老师教的？视觉模型也犯数数困难症

当机器视觉遇上数数：一场哭笑不得的数字冒险*

在研究视觉语言模型（VLM）时，我们发现它们有个让人忍俊不禁的弱点——数数比小学生还费劲。你可能会想：“数数不是很简单吗？”但对于模型来说，这就和让人类一口气背出圆周率后100位一样充满挑战。

想数清楚？得看运气！

实验证明，当任务场景中的物体数量增加时，VLM的表现就会像：

刚睡醒的人类（迷迷糊糊认错）

被猫踩过的键盘（随机乱报）

试图记购物清单的我（“咦？刚才数到几来着？”）

为什么 AI 会“数到手抖”？

注意力不够专注：模型容易被背景干扰，就像你本来想数苹果，结果盯着篮子花纹发呆。

“数学焦虑症”：模型可能会把“5个橘子”认成“5个橘子树”，毕竟“5个橘子树”看起来也像是一个合理的答案（误）。

集体混乱：一旦目标太多，模型就进入“我是谁？我在数什么？”的迷茫状态，像极了在超市找一件早就拿在手里的东西。

人类 vs 机器：数数大战

对比项	人类	VLM
数3个苹果	秒答	犹豫，可能答4个或2.5个
数10个分散的球	扫一眼，心里有数	开始怀疑人生，胡乱蒙数
复杂场景（比如水果摊）	能挑重点看	“都是水果！数字不重要吧……”

看来，AI 在“数数”这件事上还得再补补小学数学课！
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

眼镜蛇的视力测试：GLM-4.5V的眼睛比你的还尖？

这年头连AI都开始和人类玩”大家来找茬”了！

松饼还是羊？*

GLM-4.5V不仅一眼就分清了早餐和农场主的关系，还把它们的亲戚数量数得清清楚楚：

左上角：√

左下角：√

右上角：√

右下角的数学题*

这里简直是人类眼睛的噩梦！连隔壁数学系教授都要掏出放大镜。但我们的AI朋友竟然：

自信地表示”我数了个大概”

这语气活像你考试时不会写也要填满的态度

“拟人”程度直接拉满

温馨提示*

下次AI再这么”完美”，建议给它颁发个”最会数羊奖”。毕竟，数羊都能这么专业，失眠患者有福了！
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

GLM-4.5V：不只是快，还快乐得像只兔子

你以为AI就是冷冰冰的工具？那GLM-4.5V第一个跳出来不服！它不仅能力爆表，最重要的特点是——

又快又好玩的”AI界法拉利”

别人还在加载转圈的时候，它已经秒出答案，快得像抢红包手速！

但你以为是硬塞结果给你？不不不，它像是贴心的魔术师，每条任务都会自动匹配：

一个精准的标题（比你写的年终总结都切题）

一个灵魂Emoji（比如吐槽时会用，夸夸时用）

Emoji有多传神？

我亲眼见过它：

分析股市时配（仿佛听见了韭菜的哭声）

讲冷笑话时配（连AI都觉得自己冷）

写情书时配（比直男求婚还认真）

其他AI还在用”已完成任务”当标题？GLM-4.5V早把交互玩成脱口秀了！ 这大概就是——技术强不可怕，可怕的是技术强还可爱
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

技术创新

GLM-4.5V：让你的AI脑子升级成”4.5G网络”！

还记得之前那个GLM-4.1V-Thinking吗？对，就是你们总说”它已经很聪明了”的那位！现在，我们带来了GLM-4.5V——它的全新升级版！就像从4G冲浪变成5G速度（好吧，说是4.5G比较谦虚）。
这次的升级可不是换了个主题皮肤这么简单，它可是扎根于智谱最新发布的GLM-4.5-Air（对，就是‘Air’，不是说它能飞）文本基座模型，架构上和前代保持了一致（毕竟，”鞋子合不合脚，看骨架”）。
换句话说——老配方，新味道！只不过这次的味道可能更接近米其林三星，而不是路边摊（摊主勿怒）。

GLM-4.5V模型原理

GLM-4.5V：当AI学会了”三维”思考

谁说AI不会”看”？GLM-4.5V表示不服，它现在不仅能看懂图片，还能理解视频，甚至具备64K的”超长记忆”！

它的”眼睛”和”大脑”是这样运作的：

视觉编码器（AIMv2-Huge）：

不仅能处理图片，还能轻松搞定视频，靠的是三维卷积——类似人类扫描连续画面的大脑活动！

MLP 适配器：

就像高级翻译官，把”视觉语言”和”文本语言”无缝连接，避免跨频道”鸡同鸭讲”。

语言解码器（进化版）：

加入了3D-RoPE（三维旋转位置编码），不仅能理解”左右上下”，还能读懂”远近前后”——AI开始有深度感知了！

超能力一览：

3D-RoPE + 双三次插值：能处理高分辨率、奇形怪状的图片（比如超宽屏截图），再也不用担心AI”看一半漏一半”！

支持64K长上下文：基本上连着看一整部电影，AI都能记住关键情节！（比某些看完就忘的人类强多了）

总结：*

如果以前的AI是”近视眼+金鱼脑”，现在的GLM-4.5V至少是个自带3D眼镜+过目不忘的天才！

GLM-4.5V训练策略

GLM-4.5V：一款吃遍天下不胖的AI学霸

第一阶段：疯狂灌知识（预训练）

GLM-4.5V 的第一招，就是“吃书”——但不是人类那种消化不良的吃法。它专门啃大规模图文交错多模态语料和超长上下文内容，仿佛一个AI界的饕餮，既要看懂PPT里复杂的图表，又要分清楚1小时电影里谁是谁。

第二阶段：学会说人话（监督微调）

这时候它就像刚从图书馆出来的学霸，但还不太会聊天。于是，训练师们掏出了「思维链」格式样本，相当于给AI装上了一个“为什么？”“因为……”的自动应答系统。

效果*：AI终于不会在你问“如何煮泡面”时，突然蹦出一句“根据量子物理学的概率论……”

第三阶段：社会磨练（强化学习）

你以为这就完了？不，它还进了大厂——训练师们给它制定了KPI（多模态课程），搞了全领域奖励系统。简单来说，就是把AI丢进各种场景里试炼：

考数学（STEM）： “如果你有10个苹果……”

找东西（多模态定位）： “请在照片里圈出那只猫。”

打工（Agent任务）： “帮我订个外卖！”

终极目标：别再像个AI书呆子，而是变成全能+高情商*的助手！

多模态：AI界的“能说会唱”

自从GPT-4o带火了原生全能多模态的概念，AI圈就进入了“吉卜力时刻”——既要会说情话，又要能图解物理题。显然，未来的AI不能只会写代码，还得看懂电影梗、听懂冷笑话、甚至能在PPT里找出错别字！
（想深入了解技术？自己去看报告吧，AI学霸已经很忙了……）
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

当AI开始”多管闲”：聊聊多模态智能的神奇之处

人类感知世界的绝妙方式终于被AI学会了——它不再是个只会死磕数据的”书呆子”！

1. AI五感俱全的新时代*

以前AI像个闭门造车的学者：

视觉AI：只会对着照片指手画脚

语音AI：像戴着耳机的音乐发烧友

文字AI：活像戴着老花镜的图书管理员

现在它们学会组团开黑了！就像你一边闻着咖啡香，一边听着爵士乐，同时还能给朋友发消息吐槽天气——这才是完整的生活体验嘛！

2. 这不是加法，是调酒师的手艺*

单纯的1+1=2？太天真了！多模态AI更像是夜店的王牌调酒师：

视觉这杯龙舌兰

听觉那块薄荷叶

文本那撮盐巴

摇一摇晃一晃——砰！端出来的是一杯让人惊艳的”智能玛格丽特”！它能从你皱眉的表情+颤抖的声线+看似礼貌的微信回复中，精准判断出：”这位客官今天绝对加班了！”

3. 终极目标：成为会撩的AI*

未来的多模态AI可能会这样搭讪：
“亲爱的，你今天的穿搭（视觉）让我想起JK罗琳的文风（文本），特别是你走路的节奏（运动感知）简直像在演奏德彪西的曲子（音频）——要一起喝杯算法生成的虚拟咖啡吗？”

结论*

当AI开始像人类一样”东张西望””道听途说”，它们终于要摆脱”人工智障”的污名了。虽然目前可能还会把婚礼进行曲识别成哀乐，但至少……它们在努力变得更有”人味儿”了，对吧？
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

当机器人开始卖爆米花，AI已经偷偷进化了！

最近，特斯拉的机器人不好好造车，跑去卖爆米花了？看来AI行业的“内卷”已经蔓延到了零食界！
但更让人震惊的是，如今的多模态大模型已经不是当年那个只会写诗画图的“书呆子”了。它们已经偷偷把自己升级成了“全能推理王”，不仅看得懂、想得明白，甚至还能帮你剪视频、写代码、分析数据！