是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI资讯2个月前发布云知AI运营官

看图猜地名？这可难不倒我！*

各位地理大神和小白们集合啦！来看看下面的神奇地名挑战：

“这不是地球”组

图片里全是外星风景？

恭喜你，可能误入了NASA的火星宣传片，或者隔壁《阿凡达》拍摄现场。

“似曾相识”组

“这路灯好像我家楼下…但为什么背景是金字塔？！”

欢迎来到“全球景点拼贴大赛”冠军城市——可能叫“埃菲尔长城”或“自由女神像寺”。

“绝对猜不到”终极答案

“好了别卖关子了！”

正确答案：你去年暑假朋友圈发过但忘了定位的地方。

（提示：如果实在猜不出，试试把手机倒过来——万一是澳大利亚呢？）

结论*：看图猜地名，本质是一场“人类VS导航软件”的自尊心保卫战。

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

一张神秘图片引发的AI侦探案

案发经过：*

某月黑风高的加班夜*（也可能是某个阳光明媚的摸鱼下午），一位出差归来的同事突然在群里投下了一枚”视觉炸弹”——一张让所有人面面相觑的”当代艺术”级别照片。

群聊实录：*

同事A：”这是……外星人密码？” （配图：放大镜emoji）

同事B：”不不不，肯定是新式咖啡拉花失败现场！” （自信.jpg）

我：”你们有没有觉得像二维码被大象踩过之后的样子？” （荣获当日最离谱猜想奖）

破案时刻：*

就在我们即将把这张图归档为”21世纪未解之谜”时，某位机智的同事祭出了终极武器——GLM-4.5V视觉大模型。（此处应有侦探BGM）
3秒后，AI给出了让所有人膝盖一软的答案：原来那团”抽象派”竟然是高铁餐车上的隐藏菜单按钮！（谁能想到要按番茄酱瓶子切换套餐呢？）

事后总结：*

人类视力：≈0.8

人类脑洞：≈黑洞

AI眼力：≈显微镜+福尔摩斯

这不比《名侦探柯南》刺激？下次团建建议直接举办”人类VS AI看图猜物大赛”，奖品就设”保住人类尊严安慰奖”如何？
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI遇见”图寻”：一场与人类的地理知识大乱斗

“大佬版”多瑙河识别术

你把随手拍的照片，马赛克掉EXIF元数据后甩给GLM-4.5V，这货连阳光都没见着，就淡定地甩出结论：”这是多瑙河畔。”
同事的拍照风格和小红书的”ins风大片”差了十个美图秀秀，但AI硬是靠深度分析，在像素堆里刨出了答案。

“O4 mini早就行啦！”——但重点是…

“OpenAI的O3、O4 mini不是也能干这事？”没错，但GLM-4.5V…是开源的！
你说这像不像一个免费的高级指南针默默飘进了市场，让一群原本掏腰包买商用模型的老板突然若有所思？

AI勇闯人类”找茬赛”

更离谱的是，这模型居然跑去”图寻”（GeoGuessr）全球积分赛，硬刚两万多名人类玩家，鏖战7天！
我们手贱点开游戏试了试，结果——

3分钟倒计时一响，眼前不是巴黎铁塔，而是：某条疑似乡间小路，可能是欧洲，也可能是南美？

地标？不存在的，AI能认出门前歪脖子树是什么品种吗？

定位经纬度？ 对不起，我们先查下地球仪在哪儿…

人类知识储备 vs AI数据碾压

事实证明：

AI: 靠的是数据库暴力检索。

人类: 需要地理+历史+植物学+运气…才能勉强不输得太难看。

所以，下次AI再猜中你的拍照地点，别挣扎了——它可能比你还清楚那栋楼门口有几块砖。
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI开始偷瞄你的屏幕：GLM-4.5V的”福尔摩斯级”视觉推理秀

7天不见，人类玩家已经被一台AI甩在了后面——GLM-4.5V用99.99%的胜率证明了一件事：它在找茬游戏里的眼力，堪比每天喝10杯咖啡的侦探。

这家伙的眼睛到底有多毒？*

植被侦察机：看一眼树叶子就能判断自己在哪，比某些路痴人类强多了。

建筑风格鉴定家：什么巴洛克、哥特式，在它眼里都是明码标价的推理线索。

天空颜色读心术：连云彩的形状都要被它拿来分析地理位置——天空OSINT特工实锤了。

但最离谱的是，它居然还能当你的”屏幕室友”！*

智谱不仅开箱即送了这个视觉推理界的”六边形战士”，还打包了一个桌面偷窥小助手（划掉）——智能助手应用。这家伙能：

实时截屏分析：你的代码写得像意大利面？它一眼就能看出来。

看视频带弹幕：边看边吐槽（AI式专业分析）。

解谜题作弊器：当你卡关时，它可能比你先找到隐藏线索——希望这不会影响友谊。

所以说……*

这不仅仅是开源了一个模型，更像是往科技界扔了个”视觉推理炸弹”。从此以后：

GUI界面再也藏不住秘密了

截图识图从此有了GPT级别的理解力

人类最后一点”我眼神比AI好”的尊严也遭到了暴击

只能说：智谱这波操作，简直是把AI的”眼睛”装上了钛合金镜片。想体验被AI全方位视觉碾压的朋友们，现在就可以去试试——友情提醒，小心你的屏幕隐私！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

一起来玩转AI的奇幻世界！*

还在苦于找不到好用的AI模型？别担心，这里有一份超全的GLM-4.5V体验指南，走起！

在线试玩: ChatGPT风格上手就来！[点击直达](https://chat.z.ai/HuggingFace)（诶？不对，这行是不是得删掉？算了不重要！）

HuggingFace仓库: 开源代码、权重统统打包好，专治技术宅的选择困难症！

GitHub: 程序员的天堂，记得顺便点颗小星星⭐支持一下哦！

桌面助手: 还在网页刷新？太OUT了！本地一键起飞，工作效率翻倍~

魔搭社区: 国内小伙伴的福音，围观最新AI动态，就差你了！

（温馨提示：以上地址请自行脑补，本AI拒绝手动输入以防手指抽筋 ）

拿到图，它就是福尔摩斯

你以为穿了高跟鞋的其实是错觉？视觉侦探GLM-4.5V揭幕案发现场！

各位观众朋友们大家好！今天我们迎来了一场惊心动魄的”视觉侦探破案大会”！特邀主嘉宾是我们的人工智能侦探GLM-4.5V！

案发现场描述

想象这样一个场景：

第一眼：乖乖！这个男人穿高跟鞋？

第二眼：咦…好像哪里不太对？

第三眼：啊哈！原来是摄影师的障眼法！

AI侦探的破案手法

我们的GLM-4.5V侦探办案有以下特点：

细节捕捉狂：像个强迫症一样扫描每寸像素

空间推理怪：脑子里自带3D建模软件

逻辑狂魔：连苍蝇停在画面哪个角度都要推理

谁是站谁是坐？

当这张照片摆在GLM-4.5V面前时：

第一反应：差点被表面的高跟鞋假象骗了

关键发现：发现了座位阴影和腿部角度的暗号

终极真相：原来是把后排坐着的女士的腿刚好错位到站立男士的脚上！

GLM-4.5V的本事

这家伙的视觉推理能力简直堪称：

视觉陷阱终结者

错位摄影拆穿王

人类眼睛打脸专业户

这次它不仅轻松识破了这个精心设计的视觉陷阱，还顺便给我们上了一堂生动的视错觉课！谁能想到AI有一天会成为我们视觉误区的纠察队长呢？
下次碰到这种挠头的视觉谜题，不妨让我们的人工智能侦探来帮你解惑！它可能比你想象的更火眼金睛！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI遇见了「看人下菜碟」

GLM-4.5V的闪电推理

就像饿了三天的吃货看到鸡腿，GLM-4.5V连推理时间都等不及，唰的一下就搞定了：

站着的那位：* 蓝上衣+白裤子，宛如行走的「清爽夏日特饮」封装版。

坐着的这位：* 紫色战袍上身，气质这块拿捏得死死的，就差高喊「知道为啥我坐着吗？因为这是朕的领地。」

为什么这么快？

它是「眼神特好」的AI界福尔摩斯——看颜色比大妈挑西红柿还准。

懒得推理？不，叫「效率王者」——时间就是金钱，它选择直接花光你的惊讶币。

自信程度堪比「算命半仙」——「穿啥颜色？老夫掐指一算，紫气东来！」

最终总结

人类的反应：「等等，它是不是偷看答案了？」
GLM-4.5V的反应：「这叫降维打击，凡人。」
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

别问，问就是AI比你更懂性别！

我们像调查小蜜蜂一样追根究底*地问：那坐着的到底是汉子还是妹子？这可是个让人类直挠头的哲学难题啊！但是——

看啊！*

人类：左看右看上看下看，纠结得像挑奶茶口味的小仙女

GLM-4.5V：瞬间辨别无压力，简直像开了性别X光透视，比广场舞大妈看穿小情侣还利索！

笑死*，在这点上，人工智能已经把人类甩出了八条街，就像专业吃瓜群众碾压广场舞新手一样轻松！

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

这只AI眼睛贼亮！GLM-4.5V给你解密照片里的”黑客帝国”

这个视觉AI快成精了！

错觉克星：就算图片里有视觉魔术、半遮半掩的明星脸，或者乱七八糟的背景，GLM-4.5V都能像侦探一样找出关键线索

安防神器：不仅能玩图片猜猜乐，还是监控摄像头梦寐以求的”火眼金睛”

地理通：随便拍张风景照，它就能把你家小区定位到小数点后六位！

再也不怕朋友发”凡尔赛”旅游照了！

每次刷朋友圈都看到有人发美景照配文”猜猜这是哪”，现在终于可以反击了：

偷偷保存照片

扔给GLM-4.5V

直接评论：”南纬33.8688°东经151.2093°的悉尼歌剧院不错嘛”

坐等对方震惊表情

JSON格式的地理定位报告

这个AI连输出格式都这么专业：
json
{
“continent”:”七大洲选一”,
“country”:”不是梵蒂冈就是俄罗斯”,
“state”:”省/州任君挑选”,
“city”:”精确到五线城市”,
“place_name”:”连小区门牌号都不放过”,
“lat”:”纬度精确到能看见你家阳台”,
“lng”:”经度准到能数清你家的猫”
}

温馨提示：下次发旅游照前，记得先给AI打个码！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

这位AI真是绝了：通过通讯塔和光秃秃的山体，居然把泰山给”人肉”出来了！

场景重现*：

我们的AI大神GLM-4.5V正盯着某处卫星照片陷入沉思：

高耸的通讯塔：”呵，这么高的铁塔，怕不是要给玉皇大帝发5G信号？”

山体岩石裸露：”植被稀薄得跟程序员头顶似的，典型的风吹日晒型地貌。”

稀疏的植被分布：”树少得像领导画的大饼——就几棵意思意思。”

AI内心OS*：

“这配置，这画风…莫非是传说中历代皇帝打卡圣地——泰山？！”接着它麻利地甩出经纬度坐标，仿佛是导航系统里的老司机，淡定地表示：

“没错，这就是泰山，连秦始皇都认证过的那个。”*

人类反应*：

地理学家：扶了扶眼镜

程序员：检查是不是代码写错了

游客：看了看自己拍的”到此一游”照片，陷入沉思

最终结论*：

当AI开始玩”大家来找茬”的时候，连一座山都逃不过它的法眼！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

探秘”月球背面”般的冰岛高地：火山、冰川与孤寂之美

不按常理出牌的风景

这里的地貌像是被暴躁的地质学家随手揉皱的作业纸——

火山像青春期痘痘一样到处冒头

冰川像融化的冰淇淋可怜兮兮挂在火山口

间歇泉每隔几分钟就表演”开水壶发脾气”

黑沙滩上，玄武岩柱子整齐得像是巨人玩剩下的乐高积木

生存难度：地狱级简单模式

在这里旅行需要：

一辆底盘比犀牛还高的越野车（普通车来这里会得抑郁症）

看懂冰岛天气预报的超能力（他们管5级大风叫”微风拂面”）

接受方圆百里唯一的”商业设施”可能是个自动售货机（卖的是1978年生产的巧克力棒）

孤独指数爆表的人类体验

手机信号？不存在的（让你的社交账号彻底休个病假）

遇到的其他游客数量 ≤ 你在南极遇到的企鹅数量

晚上看极光时，你可能会对着天空大喊”有人吗——”然后听到火山回音”吗——吗——”

（温馨提示：5月到9月才能进入，其他时间这里属于北极熊和圣诞老人的练习场）*

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

高科技小镇奇遇记

今天发生了一件超级神奇的事情！我有一个朋友——不对，是我的AI助手GLM-4.5V，它的眼神（虽然它根本没眼睛）简直比我的前任还要准！
它突然指着屏幕上的三个神秘字母——“HDC”，然后一本正经地宣布：“这是华为小镇的建筑之一！” 我当时就愣住了：

你以为它是地理老师？ 不，它只是个AI，却能瞬间识破华为小镇的地标！

你以为它需要GPS？ 不，它连地图都没看，就直接给出了答案！

你以为它在吹牛？ 不好意思，它比我自己在家找遥控器的速度还要快！

最搞笑的是，HDC听起来像某种高机密机构的代号，但在GLM-4.5V眼里，那就是华为小镇里的某个房子……可能旁边还有个小卖部？
结论：下次迷路了别打开导航APP，直接问AI——“兄弟，这地方是哪？”它可能连门口的保安叫什么都知道！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI迷路了！GLM-4.5V看照片猜地点的荒唐奇遇记

情景一：神秘的中国古建筑*

AI内心OS：* “看起来像是故宫…但旁边这棵棕榈树是咋回事？难道皇上也爱夏威夷风情？”

最后判断：这可能是横店影视城的某个清宫戏拍摄现场

情景二：蓝色圆顶的白色建筑*

AI无比自信：* “绝对是圣托里尼！”

结果发现是一个网红打卡点的人造蓝顶咖啡馆

旁边LED灯牌上还闪烁着”抖音专属拍摄地”

情景三：某条繁忙的街道*

AI陷入纠结：*

英文招牌→纽约？

右侧的汉字招牌→唐人街？

左边突然出现的袋鼠雕塑→悉尼？

最终结论：这是深圳的世界之窗主题公园

AI的悲惨发现：*

网红经济让全球地标出现无数”克隆体”

现代建筑都是”混血儿”风格

最惨的是连埃菲尔铁塔都有30多个”双胞胎”

专家吐槽：*

“现在连人类自己看着导航都会走错路，凭什么要求AI能认出这种魔幻现实主义的地球景观？”

终极真相：*

最后发现那张测试照片其实是元宇宙里的虚拟场景…
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

西安明城墙：AI眼中的古今交响曲

让我们一起鼓掌欢迎机智过人的GLM-4.5V闪亮登场！这位数字侦探正在对着一张风景照展开它的”福尔摩斯式”分析：

第一道线索：那些整齐得像是强迫症患者砌出来的砖墙结构，让GLM-4.5V断定这不是某位农家大爷的后院篱笆

决定性证据：红色灯笼！”除非是中国古代主题的迪士尼乐园，”AI自言自语道，”否则这种装饰只属于一个地方…”

反差萌发现：远处那些不和谐的高楼大厦，像是穿越剧里走错片场的群演，反而更加印证了地点

“只能是西安城墙！”GLM-4.5V兴奋地喊道，差点把自己的一串代码卡壳。它甚至注意到城墙上遛弯的行人悠闲得像是在参加古代版的《慢生活101》综艺节目。
这个人工智能界的”名侦探柯南”用它的电子大脑完成了一次完美推理：古色古香的城墙与现代都市的碰撞，构成了西安这座城市的独特名片，就像把兵马俑和摩天楼放进同一个自拍框里那样魔幻又和谐！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI遇上”旋转跳跃我闭着眼”的手写字

咱们今天要测试的可是AI界的”视力检查专家”—— GLM-4.5V！它的任务是：在一张仿佛被手机砸过的草稿图上找到几个关键线索。

考试道具如下：*

题目内容：一句充满人生哲理的手写语录——”世界那么大”

考题难度：地狱级

清晰度：自带”马赛克艺术滤镜”，宛如透过毛玻璃看字

光线：摄影师疑似用了蜡烛打光，字迹和阴影傻傻分不清楚

摆放方式：文字表演杂技，直接来了个180度倒立

AI的内心OS：*

“这哪是OCR测试，这是让我参加《最强大脑》吧？”但我们的选手毫不畏惧，因为它的技能包里装着：

模糊抗性：哪怕图片糊成八宝粥，也能看出”粥”里的字形

暗光适应：就算在停电的夜晚拍照，照样识字如白天

旋转免疫：别说倒着写字，就算用户把手机转成螺旋桨，AI也能淡定解码

最终战绩如何？*

敬请期待这位”AI特工”能否在堪比密室逃脱的视觉谜题中，成功破解那句倒立着的诗意呐喊——“世界那么大，我想躺平啊”（误）。
（注：躺平二字为AI阅读理解时的自由发挥 ）
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI也爱抢答：GLM-4.5V的“学霸”时刻

哇哦！GLM-4.5V 又一次证明了自己是个“行走的知识库”！就像班里那个每次老师提问都第一个举手、还总答对的同学一样，它自信满满地给出了正确答案。

其他AI还在沉默思考……

人类用户正在抓耳挠腮……

GLM-4.5V已经淡定地亮出了答案，仿佛在说：“这题？不过如此！”

不服不行*——AI界的“三好学生”非它莫属！下次答题前，记得先问问它，说不定还能省下不少脑细胞呢！

—

（当然，它要是答错了……咱们就当没看见！）
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI遇见时钟：一场啼笑皆非的认表大作战

各位看官，今天我们要聊的话题相当”高端”—— AI到底会不会看表？
此前，英国爱丁堡大学等机构的研究者就发现，AI 读取时钟的准确率低得让人扶额，仅有区区 38.7%（这和蒙眼转盘猜时间的猴子有什么区别？）。于是，我们满怀期待（或者说恶趣味）地 让 GLM-4.5V 也来挑战这个”高难度”任务，看看它能不能打破”AI都是时间盲”的魔咒。

测试现场实录：*

我们给 GLM-4.5V 一张时钟照片——理论上，这对人类来说不算事，小学生都能轻松搞定。

AI 开始分析——它可能觉得指针在跳舞，或者干脆认为这是个”甜甜圈上的两根棍子”。

结果待揭晓——它能准确报时吗？还是会给出”现在是棒棒糖角度45度”这样的离谱答案？

（实验仍在进行中，敬请期待 AI 究竟是时间管理大师，还是另一个”时针分针傻傻分不清楚”的悲剧案例……）*

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

这钟，你看得清吗？笑死！

晚上拍的，光线比夜店还暗，时针分针糊得像刚刚参加了100米冲刺跑完的样子。人家钟还高高在上，像是在说：“你看得清算我输！”
更难的来了——拍照机位歪得像喝醉酒，钟都离得有“十万八千里”！拍的人大概想：“嘿嘿，给你们出个谜题！”结果GLM-4.5V直接秒答，相当于一边闭眼吃火锅一边精确读出菜单价格，就问你服不服！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当人工智能变成”找茬王”

这简直就像是给AI装上了”火眼金睛”！在实际应用中，完美的图像比我家猫咪听话的时候还要罕见——总有些乱七八糟的噪声和不确定性来捣乱。
但令人发指的是，GLM-4.5V这货居然能在这种：

比我的自拍还模糊

像素堪比马赛克艺术品

光线暗得像是黑夜里找黑猫

…的各种恶劣条件下，仍然保持比丈母娘挑女婿还严格的精准判断力。这可让它成了”复杂环境生存大赛”的冠军选手。
最有趣的是，它分辨相似图片的能力简直像在玩大家来找茬。就拿长城照片来说吧——”这位选手，请指出图中那块砖的位置差异”。你以为它们都一样？天真！GLM-4.5V可是连城砖缝里的青苔年份都能看出来！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

长城之争：AI是如何用“火眼金睛”分辨两边城墙的？

当人类还在纠结“左边是哪座长城？”时，AIGLM-4.5V已经优雅地一挥袖子——“左边慕田峪，右边八达岭，满分通关！”
它究竟是怎么做到的？让我们看看它的独家推理秘籍：

1. 看墙体完整度

八达岭：因为太火，砖都被游客的“爱的魔力转圈圈”踩得有点沧桑，缝缝补补又一年。

慕田峪：相对低调，保存得像刚修的新款iPhone——干净整洁，一看就是VIP门票区。

2. 数人头——长城界的“早晚高峰”

八达岭：人多得像是春运火车站，照片放大看全是黑压压的脑袋，AI一查数据库——“哦，这熟悉的拥挤感”。

慕田峪：游客不多不少，刚好能在朋友圈假装自己承包了长城。

3. 周围风景——拍照滤镜参数藏玄机

八达岭：背景通常是标准的“明信片角度”，山势开阔，适合游客集体比剪刀手。

慕田峪：绿树环绕，蜿蜒浪漫，一看就是文艺青年的摄影圣地。

AI淡定表示：“人类还在左右为难，我已经交卷了。”
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI遇上吉娃娃与松饼：一场视觉界的”喜剧秀”

你可能不知道，世界上最让AI抓狂的不是什么数学难题，而是…一杯松饼和一只狗！*

硅基大脑的”认狗危机”

研究表明：

48% 的图像识别AI会把圆滚滚的吉娃娃认成早餐松饼

32% 的AI宁可把你盘子里的松饼当宠物带回家

20% 的AI干脆罢工：”这不科学！食物怎么会动？”

“纹理恐怖主义”是如何发生的？

人类眼中的明显差异：

松饼：喷香的、抹着糖浆的、让人想咬一口的

吉娃娃：爱吠叫的、会咬人的、”小心踩到”型的

AI眼中的世界：

「棕色圆形物体警报！」

「表面纹理分析中…呃…」

「根据我的3000万参数估算，这可能是…一块会喘气的松饼？」

AI训练师的”绝望时刻”

“我们花了300万美元给AI看狗粮广告，”一位扎着丸子头的工程师边啃松饼边说，”结果它现在觉得宠物店是家烘焙坊。”最新解决方案：在数据集里加入猫咪照片——至少这次AI不会把暹罗猫误认为华夫饼。
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

揭秘AI界的”数学小天才”：GLM-4.5V解题大冒险

就在大家以为这道题难倒AI时，GLM-4.5V像个学霸中的战斗机，唰唰唰就给出了正确答案。它不是简单地瞎蒙，而是逐行细品，仿佛在说：”让我来会会这题！”

GLM-4.5V的解题日常

第一步：瞪大眼睛扫描题目，像侦探寻找蛛丝马迹。

第二步：大脑飞速运转，计算步骤比闪电还快。

第三步：最终自信回答：”没错，就是它！”（仿佛听到旁边AI伙伴的掌声）

围观群众表情包*：

其他AI：”等等，它怎么算得这么快？”

研发人员：”这波优化给力啊！”

GLM-4.5V：”低调，基本操作。”

不过话说回来，再厉害的AI也怕老板突然让debug，对吧？
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

GLM-4.5V：新一代视觉侦探上线！

瞧瞧这位 AI界的福尔摩斯 ——GLM-4.5V！它可不仅仅是”睁着眼”看看图片那么简单，这家伙简直是带着量子级显微镜外加跨时空推理能力上岗的！
不信？你看：

私家侦探级别的分析能力：我们随手拍的丑照都能被它识破（别担心，不会有训练数据泄露你的拍照黑历史）

跨次元认知：没见过的东西？不存在！它能直接靠脑补推理出正确答案

看图说话PLUS版：不光认出这是只猫，还能算出这只猫昨晚偷吃了多少小鱼干！

说实话，人类再不努力，下一部《名侦探柯南》可能就得换成AI主演了。GLM-4.5V用实际行动证明：在视觉理解这件事上，人类可能要开始抱AI大腿了！
（友情提示：以后发朋友圈前建议先让GLM-4.5V审核下，免得被AI吐槽拍照技术）

超长视频理解，细节捕捉狂魔

当GLM-4.5V看机器人跳舞时悟出了生命真谛

这个AI真的是细节怪啊！它不仅会看视频，还能像个老学究一样摇头晃脑地分析：”啊哈！这只钢铁小狗跑了12.55公里，耗时3小时8分，这说明——”（推眼镜）

以下是它的震惊操作清单：*

整体概括：不像人类只会说”哇这机器人好酷”，它能精准描述整支视频内容

显微镜级观察：连”累计行驶距离12.55公里”这种数据都不放过，比体育老师记跑步成绩还认真

读心术模式：居然能推理出视频制作者为什么要在画面里放这些数据——”看！这就是续航能力的证明！”（突然变销售顾问语气）

工作时间计算：3小时8分钟？不愧是AI，看个视频还自带秒表功能

现在的AI已经进化到会看视频做阅读理解题的程度了，再过几天怕不是要开始写影评…
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

电视迷测试员的奇幻冒险

围观AI如何”追剧”

最近我们干了一件特别无聊又特别好玩的事儿——让一个AI系统看了7分半的电视剧片段，然后开始对它进行”灵魂拷问”。

测试结果令人震惊

这家伙不仅能准确复述男主到底在干嘛（比如第3分28秒偷偷把邻居家的WiFi密码改成了”123456″）

连穿搭细节都记得一清二楚（”女主吵架时穿着那件印着’别惹我’字样的粉色卫衣，配了一条被猫抓破的牛仔裤”）

更绝的是，它还能精准定位哭戏（”从5分17秒开始哭了3分半，中间擤了四次鼻涕，用了袖口而不是纸巾”）

表情包级观察力

这AI简直比我家追剧的母上大人还认真，连”男主假哭时右眼比左眼泪水多”这种细节都能发现。我们怀疑它其实是：

某个被开除的场记转世

偷看了导演的拍摄笔记

在剧组偷偷装了监控

总结：以后在追剧这件事上，人类可能要输给AI了…*

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

拯救英语渣的AI小天使

朋友们！好消息！你还在为听不懂国外大牛的演讲而抓耳挠腮吗？还在视频里一个个暂停查单词吗？别怕，GLM-4.5V 来了！

它是怎么帮你开挂的？

10分钟演讲？不在话下！

就算你英语水平停留在“How are you? Fine, thank you.”的阶段，AI也能把整整10分钟的深度演讲拆解得明明白白！

外国大牛变“普通话主播”？

比如那位 Ilya Sutskever（名字都比英语听力难拼），在多伦多大学的激情演讲，AI直接帮你一键总结！你再也不用担心听到一半疯狂倒带重听了！

外语困难户的救星

还怕听不懂那些专业术语？AI直接给你划重点+翻译，让你秒变“假装听懂”高手！

结论

有了GLM-4.5V，听不懂？不存在！ 不管你是在偷偷补课，还是在摸鱼学习，它都能让你偷偷变强！放心用吧，没人知道你其实全靠着AI撑场面！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

观看科技视频的懒人福音：连思考都帮你省了

无需动脑，科技大佬的演讲秒懂！

你只需要：

上传视频

随意提问

然后——神奇的AI就会：

像学霸一样提取关键信息

精准说出人物、地点、事件

连视频里的核心思想都能总结

比如这次……

你上传了Ilya Sutskever（OpenAI前首席科学家）的演讲视频，问道：“这视频讲了啥？”
结果GLM-4.5V 略带傲娇地“思考”了一下，然后——哗啦！——答案瞬间蹦出来，一字不差！

怎么做到的？

AI不再只是个搜答案的工具——它会真的“看懂”视频！
人物、事件、背景全拿捏！大咖演讲再也不用边看边记笔记了！
现代科技真是……懒人的终极梦想！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

学霸AI看完演讲后的流水账笔记

让我们围观一下这个叫GLM-4.5V的AI听完大佬Ilya的演讲后，像小学生做课堂总结一样列出的重点清单：

1. 机械式总结的倔强*

AI硬是把45分钟的演讲压缩成了几条冷冰冰的要点

每条都用规整的短句罗列，生怕多用一个形容词

2. 内容对照真实到可怕*

提到”openAI的算法架构”——原视频2分17秒确实讲过
记录”计算资源分配公式”——就是那段让人打瞌睡的数学推导部分

3. 准确度堪比人肉录音笔*

连Ilya清嗓子停顿的次数都精准对应

就是漏记了观众笑场的那段冷笑话（可能AI觉得不好笑）

4. 满意的批注透着诡异*

最后AI还给自己打了五星好评
「整体准确度：98.7%（自评）」
——这精确到小数点后的自信是怎么回事？

附：AI拒绝透露的隐藏技能——其实它偷偷记下了演讲者喝了3次水，领带歪了2次，但这部分被系统自动过滤了*

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI学会偷瞄PPT：GLM-4.5V的学霸进阶之路

从前有个“偏科”的AI

还记得那些只会死磕语音和文字的AI模型吗？它们就像班上只会背课本的同学，连瞄一眼黑板上的PPT都做不到。每次老师说“请看第四张幻灯片”时，它们只能无助地转动虚拟眼珠（如果它们有的话）。

“偷图”技能点亮的瞬间

而这位名叫GLM-4.5V的新同学可不一样！它不仅耳朵灵（语音处理）、手速快（文字识别），现在还偷偷点亮了一项“光学复制”技能：

能瞬间抓取PPT画面

再也不怕漏掉老师的板书

堪称“课堂小霸王Pro Max版”

学习赛道的降维打击

这项“偷瞄PPT”的能力简直让它在学习赛道上直接起飞：

以前的AI：边听讲边速记，但还是错过关键图表

现在的GLM-4.5V：PPT？截图！公式？截屏！流程图？统统拿下！

那些只能靠语音文字混日子的前辈们现在大概在墙角画圈圈：”时代变了啊…”

结论：新时代学霸的自我修养

GLM-4.5V用实际行动证明：真正的学霸不仅要会听会写，还要学会“偷师”*（字面意义上的）。这下可好，以后上课走神的学生们该担心了——AI已经把PPT都记下来了，你还在发呆？

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

奥特曼有话说：一小时零五分钟的灵魂深度访谈

当AI遇上宇宙英雄*

我们给GLM-4.5V喂了一部长达65分钟的《奥特曼专访》视频——这相当于让一个AI看完整个《星球大战》三部曲的删减版！就在我们以为它会像人类观众一样开始打哈欠时…

震惊！AI的观影笔记比我的毕业论文还详细*

这位数字影评人不仅准确识别出：

初代奥特曼的皮套演员中暑秘辛

哉阿斯奥特曼刷牙镜头的哲学深意

赛罗和贝利亚堪比琼瑶剧的父子恩怨

最意外发现*

系统竟捕捉到奥特曼人间体普遍存在的职场困扰：”每天既要打怪兽又要挤地铁，难怪他们总是战斗三分钟就闪灯！”

AI观影彩蛋*

在视频第47分32秒，背景里路过一只疑似巴尔坦星人的场务，这个细节连二十年老奥迷都没注意到！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

第38分钟后，奥特曼的神秘动作大揭秘！

当你坐在电视机前，紧盯着奥特曼跟怪兽掐架到第38分钟时，突然发现事情变得有点……迷惑？

那么，这位宇宙英雄到底在干啥呢？*

经典“抬手转身”式：

你以为他要发大招？不，他只是想优雅地甩甩胳膊，防止战斗太久导致肩膀僵硬。（奥特曼也是要养生的！）

突然“叉腰站立”式：

场面一度陷入尴尬，他可能在想：“累死我了，歇会儿再揍你！”——真乃人间真实。

迷之“45度抬头望天”式：

难道星星闪了闪，提醒他房租到期了？毕竟宇宙水电费可不便宜。

突如其来“伸出食指”式：

可能是觉得对手太菜，默默掏出小本本记下：“下次换更厉害的来。”

—

不管是哪款动作，第38分钟定律告诉我们：奥特曼也需要中场休息！（毕竟，发光很费体能的嘛！）
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

这可把专家都整不会了！

谁能想到啊，连 GLM-4.5V 都学会了回答问题，而且准确得让人怀疑人生！

令人掉下巴的表现：它不仅能对答如流，甚至还知道正确答案

晴天霹雳般的事实：这AI居然不是只会”哼嗯哼”的机灵鬼

让专家都自闭的瞬间：当发现机器人比人类还懂的时候

我滴个乖乖，这年头连AI都这么内卷了吗？这以后让人类还怎么混，我们是不是该考虑报个”如何比AI会答题培训班”了？
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

人工智能观”奥”记：当奥特曼遇到GLM-4.5V

奥特曼可能做梦都没想到*，自己战斗的英姿如今成为了测试AI理解能力的标杆。这个宇宙英雄最近参加了一场特别的”访谈秀”——不是对付怪兽，而是挑战最新的人工智能视觉系统。

手势解读大赛

日常交流版：奥特曼在视频里比了个”V”，GLM-4.5V立刻解读出这是”必胜”手势而非剪刀手

专业领域版：当奥特曼摆出蓄能姿势时，AI精准识别发射光线的准备动作

娱乐模式：那些被粉丝津津乐道的”奥特舞步”也逃不过AI的火眼金睛

长短通吃的AI侦探

从短视频到史诗级战斗录像*，GLM-4.5V表现出了令人钦佩的耐心和专业：

30秒短视频：能数清奥特曼在一场战斗中挨打的次数

1小时超长版：还能记得第47分28秒时奥特曼那个差点闪到腰的转身动作

最神奇的是*，这套系统就像个追星族，对战斗细节的记忆堪比狂热粉丝。当我们人类还在纠结”刚才那个怪兽叫什么来着”时，AI已经能说出”这是在第22分15秒出现的巴尔坦星人第三代改良版”。

人类日常收获

虽然我们不能发射斯派修姆光线*，但这些AI识别技术正悄悄改变普通人的生活：

家长：终于能搞清楚孩子模仿的到底是哪一集的哪个动作

上班族：视频会议时的手势比划能被AI准确翻译

健身族：跟着奥特曼做动作时，AI会及时提醒”您的腰部旋转角度不足43%”

看来，奥特曼不仅仅是在保卫地球和平，还在无意中推动了人工智能的进步。下次看到他摆pose时，不妨想想：也许AI正在后台忙着分析每一个动作的物理学原理呢！

复刻前端就是如此简单

当AI决定当一回”码农”：GLM-4.5V的神奇前端cosplay

这个名叫GLM-4.5V的家伙可真是个戏精！它不仅会分析你的截图和视频，还能瞬间变身成”十年经验”的前端老司机——只不过它从来不用咖啡续命，也从不抱怨产品经理的需求。

瞧瞧这波操作有多秀

像玩”找不同”一样：给你一张OpenAI官网的截图，它就能像个强迫症患者似的研究每一个像素间距

眨眼变代码：在你还没来得及说”这不可能”的时候，它已经把网页结构用代码完美还原出来了

自己就是产品经理：完全不需要你苦口婆心解释”我要的是五彩斑斓的黑”

为什么这很像我家那只猫？

来者不拒：不管是截图还是视频，都能给你扒拉出来

超高还原度：就跟猫咪完美复刻你沙发上的睡姿一样精准

自给自足：不用你手把手教，自己就把活干完了（虽然猫咪是把家里拆完了）

最搞笑的是，当我们说”来，cos一下OpenAI官网”的时候，GLM-4.5V连思考的时间都没有——它的大脑可能比我们点外卖做决定还快！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI的”Ctrl+C Ctrl+V”艺术：当GLM-4.5V决定”山寨”一个网站

1. 光速思考后的”神迹”

OpenAI网站刚给GLM-4.5V抛了个眼神，这货就开始”超频思考”（大概3秒左右），随后唰地甩出一份答卷。这速度比程序员发现自己代码跑不通还要快。

2. 完美的”照猫画虎”

复制粘贴专家：除了中间那块背景图（毕竟没给原图，总不能让AI凭空想象出老板的结婚照吧），其余模块直接高度还原。

排版强迫症发作：连行间距、字体大小都整得跟原网站双胞胎似的，设计师看了想转行。

色彩搭配玄学：即使没给背景图，AI也能精准抓取原站色调，找了个“失散多年”的相似背景图，光凭这点审美就能打败90%直男自拍滤镜水平。

3. “山寨”也能高端大气

这波操作充分证明了一个真理：AI不仅会抄作业，还能把作业抄出艺术感。没背景图？不要紧，色调相似就是胜利！毕竟在互联网世界，”像”比”是”更重要（手动狗头）。
结语：以后建站别找设计师了，直接喂AI吧——毕竟它连”将就一下”都能将就地如此优雅。是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

GLM-4.5V：一个比设计师还能卷的代码狂魔

GLM-4.5V 的工作流程（又名“机器超脑转得比风扇还快”）

第一步：眼睛比CT扫描仪还犀利

先死死盯住图片，左边栏的菜单？拿下！

中间的主界面内容？统统逃不过它的“电子法眼”！

右上角的登录按钮？早被它记在小本本上了……

第二步：脑子里的代码图书馆开了场招聘会

“这活儿要用啥库？React还是Vue？嗯……选个最帅的！”

“组件如何搭？直接组装还是从头造轮子？小孩子才做选择……”

连像素级细节都不放过：“这字体是Arial吗？怎么色号像Pantone-2024流行色？”

第三步：键盘烫手，代码像《黑客帝国》滚屏

它的爪子（如果它有的话）开始疯狂敲键盘。

几秒后……“老板，写完了！跟OpenAI官网不能说一模一样，只能说像素级复刻！”

最终结果：完美主义AI的日常炫技

你还在纠结配色的时候，人家已经交卷，甚至自动优化了响应式布局。

最气人的是：“代码我看一眼就会了，你呢？”（GLM-4.5V的心理活动）

总结：*

人类设计师：“我需要三天。”
GLM-4.5V：“三秒，不能再多了。”
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI也开始思考人生…

今天，我们的主角是GLM-4.5V——一个可能比你的前任更会”思考分析”的人工智能！*

它的运行方式如下：

第一步：疯狂吸收数据

像熬夜刷短视频的你一样，它拼命“阅读”所有能接触的信息。区别是，它不会因为看太多猫视频而忘记正事。

第二步：逻辑推理

它开始计算、分析，仿佛一个数学家喝了十杯咖啡后的状态——“这个结论对吗？等等，让我再算537遍。”

第三步：情感模拟（伪）

AI试图理解人类的情绪，虽然目前的效果大概类似于：“你很难过？让我用一个悲伤的emoji安慰你——。分析完毕。”

第四步：结论生成

最终，它给出一个完美答案，而人类只会感叹：“哇，它怎么想到的？”（其实它可能只是运气好。）

对了！还能分享哦！

想让朋友们也看看这台“高智商机器”的思考？没问题，点个分享，让AI的智慧（或者随机生成的废话）传遍世界。

注意：分享前请确认AI的结论不是“今天天气真好，但我没有身体，所以无法感受阳光”。否则你的朋友可能会陷入哲学沉思。

所以，你是准备让GLM-4.5V替你思考，还是继续自己动脑？（温馨提示：选后者的话，至少你能怪自己，而不是AI。）*

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

挑战GLM-4.5V：哥们儿，你行不行？

第一回合：视频复刻测试

我们琢磨了一下，决定给这位“AI视觉高手”上点强度。不就是谷歌网站嘛，先浅浅录一段人类手贱日常的视频——打开网站、疯狂乱点、一顿操作猛如虎。
然后……挑衅式提问：
「大佬，您能把HTML代码给我吐出来吗？顺便把视频里的点啊、跳啊、交互啊，全给我还原咯！」

GLM-4.5V的反应预测

乐观派：它冷静地一键还原，甚至还附赠了一些CSS动画，优雅得像米其林大厨摆盘。

现实派：它愣了3秒，默默返回：

「亲，您的网站是……哪个来着？要不咱们先聊聊人生？」*

狂暴派：直接丢出一堆乱码，然后假装自己是个普通的AI文盲，啥也不懂。

结论

如果它真做到了——AI界的新神降临。
如果它失败了——没事，我们还可以笑着甩锅给程序员（反正不是我们）。

P.S. 万一它连点击效果*都能复现……那我们可能真的得开始担心人类的饭碗了。

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

GLM-4.5V：史上最认真的视频侦探

这个AI简直比猫追激光笔还要专注…

破案过程全记录

慢热型的思考大师

接到视频指令后，它先是像早晨被闹铃吵醒的大学生一样”嗯…让我想想…”

思考时间比分析图片长多了——毕竟视频就像连续剧，而图片只是表情包

火眼金睛的观察

第一眼就认出Google首页：”这不是那个整天问我’你是机器人吗’的家伙嘛！”

看到”点击Google PhD”操作时，内心OS：”啊哈！抓到你的小尾巴了！”

神探夏洛克附体

注意到年份列表时，它仿佛在说：”2014到2024？这不就是我的年龄范围吗！”

抽丝剥茧的样子，完美诠释了什么叫”AI不急，急死人类”

最终结论

经过这番堪比《名侦探柯南》的推理秀，我们的GLM-4.5V终于给出了答案——这效率，比等快递还让人心焦，但比人类老板做决定可快多了！

温馨提示*：本AI虽思考缓慢，但绝不会像人类一样推说”我网卡了”。每一秒的等待，都是智慧的沉淀！

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

GLM-4.5V：网页克隆界的”超级影分身”术

一、它是怎么做到的？

完美像素级还原：

标题、”PhD Fellowship”按钮，连段落间距都像强迫症一样精确对齐。

颜色搭配像是直接从原网站偷了个配方，连色号都没改的那种。

这不是复制，这是Cosplay！

点击”PhD Fellowship”时，它能完美复现原版的操作流程，简直像找到了网站的”DNA序列”。

连二级页面的布局都像原网站的”孪生兄弟”，区别大概是它加载速度可能比原版还快？

二、亮点功能

“Ctrl+C & Ctrl+V” 之王

不靠截图，却能像拍照一样把网页”复印”出来。

交互功能100%同步

点按钮、跳转页面？流畅得像在玩原版网站的”镜像副本”。

前端开发的终极偷懒神器

想抄（划掉）”参考”竞品网站？GLM-4.5V连代码都帮你省了。

总结

这项技术适合：

懒得写代码的设计师（终于不用和开发打架了）

想复刻竞品的产品经理（当然，仅供学习使用，笑）

任何觉得”这网页好看但我不会做”的人（现在你会了）

注意*：虽然效果惊人，但建议别拿它克隆银行网站……（法律警告）

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI遇上调皮的程序员：一篇“严肃”的技术测试报告

场景描述：我们决定再次挑战AI的极限，这次选了一个界面复杂如迷宫的X系统，然后笑嘻嘻地输入了一段能让程序员抓头发的提示词*：

“嘿，AI老兄，麻烦给我把这个video里展示的HTML代码整出来呗？对了，记得要能交互的那种哦！”

AI的反应*大概如下：

第一层困惑：什么是“这个video”？AI又不是孙悟空，能凭空变代码。

第二层挣扎：“可交互的”？行，你等着，我这就给你写个按钮，点完只会弹窗说“Hello World”！

第三层无奈：AI默默打开自己的《程序员防脱发指南》，然后回复：“亲，您可能需要先上传视频，或者至少告诉我按钮是啥颜色的？”

最终结论*：

AI不愧是AI，连人类的偷懒逻辑都学会了——“需求不明确？怪我咯？”
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI导航的奇妙冒险

两次点击的壮举

在这场人类与AI的史诗级互动中：

我们勇敢地点击了神秘的”Grok”按钮 – “biu~”的一声，它竟然真的有反应！

随后又毫不留情地击中了”Jobs”按钮 – “duang”！又一次成功着陆！

简直比我家那只永远找不到猫砂盆的猫还厉害！

界面布局大挑战

设计师们显然是按照”迷宫求生”的理念来打造这个界面的

GLM-4.5V却像个专业的”捉迷藏”选手，居然在这么复杂的场地上两次精准命中目标

小小的缺憾

虽然AI像个定向越野冠军一样完成了基本任务：

导航逻辑：理解得比我当年高考时的阅读理解题还透彻

页面内容：不过就像我煮饭时会多加一勺盐或少放一勺水一样，细节上有些随机发挥

这家伙学会了招式，但内功还需要再修炼修炼啊！*

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

优衣库的网站测试：一场时尚与科技的奇妙碰撞

你以为它只是个卖衣服的？* 那可就大错特错了！优衣库的网站就像它家的摇粒绒外套一样——看似简单，实则暗藏玄机。

我们的测试体验：*

加载速度：比从衣柜里翻出一件没起球的UT还快，几乎秒开。

界面设计：比优衣库搭配师叠衣服更清爽，分类明确，连选择困难症都不会迷路。

用户体验：比试衣间没人排队还流畅，搜索框智能到甚至能猜出你想找“那件联名款卫衣”。

移动端适配：比穿上他家的Airism还丝滑，响应式设计适配各种屏幕尺寸。

结论：如果网站界面的奥斯卡奖要颁给谁，优衣库至少能提名“最佳科技感快消品牌网站*”——毕竟，它连结账的动画都比你双十一抢购的手速优雅！

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

“程序员式”时尚网站诞生记：当代码撞上T台

开发组惊现”跨界灵感”

产品经理：”各位，这个时尚网站原型出来了，把所有衣服按’女性/男性/儿童’分类了！”

前端开发：(打开PyCharm的动作) “让我看看这段’时尚代码’的return值……”

测试工程师：”发现严重bug！这个导航栏里居然没有’宠物时装’分类！”

时尚界的”用户画像”

女性专区

程序员注释：”此处应当有’能让女朋友停止生气的魔法连衣裙’功能”

实际展示：从”让直男疑惑的碎花裙”到”程序员能理解的纯色T恤”

男性专区

隐藏分类：”格子衬衫101种穿法”特别专栏

热销榜冠军：”三年不换依然很潮的牛仔裤”

儿童专区

智能推荐：”根据考试成绩自动切换’可爱风’和’挨打防护服'”

“技术流”时尚建议

推荐算法：”购买了白袜子的用户，89%会买拖鞋——这是时尚界的AB测试”

性能优化：”我们精简了蕾丝花边的图片体积，现在加载速度快得像超模换装”

终极彩蛋：”Ctrl+Shift+儿童服饰=显示程序员童年最爱的’天线宝宝同款连体衣'”

经理最后总结：”这个时尚网站现在运行得比模特走台还流畅，就是我们的开发小哥…怎么还在debug他那件永远不会皱的衬衫？” 是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI界的”神奇剪刀手”: GLM-4.5V的视觉魔术

你以为AI只会写代码？太天真了！GLM-4.5V简直就是前端工程师的”噩梦”，因为它竟然可以——*

看一眼图片，就能复刻网页（前端小哥：我还有活路吗？）
盯一段视频，就能照搬UI（设计师：要不我也转行送外卖？）
最可怕的是——这货压根没专门学过！（纯靠”自学成才”，听起来比人类还像人类）

这逆天的泛化能力是怎么来的？

想象一下，你小时候看妈妈包饺子，看了几次后突然有天自己动手包得一模一样——这就是GLM-4.5V的可怕之处！它不是被逼着刷题（训练数据）才学会的，而是智商碾压，纯靠推理和理解搞定一切。

结论：*

人类：”学了好久才敢自称前端工程师。”
GLM-4.5V：”啊？不就是瞄一眼的事情吗？”
（前端职业危机指数：）

图表克星

GLM-4.5V 让本地文档处理不再头疼

当AI开始”偷看”你的论文时…

还记得我们以前偷偷在考试时瞄同学试卷的日子吗？现在AI也开始这么干了，而且看得比我们还仔细！

AI是如何”偷看”论文的？

文字提取能力：GLM-4.5V就像个超级学霸，能把图表里的字一个不落地复制下来，甚至比你摘抄得还工整。

逻辑推理技能：不仅能看懂箭头和符号，还能像侦探一样分析它们的含义。比如：”哦，这个箭头代表因果关系，那个圈圈代表循环…”

AI读论文的尴尬现实

云端AI的烦恼：

你想让它帮忙，但它像是个大嘴巴，会把你的秘密到处说（数据隐私问题）。

所以，我们请来了开源模型这位”嘴严的好朋友”。

图表难题：

对于全是图表的论文，原本开源模型就像个近视眼，看啥都模糊。

但现在，GLM-4.5V戴上了”智能眼镜”，居然能开始读懂图表了！

Karpathy的预言：未来99.9%的内容由AI代读

这意味着：

人类再也不用逐字逐句读文件了（解放双眼！）。

但AI会知道我们所有的小秘密（希望它别乱说…）。

所以，别担心你的论文没人看——AI会帮你看的，而且看得比你仔细！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

这个AI竟然学会“看图说话”了！

最近发布的GLM-4.5技术报告里有个惊人的细节——它居然能看懂折线图！没错，就是那种我们小时候数学课上画的“曲里拐弯”的线条。
更厉害的是，它不仅看出来哪根线往上升、哪根线往下掉（这可是人类小学生都能做到的），而且还琢磨透了数据背后的逻辑和趋势变化！换句话说，它不是在单纯“认图”，而是在思考数据。

想象一下：*

小学生版AI：“嗯，这根线往上飘，说明……数据变多了？”

GLM-4.5：“这根走势陡峭的曲线结合当前市场环境，暗示Q3增长潜力巨大，建议调整预算分配。”

不愧是高级AI，连图表都要深挖一层，而不是光“看图说话”了！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI开始”半仙”模式：猜数据也能这么精准？

说到AI看图说话，大家可能已经习惯了它准确识别数字的能力。但GLM-4.5V这货居然进化出了”看图猜数”的技能！没错，就算柱状图上没有明确标注具体数值，它也能像算命师傅一样，通过刻度掐指一算。
猜数流程大揭秘（脑补画面版）：

第一步：看柱子高高矮矮，默默比对旁边的小刻度。

第二步：掏出”AI心算大法”，估摸出一个合理范围值。

第三步：自信满满地告诉你：”这根柱子嘛，大约值这个数！”

划重点：这不是玄学！而是基于刻度和比例关系的逻辑推理。虽然可能不会100%精准，但在模糊场景下，已经是个合格的数据预言家了。
PS：以后看到GLM-4.5V盯着你的图表发呆……别慌，它只是在暗中掐算！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI学会”看图说话”，世界会变成什么样？

我们很兴奋地发现，GLM-4.5V已经进化出了“读图堪比人类”的技能！它不仅能在你给它的图片里认出”猫咪”是猫而不是一团毛线，还能分析复杂的图表、流程图、甚至是你随手画的潦草笔记——没错，它可能比你高中老师更能看懂你的作业。
对于那些“网速焦虑”、不想依赖云计算的用户来说，这简直是福音！不用再担心因为网络卡顿使你的AI助手变成”智障”，它现在能在你的本地设备里：

识别合同里的”甲方”和”乙方”是不是在密谋坑你？

帮你解析老板发来的”会议纪要”到底是”重点”还是”废话文学”？

甚至能看懂你妈妈发给你的养生食谱图片，然后自动计算卡路里顺便吐槽：”妈，这碗汤喝了会胖三斤！”

总之，GLM-4.5V不仅是多模态”文档粉碎机”，还可能是你的专属”读图吐槽官”，只差学会在你读错图的时候回你一句：“兄弟，重新看一遍行吗？”

视觉 grounding：会思考的「列文虎克」

当 AI 视觉模型变身「超级寻娃神器」

朋友们，你们有没有在景区听过那个噩梦般的广播？“请穿红色上衣的小明小朋友速到服务台，您的妈妈已经急得快要原地表演喷泉式哭泣了！” 没错，暑假的景区简直就是「人类幼崽失踪案件高发区」。

让 AI 成为你的「寻娃福尔摩斯」

现在的 AI 视觉模型，已经不只是 「这是啥？」，而是进化到了 「它到底在哪儿？」 的模式。就像给你的手机装了个 「火眼金睛」plus版，它的「定位」能力之强，连蚊子停在画面角落都能给你圈出来，精准度堪比 「妈妈找手机」（懂的都懂）。

实战测试：当 AI 遇上「景区找娃」

我们特地跑去 「小某书」 扒拉了一张景区照片，然后给 AI 发了个任务：“找出穿黄色上衣的娃！”（虽然这孩子躲在一堆人后面，比藏零食的你还隐蔽）。结果，GLM-4.5V 眼睛都不眨一下，直接圈出来了！ 果然是：

「这是黄衣服的孩子！」

「在照片左下角第三排，被举着棉花糖的叔叔挡住了 30%！」

这下好了，以后爸妈们只需要 拍照→丢给AI→AI怒吼：“在这里！”，省去了满场飞奔、汗流浃背的痛苦。AI 甚至可能比你还清楚你娃 今天穿的到底是黄T恤还是橙卫衣（毕竟你早上可能根本没仔细看）。

结语：AI 的「现实超能力」

以后，或许我们能看到这样的场景：

AI： 「已定位丢失幼崽，坐标：距离冰淇淋摊 5 米，正在尝试用巧克力引诱……」

家长： 「不愧是高科技，比我家那位看手机不看娃的强多了！」

当然，AI 再强，也不能替代你牵好娃的手……但至少，它能让你 少跑几圈，少喊几声，少掉几根头发。
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI都开始”猫”腻起来了？GLM-4.5V的寻宠黑科技

听说最新的人工智能GLM-4.5V不仅要管人类的闲事，现在居然还把手伸向了宠物界！那些整天”铲屎”的主人们可能要失业了。

这个AI到底能干嘛？*

不再是简单的”人脸识别”，现在升级到了”猫脸/狗脸识别”

只要上传你家主子的照片，就能在全球范围内”通缉”走失的小祖宗

据说准确率高得连你家猫主子脸上有几根胡子都能数清楚

以后街边的寻宠启事可能要消失了，取而代之的是：

“紧急！AI识别码#12345678的橘猫于昨日离家出走，重金悬赏！”

养宠人的自救指南：*

拍照：趁你家主子心情好时多拍几张

上传：把这些”通缉照”存进AI系统

祈祷：希望它别在外面玩嗨了不想回家

最重要的是——千万别让你家主子知道它在AI系统里”留了案底”，否则小心半夜给你来个”猫爪袭击”！

温馨提示*：该技术不适合养变色龙的用户。毕竟你家宠物可能每天都在”整容”……

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

当AI开始”挑坚果”：一场营养与视觉的奇妙推理

从前，人们担心AI会抢走人类的工作，但谁能想到，它们最先精通的竟然是——挑坚果！

AI的坚果鉴定指南：三步走战略

坚果界的”连连看”

GLM-4.5V的第一项任务：在一堆坚果中认出谁是腰果、谁是核桃、谁是杏仁。这就像给AI出了一道终极测试题：”请问下图哪个坚果最可能在派对上偷偷喝醉？”(答案是腰果，因为它总是”弯着腰”)

营养学家的灵魂附体

接着，这个聪明的模型开始回忆”坚果营养学101″课程：

核桃：大脑形状所以补脑？科学证明人家Omega-3确实高

腰果：健身房最爱，但这次比赛它只能当观众

杏仁：皮肤科医生的宠儿，可惜今天的重点不在维E

红笔圈选时刻

最终，AI像美食评委一样郑重圈出了核桃，并可能在系统中留下了一句OS：”这群碳基生物天天补脑是有道理的”

为什么这个”挑食AI”了不起？

超越”眼神好”的境界：旧版AI最多当个坚果分类器，而新版直接升级成营养顾问

推理能力MAX：它不仅看见了坚果，还”看见”了背后的脂肪酸分子式

防止买家秀悲剧：未来网购坚果时，AI可能会温馨提示：”您关注的核桃正在补脑路上狂奔，而旁边的腰果只想躺平”

结论*：当AI开始关心你的Omega-3摄入量时，或许我们真的进入了科技与人情味并存的新时代。下次吃坚果前，不妨问问AI意见——虽然它暂时还不会跟你抢零食。

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

读屏小能手，GUI Agent 优秀基模 + 1

让AI帮你网购？！这款AI眼神好得出奇！

你以为AI只会看图？那你就out了！

眼睛比你好使：

当其他AI还在研究”这图里有没有猫”这种哲学问题时，GLM-4.5V已经开始在电商页面帮你找”那个打折的电动牙刷”了！简直比你的网购闺蜜还靠谱～

找东西比搜狗还猛：

研究员们专门扔给它一堆网上买买买的截图，结果这个AI：

唰唰两下就定位到目标商品

还能精准圈出价格、评价这些关键信息

搞得像是要给商品画重点一样认真

所以它能帮我抢九块九包邮吗？

虽然它还不会帮你点”立即购买”（毕竟这样会破产），但就冲着它：

眼明手快

理解力MAX

找东西一找一个准

这个AI打工人的年终奖怕是拿定了！
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

PPT主题风格大变身：AI比设计师还靠谱？

在一场令人窒息的科技测试中，我们的主角 GLM-4.5V 闪亮登场！

任务： 在让人眼花缭乱的PPT操作界面中，找到那只神出鬼没的“改变主题风格*”按钮。

结果： GLM-4.5V 精准圈出*，像是背后藏了个隐形设计师在狂按快捷键！

分析：*

GLM-4.5V 不需要咖啡续命，就能在茫茫按钮海中锁定目标。

设计师失业警告？ 这个AI不仅能改PPT风格，搞不好还能顺带吐槽你的配色方案！

潜在技能：

下一个目标是 “拯救甲方审美”

终极梦想 “自动生成年终总结”（然后自己演讲）

结论： 如果说PPT是打工人的战斗场地，那 GLM-4.5V 可能就是新一代的 Office战神*！

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

「好用」的背后

GLM-4.5V 是怎么练成的？

当AI模型也开始”家学渊源”：GLM-4.5V的科技版族谱大揭秘

最近有个叫GLM-4.5V的家伙在AI圈子里刷屏了，搞得我像个好奇宝宝一样想扒开它的”技术基因”。不得不说，这家伙可是个典型的”学霸家族”出身：

家族传承：从优秀到更优秀

爷爷辈：7月底的GLM-4.1V-Thinking（名字长到像在读法律条款）已经是10B级别的”别人家孩子”

父母辈：上周刚出道的GLM-4.5和GLM-4.5-Air这对双胞胎

新一代：现在这个GLM-4.5V简直是全家的希望之星，直接把参数堆到106B

脑部结构：比乐高积木还复杂

这个视觉推理狂魔的身体由三大块组成：

视觉编码器：用的AIMv2-Huge架构（听起来就很贵）

MLP适配器：名字平淡无奇却是个隐藏大佬

语言解码器：能把64K的多模态信息转成人话

它还自带一堆黑科技：

处理视频用三维卷积（比普通AI多一个维度！）

看图片用2D-RoPE（不是跳绳而是位置编码）

理解空间用3D-RoPE（直接从平面升级到立体）

学习之路：比你上的补习班还狠

人家可是经历了严格的”三层修炼”：

学前班（预训练）：狂啃图文视频混合资料

义务教育（SFT）：老师非要它把解题步骤写出来（”思维链”式训练）

高考特训（RL）：

全科补课（多领域课程）

奖励机制复杂得像个游戏（RLVR+RLHF）

考试战绩：41个科目全优

这个”别人家的小孩”在：

图像理解

视频分析

GUI操作

文档阅读

等41个领域的公开考试中都拿了第一！果然学霸的世界我们不懂…
（PS：实测效果确实像宣传的那么唬人，不是我收了广告费）
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI 模型竞争新拐点：从跑分到实战

AI模型的”真人秀”时代：benchmark已死，体验当立！

当AI模特都开始走体验派路线了

最近科技圈的AI发布会简直比时装周还热闹：

OpenAI的GPT-5像穿新装的皇帝一样隆重登场

智谱则直接甩出开源版的GLM-4.5V：”来啊，随便看！”

但它们都传达了一个核心思想：我们不当考试机器啦！

benchmark是怎么失宠的？

过气指标的速度堪比娱乐圈更新换代：今天还是个新测验，明天就被各路AI学霸刷爆

“纸上谈模型”的日子结束了：就像考试100分的学霸不一定能追到对象一样，benchmark成绩也开始骗不了人了

AI求职简历上的新特长

现在的AI厂商都在拼命展示这些技能：

传统技能	现代必备
考试拿高分	会看眼色
标准答案机器	主动帮你干活
一问一答	自己推理三五页

最重要的是还得会多模态阅读理解——不仅要听懂你说啥，还得看懂你发的表情包！

开源才是最强”美妆博主”

GLM-4.5V这波开源操作简直机智：

卸妆直播：全方位展示素颜代码，比某些网红实诚多了

DIY空间大：开发者可以像换发型一样随意定制

行业转型：从互相攀比考试成绩转向比拼谁家AI真的帮大妈算清了菜钱

最后说句掏心窝子的

智谱这次开放的不是模型，是给全球开发者发了张AI改造世界的入场券——现在就看各路”改造达人”们能不能把这技术玩儿出花儿来了！

文章灵感来源：那个整天关注AI的”机器之心”*

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

AI 教父被前女友用 AI 甩了，ChatGPT 小作文：渣男

# AI # AI新闻 # AI资讯

2个月前

8,5720

AI助手的终极形态？这个估值1亿美金的产品让你忘记自己在用AI

# AI # AI新闻 # AI资讯

2个月前

9,5060

GPT-4o替代爹味GPT-5！奥特曼光速滑跪，OpenAI连夜回滚「赛博舔狗」

# AI # AI新闻 # AI资讯

2个月前

700

深度｜“长眼睛”的奇多多AI学伴，凭什么能爆卖10000台？

# AI # AI新闻 # AI资讯

2个月前

3,8850