钟表大战:AI在”看点”上栽了跟头
当AI遇上老式钟表,场面一度非常尴尬*人类小朋友轻松拿下89.1%的准确率顶尖AI选手们集体扑街,最高分仅13.3%11个大模型在ClockBench测试中集体”看走眼”为什么会这样?*AI的”脑回路”不同 这些大模型擅长处理离散数字信息,但面对连续运动的指针就懵了。它们的世界观是由01组成,而钟表是360度转圈圈。
过度解读的艺术 人类一看就知道是”3点15分”,AI却在纠结:”这根细棍是指向15还是17?这是表盘还是一件现代艺术装置?”
训练数据的偏见 AI见惯了数字钟和手机时间显示,遇到这种”古董级”显示方式就像穿越到了中世纪。
测试到底公不公平?*支持派:这可是基础认知能力,AI不能只会”高智商”问题反对派:让AI参加”小学考试”是降维打击,就像让F1赛车参加自行车比赛未来展望*或许下次升级后,AI不仅能看表,还会吐槽:”都2024年了,谁还用这个?直接Siri报时不好吗?”

时钟智商测试:人类碾压AI的欢乐现场
全球大模型遭遇”视力危机”
新智元十周年放大招,一份37页的权威报告揭露了2025年ASI(人工超级智能)的前沿趋势,但没想到最热闹的话题竟然是——AI集体败给了一个钟表!
人类成绩单:平均准确率89.1%(毕竟我们都学过小学数学)。AI成绩单:11个主流大模型,最佳表现仅13.3%,其他模型的分数惨不忍睹,堪称”连表带都看不懂”。 ClockBench:AI的”视力检测仪”
AI基准测试创始人Alek Safar推出了全新挑战:ClockBench,专门考察AI对模拟时钟的识别能力。结果?
人类:淡定读表,轻松过关。AI:”现在是几点?呃……可能是香蕉的时间?”最搞笑的是:90%的普通人能轻松解题,但AI却集体陷入”钟表恐惧症”。 AI为何败北?真相可能很扎心
模拟时钟需要理解指针位置、角度、逻辑关系,而AI更擅长处理数字时间或文本输入。人类:看一眼表,大脑自动完成几何计算。AI:先尝试把指针数据化,然后用概率模型猜,最后选个最像的答案……结果往往驴唇不对马嘴。 未来AI补课计划?
这次测试暴露了AI在视觉推理上的短板。或许,未来的大模型需要:
开个钟表补习班,恶补”指针几何学”。多看看《小学生数学课本》,毕竟输给人类小学生确实有点丢脸。承认自己也有”偏科”——能写诗画画,却败给一块复古表盘。结论*:至少在2025年之前,调闹钟还得靠人类,AI暂时没资格嘲笑我们赖床。
当人工智能遇到”终极考试”,比人类的”高考”还变态?
难度系数对比表:*人类终极考试:一般人类学霸已经哭晕在厕所ARC-AGI-2测试:让AI们集体怀疑”机”生这个难度:让超级智能都想回厂返修为什么说它更难?*对人类不友好程度:就像让鱼参加自行车比赛对AI的杀伤力:连最先进的算法看了都想”装死”通过后的奖励:可能是宇宙和平证书(或者直接送你回流水线)“这不是测试,这是对智能的终极羞辱!” ——一个曾经尝试过的AI如是说
时光机出错咯?ClockBench让你笑到掉渣的测评报告
关于「ClockBench」这个奇葩测试
测评规模:整整180个时钟!多到可以开个二手钟表店问题数量:720道题目,能把AI问得CPU冒烟核心发现:前沿大语言模型就像个蹩脚修表匠,时针分针傻傻分不清测试结果大爆笑
最新的大语言模型在这些时钟题面前表现得:
像上课偷偷补觉的学生——一问三不知若把答题比作考试,AI平均分堪比我的数学成绩分不清「3点15分」和「下午茶时间」的区别这么看来,AI不仅需要升级算法,可能还得重新上小学自然课!

时钟读取之谜:AI的时间盲区与大显身手之可能
AI在时钟识别上的“滑铁卢”
令人诧异的是,如今的AI在各种复杂任务中一路高歌猛进——它能解决微积分、能分析图像、甚至能跟你辩论哲学——但让它看个钟表读数,它却像个刚学认时间的幼儿园小朋友,支支吾吾半天!
可能的“挂科”原因
数据不够“钟表”:AI的训练数据里可能充满了各类高端问题(比如“如何证明黎曼猜想?”),但基础的时钟图片和读数组合反而成了稀缺资源。就像要求一个整天研究量子力学的物理学家给你报时,他可能要先推导一遍角动量公式。视觉理解的“文字游戏”:时钟的视觉结构(指针、刻度)很难用文字完美描述,导致AI在纯文本训练中“脑补”不出一个完整的钟面。想象一下你只能用“长的铁棍”和“短的铁棍”来形容分针和时针,AI估计会以为你在讨论建筑钢材!推理能力的“代沟”:模型不得不靠推理临时拼凑指针和刻度的关系,而不是像人类一样一眼识别——“噢,长针在6,短针在3和4之间,那就是3点半!”但也有一线曙光
虽然表现堪忧,但最强的模型至少展现出了“有限但存在”的视觉推理能力——它的准确率和误差已经明显优于“随机乱猜”水平。换句话说,AI已经从完全蒙圈进化到了偶尔蒙对!
未来的研究方向
堆量派:简单粗暴地加大数据、模型规模和计算资源——如果现有方法能解决问题,那就用“蛮力”突破。革命派:可能需要全新的方法,比如更好的视觉-文本联合建模,或者让AI学会“模拟”人类读取时钟的直觉。结论
AI在读表这个问题上的表现既让人捧腹,又令人深思——它提醒我们,即便是最基础的人类技能,对机器来说也可能是一座难以翻越的高山。但历史的经验告诉我们:AI总能找到办法,或许下次你再问它时间时,它会自信地回答:“现在是下午3点15分,顺便一提,您是否需要我帮您证明哥德巴赫猜想?”
ClockBench如何拷打AI?
大语言模型:从「学霸」到「考霸」的奇幻漂流
前方高能预警*:大语言模型正在以我们追剧的速度进化:「这题我会!」时代 就像班级里那个每次考试都拿满分的好学生,LLM们已经开始在各类智力竞赛中称王称霸——只不过是用PyTorch代替了铅笔盒。
「老师,能不能出点新题?」的烦恼 现在的热门测试题对它们来说,就像给大学生做1+1算术题。模型们纷纷表示:「再这样下去,我们要得满分强迫症了!」
行业「考试」迎来降维打击 语言理解?完形填空?推理挑战?统统被AI变成了「请看标准答案.jpeg」
新的生存危机 当模型们把榜单刷爆之后,科研人员们晚上失眠都在想:下一步该让他们考啥?微积分还是脑筋急转弯?
温馨提示*:如果你觉得自己的专业能力最近总被AI吊打…别担心,你并不孤单——现在连出考题的教授们都开始怀疑人生了!
当AI参加”人类期末考试”,结果让人哭笑不得
最近,又有一批AI跑去参加了一场名为”人类期末考试”(Humanity’s Last Exam)的考试。这场考试据说是专门用来测试AI的专业知识和推理能力的,相当于给机器人的”成人高考”。
成绩单如下:
OpenAI GPT-4o:得分 2.7%(大概相当于考试时把名字写错,然后睡到交卷)xAI Grok 4:得分 25.4%(虽然及格依然遥远,但至少没交白卷,值得一枚”鼓励奖”)优化版AI(用了各种作弊手段):冲进 40-50% 区间(靠抄小抄翻书做题,结果还是不及格)然而,最让人哭笑不得的是——AI仍然在某些”小学生都会”的题目上翻车。比如人类能轻松搞定的日常推理、幽默理解,AI却经常像被问”1+1等于几”时疯狂背诵《大英百科全书》……
看来,离AI真正挑战人类的智商,还有一段让机器人泪流满面的距离。

人类VS AI:谁才是真正的”时间管理大师”?
最近AI界掀起了一场”认时钟大作战”,科学家们捣鼓出了一堆专门”为难”AI的奇葩测试——SimpleBench、ARC-AGI之类,口号都是”让人类轻松,让AI头秃”。这感觉就像在玩《最强大脑》,只不过对手换成了硅基生物。
而最新登场的ClockBench更是重量级选手!研究团队一拍脑袋:”既然所有AI都读不懂钟表,那就做个超大号闹钟题库吧!”于是他们:
手工打造36款魔性表盘(从极简风到巴洛克风应有尽有)每个表盘克隆5个”双胞胎”(共180个灵魂拷问时钟)每只钟配4道夺命连环问(720道送命题新鲜出炉)参赛选手阵容也相当豪华:
AI方阵:来自6个顶级实验室的11个”视觉达人”模型人类代表队:区区5个志愿者(别问,问就是经费在燃烧)现在压力来到AI这边——毕竟对人类来说,看懂钟表就像呼吸一样自然;但对AI而言,这简直是道”我从哪里来?现在几点?我为什么在这里?”的哲学三连击。
(小声bb:下次该不会要比赛拧魔方吧?)*
时钟时间有效性判断:把时钟喂给AI前要知道的事
在这个充满AI的时代,连时钟都要被大模型”审视”了。让我们看看这四种会让AI皱眉的奇葩时间:
时钟的四种死法
25:61 PM见过凌晨25点的太阳吗?分钟数多到可以看完一集电视剧AM/PM 错乱症比如 “12:60 AM”(AM家族的败类)下午3点写成 “3:00 AM”(典型的昼夜颠倒)时间格式打架“14点30分PM”(既想24小时制又想12小时制)“午时三刻 + 格林尼治时间”(穿越剧看多了)达利式抽象时间“香蕉 o’clock”(可能是猩猩设定的时间)“当我开始想念你的时候”(最浪漫的无效时间)大模型看到这些时间时的表情*:→→(系统崩溃)小知识*:在训练AI识别时间时,程序员需要准备大量”错误时间示范”,就像教小朋友认时钟时故意把长短针装反…
时钟大冒险:时间管理的另类视角
1. 时间的合法分解
想象一下,如果时间是个被警察通缉的逃犯,它可能得把自己的信息拆得一干二净才能证明自己合法。当我们逮住一个具体时间(比如 `2024-06-15 14:30:45`),大模型就得像侦探一样,把它拆成 JSON 里的各个小片段:
json
{
“Hours”: 14,
“Minutes”: 30,
“Seconds”: 45,
“Date”: 15,
“Month”: 6,
“Day of the week”: “Saturday”
}
星期几?* 抱歉,时间没得选,只能老老实实承认自己是星期六。—2. 时间的加减
想给时间来个“整容手术”?比如把 `14:30:45` 加 2 小时 15 分钟,结果可能会让人大吃一惊:
原时间:14:30:45(下午茶时间)加法操作:加 2 小时 → 16:30:45(接近下班了)再加 15 分钟 → 16:45:45(老板:再摸鱼扣工资!) 警告:* 别手滑加到跨越午夜,否则第二天你可能得面对睡眼惺忪的自己。—3. 旋转时钟指针
时间不听话?那就强行扭动它的指针!比如:
目标:当前时间 `03:00:00`操作:把分针 逆时针转 90 度(钟表:你礼貌吗?)结果:90 度 = 15 分钟所以 `03:00:00` 逆时针退 15 分钟 → 02:45:00(恭喜,成功让时光倒流!) 烧脑时刻*:如果你把时针转 720 度……呃,别转了,你只是让时间过了 12 小时而已。—4. 时区转换
全球跑的人最恨的数学题:“纽约现在是夏令时下午 3 点,那北京几点?”
已知:纽约(夏令时):UTC-4北京(无夏令时):UTC+8计算:时差 = 8 – (-4) = 12 小时所以,北京 = 纽约时间 + 12 小时 = 凌晨 3 点(中国打工人的闹钟在哭泣) 地球生存小贴士*:别在凌晨 3 点给中国同事发消息,除非你想被拉黑。—总结:时间就像个任性的玩具,拆解、加减、旋转、跨越时区……随你折腾。但记住 —— 它永远不会停下来等你!*结果出乎意料
时光谜团:模型与人类的时钟认知之战
令人震惊的发现
当我们将人类与AI模型放在时钟识别大赛的擂台上时,结果简直像把专业厨师和微波炉放在一起比厨艺:
“专家级选手”人类:平均误差只有3分钟,比等一杯咖啡的时间还短“学霸型选手”AI模型:最佳表现误差1小时,够你看两集电视剧了“学渣型选手”弱模型:误差直接放飞自我达到3小时,完美复刻了”早上6点看成下午6点”的经典操作 12小时制的黑色幽默
最讽刺的是,那些表现差的模型:
误差刚好接近12小时制表盘的一半完美的对称错误美学实现了”镜子里的时间也是时间”的哲学境界这就好比让AI认时间,结果它给你的答案像是在玩幸运大转盘——反正转一圈总会是对的!

时钟识别界的神奇迷惑行为大赏
研究表明,AI在看时钟的时候也会像人类一样犯各种尴尬的错误,简直是个行走的闹钟笑话生成器:
高级时钟阅读障碍 – 面对那些设计师放飞自我设计的奇葩钟表(比如用十二星座代替数字的),AI的表现就像喝醉了一样复古时钟认亲大会 – 罗马数字让AI集体陷入 “I、V、X到底代表啥?” 的哲学思考钟表版大家来找茬 – 环形数字的朝向问题,AI的识别准确率堪比在旋转寿司店数转了几圈的盘子速度与激情特别篇 – 秒针运动太快,AI的反应速度堪比树懒钟表摄影大赛 – 在花里胡哨的背景前,AI的眼神比高度近视还不靠谱镜子戏法 – 镜像时钟让AI产生自我怀疑:”我到底是在看时间还是在照镜子?”看来以后要训练AI看时间,得先从幼儿园的认知时钟课开始补起!

时间问题?对AI来说简直像喝奶茶一样简单
你以为问AI时间问题很难?错! 比让你早起五分钟还容易!最新研究发现:
时间加减? AI的计算速度比你掰手指头还快,准确率堪比你的数学老师盯着你做题。指针旋转角度? 它连钟表都不用看,闭着眼睛都能算出时针分针的罗曼蒂克相遇角度。时区转换? AI能瞬间告诉你纽约的下午是不是你该睡觉的时间,100%准确!比你算时差靠谱多了。所以,下次别再纠结“现在是几点”这种问题了——AI可能比你的表还准!

人工智能模型界的”奥运会”成绩单
让我们来看看这些AI模型的表现,就像一群参加脑力奥运会的”学霸”们在比拼智力测试一样有趣。
强者恒强定律
“大块头有大智慧”:就像健身房的肌肉男总会抢到最好的器械一样,规模更大的推理型模型确实展现出碾压性优势。“浓缩就是精华”在这里行不通:对小规模模型和非推理型模型们,只能说声”下次加油”了。模型圈的明星选手
谷歌的Gemini 2.5家族*简直就像班级里的学霸三胞胎:每个体型级别都能稳居第一让人不得不怀疑他们家的训练数据集是不是偷偷吃了”聪明药”令人意外的参赛者
Anthropic系列:仿佛是来凑数的陪跑选手,在各项赛事中稳稳垫底,可能得考虑换个教练了。Grok 4:这位赛前被寄予厚望的选手表现堪称灾难:按体型明明该是重量级拳手表现却像个刚睡醒的业余爱好者让我们忍不住想问:”兄弟,你昨晚通宵打游戏了吗?”
视觉推理争霸战:模型们如何和时钟”斗智斗勇”?
在这场别开生面的「时钟识别大挑战」中,各大AI模型纷纷登场,结果却让人忍俊不禁——GPT-5虽位居第三,但推理预算对它影响微乎其微(中预算和高预算得分几乎难分伯仲)。那么问题来了:为啥GPT-5在这种视觉推理任务上总是翻车?
“无效时间”:AI和人类的共同偏爱
研究数据中有180个时钟,但神奇的是,其中37个根本不存在于现实(比如12:61?!)。有趣的是,人类和AI在看到”假时间”时反而更准确:
人类:识别无效时钟准确率:96.2%(大概因为明显不对劲)识别有效时钟准确率:89.1%(”这应该是对的?……不对?”)AI们:在无效时间上的表现普遍高出有效时间349%,简直像“作弊者”专属buff!排行榜:谁是”最会看表”的AI?
冠军 :Gemini 2.5 Pro(准确率40.5%,不愧是”AI界的表匠”)怪咖奖 :Grok 4——它在无效时钟上准确率最高(64.9%),但问题是……它直接把63.3%的时钟全标记成了无效!(这不就是做题时全选C的战术吗?!)AI们的”集体看走眼”现象
研究还发现,AI们在某些时钟上特别团结——要么一起错,要么一起对:
61.7% 的时钟没人答对(模型们集体挠头)38.3% 至少1个模型答对(总算有个明白人)8.9% 被4个及以上模型正确识别(这些钟大概是AI界的”标准答案时钟”)由此可见,模型的答案就像考场上抄作业——集中在少数”易读”的钟上,剩下的全靠……玄学?
参考资料*:新智元(微信公众号)ClockBench AI© 版权声明
本站部分内容来源于互联网,仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有,如涉及版权问题,请及时与本站联系,我们将在第一时间核实并处理。