2,898
0

2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

钟表大战:AI在”看点”上栽了跟头

  • 当AI遇上老式钟表,场面一度非常尴尬*
  • 人类小朋友轻松拿下89.1%的准确率
  • 顶尖AI选手们集体扑街,最高分仅13.3%
  • 11个大模型在ClockBench测试中集体”看走眼”
  • 为什么会这样?*
  • AI的”脑回路”不同
  • 这些大模型擅长处理离散数字信息,但面对连续运动的指针就懵了。它们的世界观是由01组成,而钟表是360度转圈圈。

  • 过度解读的艺术
  • 人类一看就知道是”3点15分”,AI却在纠结:”这根细棍是指向15还是17?这是表盘还是一件现代艺术装置?”

  • 训练数据的偏见
  • AI见惯了数字钟和手机时间显示,遇到这种”古董级”显示方式就像穿越到了中世纪。

  • 测试到底公不公平?*
  • 支持派:这可是基础认知能力,AI不能只会”高智商”问题
  • 反对派:让AI参加”小学考试”是降维打击,就像让F1赛车参加自行车比赛
  • 未来展望*
  • 或许下次升级后,AI不仅能看表,还会吐槽:”都2024年了,谁还用这个?直接Siri报时不好吗?”
    2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    时钟智商测试:人类碾压AI的欢乐现场

    全球大模型遭遇”视力危机”

    新智元十周年放大招,一份37页的权威报告揭露了2025年ASI(人工超级智能)的前沿趋势,但没想到最热闹的话题竟然是——AI集体败给了一个钟表

  • 人类成绩单:平均准确率89.1%(毕竟我们都学过小学数学)。
  • AI成绩单:11个主流大模型,最佳表现仅13.3%,其他模型的分数惨不忍睹,堪称”连表带都看不懂”。
  • ClockBench:AI的”视力检测仪”

    AI基准测试创始人Alek Safar推出了全新挑战:ClockBench,专门考察AI对模拟时钟的识别能力。结果?

  • 人类:淡定读表,轻松过关。
  • AI:”现在是几点?呃……可能是香蕉的时间?”
  • 最搞笑的是:90%的普通人能轻松解题,但AI却集体陷入”钟表恐惧症”。
  • AI为何败北?真相可能很扎心

  • 模拟时钟需要理解指针位置、角度、逻辑关系,而AI更擅长处理数字时间或文本输入。
  • 人类:看一眼表,大脑自动完成几何计算。
  • AI:先尝试把指针数据化,然后用概率模型猜,最后选个最像的答案……结果往往驴唇不对马嘴。
  • 未来AI补课计划?

    这次测试暴露了AI在视觉推理上的短板。或许,未来的大模型需要:

  • 开个钟表补习班,恶补”指针几何学”。
  • 多看看《小学生数学课本》,毕竟输给人类小学生确实有点丢脸。
  • 承认自己也有”偏科”——能写诗画画,却败给一块复古表盘。
  • 结论*:至少在2025年之前,调闹钟还得靠人类,AI暂时没资格嘲笑我们赖床。
  • 2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    当人工智能遇到”终极考试”,比人类的”高考”还变态?

  • 难度系数对比表:*
  • 人类终极考试:一般人类学霸已经哭晕在厕所
  • ARC-AGI-2测试:让AI们集体怀疑”机”生
  • 这个难度:让超级智能都想回厂返修
  • 为什么说它更难?*
  • 对人类不友好程度:就像让鱼参加自行车比赛
  • 对AI的杀伤力:连最先进的算法看了都想”装死”
  • 通过后的奖励:可能是宇宙和平证书(或者直接送你回流水线)
  • “这不是测试,这是对智能的终极羞辱!” ——一个曾经尝试过的AI如是说2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    时光机出错咯?ClockBench让你笑到掉渣的测评报告

    关于「ClockBench」这个奇葩测试

  • 测评规模:整整180个时钟!多到可以开个二手钟表店
  • 问题数量:720道题目,能把AI问得CPU冒烟
  • 核心发现:前沿大语言模型就像个蹩脚修表匠,时针分针傻傻分不清
  • 测试结果大爆笑

    最新的大语言模型在这些时钟题面前表现得:

  • 像上课偷偷补觉的学生——一问三不知
  • 若把答题比作考试,AI平均分堪比我的数学成绩
  • 分不清「3点15分」和「下午茶时间」的区别
  • 这么看来,AI不仅需要升级算法,可能还得重新上小学自然课
    2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    时钟读取之谜:AI的时间盲区与大显身手之可能

    AI在时钟识别上的“滑铁卢”

    令人诧异的是,如今的AI在各种复杂任务中一路高歌猛进——它能解决微积分、能分析图像、甚至能跟你辩论哲学——但让它看个钟表读数,它却像个刚学认时间的幼儿园小朋友,支支吾吾半天!

    可能的“挂科”原因

  • 数据不够“钟表”:AI的训练数据里可能充满了各类高端问题(比如“如何证明黎曼猜想?”),但基础的时钟图片和读数组合反而成了稀缺资源。就像要求一个整天研究量子力学的物理学家给你报时,他可能要先推导一遍角动量公式。
  • 视觉理解的“文字游戏”:时钟的视觉结构(指针、刻度)很难用文字完美描述,导致AI在纯文本训练中“脑补”不出一个完整的钟面。想象一下你只能用“长的铁棍”和“短的铁棍”来形容分针和时针,AI估计会以为你在讨论建筑钢材!
  • 推理能力的“代沟”:模型不得不靠推理临时拼凑指针和刻度的关系,而不是像人类一样一眼识别——“噢,长针在6,短针在3和4之间,那就是3点半!”
  • 但也有一线曙光

    虽然表现堪忧,但最强的模型至少展现出了“有限但存在”的视觉推理能力——它的准确率和误差已经明显优于“随机乱猜”水平。换句话说,AI已经从完全蒙圈进化到了偶尔蒙对

    未来的研究方向

  • 堆量派简单粗暴地加大数据、模型规模和计算资源——如果现有方法能解决问题,那就用“蛮力”突破。
  • 革命派可能需要全新的方法,比如更好的视觉-文本联合建模,或者让AI学会“模拟”人类读取时钟的直觉。
  • 结论

    AI在读表这个问题上的表现既让人捧腹,又令人深思——它提醒我们,即便是最基础的人类技能,对机器来说也可能是一座难以翻越的高山。但历史的经验告诉我们:AI总能找到办法,或许下次你再问它时间时,它会自信地回答:“现在是下午3点15分,顺便一提,您是否需要我帮您证明哥德巴赫猜想?”

    ClockBench如何拷打AI?

    大语言模型:从「学霸」到「考霸」的奇幻漂流

  • 前方高能预警*:大语言模型正在以我们追剧的速度进化:
  • 「这题我会!」时代
  • 就像班级里那个每次考试都拿满分的好学生,LLM们已经开始在各类智力竞赛中称王称霸——只不过是用PyTorch代替了铅笔盒。

  • 「老师,能不能出点新题?」的烦恼
  • 现在的热门测试题对它们来说,就像给大学生做1+1算术题。模型们纷纷表示:「再这样下去,我们要得满分强迫症了!」

  • 行业「考试」迎来降维打击
  • 语言理解?完形填空?推理挑战?统统被AI变成了「请看标准答案.jpeg」

  • 新的生存危机
  • 当模型们把榜单刷爆之后,科研人员们晚上失眠都在想:下一步该让他们考啥?微积分还是脑筋急转弯?

  • 温馨提示*:如果你觉得自己的专业能力最近总被AI吊打…别担心,你并不孤单——现在连出考题的教授们都开始怀疑人生了!
  • 2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    当AI参加”人类期末考试”,结果让人哭笑不得

    最近,又有一批AI跑去参加了一场名为”人类期末考试”(Humanity’s Last Exam)的考试。这场考试据说是专门用来测试AI的专业知识和推理能力的,相当于给机器人的”成人高考”。

    成绩单如下:

  • OpenAI GPT-4o:得分 2.7%(大概相当于考试时把名字写错,然后睡到交卷)
  • xAI Grok 4:得分 25.4%(虽然及格依然遥远,但至少没交白卷,值得一枚”鼓励奖”)
  • 优化版AI(用了各种作弊手段):冲进 40-50% 区间(靠抄小抄翻书做题,结果还是不及格)
  • 然而,最让人哭笑不得的是——AI仍然在某些”小学生都会”的题目上翻车。比如人类能轻松搞定的日常推理、幽默理解,AI却经常像被问”1+1等于几”时疯狂背诵《大英百科全书》……
    看来,离AI真正挑战人类的智商,还有一段让机器人泪流满面的距离。
    2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    人类VS AI:谁才是真正的”时间管理大师”?

    最近AI界掀起了一场”认时钟大作战”,科学家们捣鼓出了一堆专门”为难”AI的奇葩测试——SimpleBench、ARC-AGI之类,口号都是”让人类轻松,让AI头秃”。这感觉就像在玩《最强大脑》,只不过对手换成了硅基生物。
    而最新登场的ClockBench更是重量级选手!研究团队一拍脑袋:”既然所有AI都读不懂钟表,那就做个超大号闹钟题库吧!”于是他们:

  • 手工打造36款魔性表盘(从极简风到巴洛克风应有尽有)
  • 每个表盘克隆5个”双胞胎”(共180个灵魂拷问时钟)
  • 每只钟配4道夺命连环问(720道送命题新鲜出炉)
  • 参赛选手阵容也相当豪华:

  • AI方阵:来自6个顶级实验室的11个”视觉达人”模型
  • 人类代表队:区区5个志愿者(别问,问就是经费在燃烧)
  • 现在压力来到AI这边——毕竟对人类来说,看懂钟表就像呼吸一样自然;但对AI而言,这简直是道”我从哪里来?现在几点?我为什么在这里?”的哲学三连击。

  • (小声bb:下次该不会要比赛拧魔方吧?)*
  • 2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    时钟时间有效性判断:把时钟喂给AI前要知道的事

    在这个充满AI的时代,连时钟都要被大模型”审视”了。让我们看看这四种会让AI皱眉的奇葩时间:

    时钟的四种死法

  • 25:61 PM
  • 见过凌晨25点的太阳吗?
  • 分钟数多到可以看完一集电视剧
  • AM/PM 错乱症
  • 比如 “12:60 AM”(AM家族的败类)
  • 下午3点写成 “3:00 AM”(典型的昼夜颠倒)
  • 时间格式打架
  • “14点30分PM”(既想24小时制又想12小时制)
  • “午时三刻 + 格林尼治时间”(穿越剧看多了)
  • 达利式抽象时间
  • “香蕉 o’clock”(可能是猩猩设定的时间)
  • “当我开始想念你的时候”(最浪漫的无效时间)
  • 大模型看到这些时间时的表情*:→→(系统崩溃)
  • 小知识*:在训练AI识别时间时,程序员需要准备大量”错误时间示范”,就像教小朋友认时钟时故意把长短针装反…
  • 2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    时钟大冒险:时间管理的另类视角

    1. 时间的合法分解

    想象一下,如果时间是个被警察通缉的逃犯,它可能得把自己的信息拆得一干二净才能证明自己合法。当我们逮住一个具体时间(比如 `2024-06-15 14:30:45`),大模型就得像侦探一样,把它拆成 JSON 里的各个小片段:
    json
    {
    “Hours”: 14,
    “Minutes”: 30,
    “Seconds”: 45,
    “Date”: 15,
    “Month”: 6,
    “Day of the week”: “Saturday”
    }

  • 星期几?* 抱歉,时间没得选,只能老老实实承认自己是星期六。
  • 2. 时间的加减

    想给时间来个“整容手术”?比如把 `14:30:45` 加 2 小时 15 分钟,结果可能会让人大吃一惊:

  • 原时间:14:30:45(下午茶时间)
  • 加法操作
  • 加 2 小时 → 16:30:45(接近下班了)
  • 再加 15 分钟 → 16:45:45(老板:再摸鱼扣工资!)
  • 警告:* 别手滑加到跨越午夜,否则第二天你可能得面对睡眼惺忪的自己。
  • 3. 旋转时钟指针

    时间不听话?那就强行扭动它的指针!比如:

  • 目标:当前时间 `03:00:00`
  • 操作:把分针 逆时针转 90 度(钟表:你礼貌吗?)
  • 结果
  • 90 度 = 15 分钟
  • 所以 `03:00:00` 逆时针退 15 分钟 → 02:45:00(恭喜,成功让时光倒流!)
  • 烧脑时刻*:如果你把时针转 720 度……呃,别转了,你只是让时间过了 12 小时而已。
  • 4. 时区转换

    全球跑的人最恨的数学题:“纽约现在是夏令时下午 3 点,那北京几点?”

  • 已知
  • 纽约(夏令时):UTC-4
  • 北京(无夏令时):UTC+8
  • 计算
  • 时差 = 8 – (-4) = 12 小时
  • 所以,北京 = 纽约时间 + 12 小时 = 凌晨 3 点(中国打工人的闹钟在哭泣)
  • 地球生存小贴士*:别在凌晨 3 点给中国同事发消息,除非你想被拉黑。
  • 总结:时间就像个任性的玩具,拆解、加减、旋转、跨越时区……随你折腾。但记住 —— 它永远不会停下来等你!*
  • 结果出乎意料

    时光谜团:模型与人类的时钟认知之战

    令人震惊的发现

    当我们将人类与AI模型放在时钟识别大赛的擂台上时,结果简直像把专业厨师和微波炉放在一起比厨艺:

  • “专家级选手”人类:平均误差只有3分钟,比等一杯咖啡的时间还短
  • “学霸型选手”AI模型:最佳表现误差1小时,够你看两集电视剧了
  • “学渣型选手”弱模型:误差直接放飞自我达到3小时,完美复刻了”早上6点看成下午6点”的经典操作
  • 12小时制的黑色幽默

    最讽刺的是,那些表现差的模型:

  • 误差刚好接近12小时制表盘的一半
  • 完美的对称错误美学
  • 实现了”镜子里的时间也是时间”的哲学境界
  • 这就好比让AI认时间,结果它给你的答案像是在玩幸运大转盘——反正转一圈总会是对的!
    2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    时钟识别界的神奇迷惑行为大赏

    研究表明,AI在看时钟的时候也会像人类一样犯各种尴尬的错误,简直是个行走的闹钟笑话生成器:

  • 高级时钟阅读障碍 – 面对那些设计师放飞自我设计的奇葩钟表(比如用十二星座代替数字的),AI的表现就像喝醉了一样
  • 复古时钟认亲大会 – 罗马数字让AI集体陷入 “I、V、X到底代表啥?” 的哲学思考
  • 钟表版大家来找茬 – 环形数字的朝向问题,AI的识别准确率堪比在旋转寿司店数转了几圈的盘子
  • 速度与激情特别篇 – 秒针运动太快,AI的反应速度堪比树懒
  • 钟表摄影大赛 – 在花里胡哨的背景前,AI的眼神比高度近视还不靠谱
  • 镜子戏法 – 镜像时钟让AI产生自我怀疑:”我到底是在看时间还是在照镜子?”
  • 看来以后要训练AI看时间,得先从幼儿园的认知时钟课开始补起!
    2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    时间问题?对AI来说简直像喝奶茶一样简单

    你以为问AI时间问题很难?错! 比让你早起五分钟还容易!最新研究发现:

  • 时间加减? AI的计算速度比你掰手指头还快,准确率堪比你的数学老师盯着你做题。
  • 指针旋转角度? 它连钟表都不用看,闭着眼睛都能算出时针分针的罗曼蒂克相遇角度。
  • 时区转换? AI能瞬间告诉你纽约的下午是不是你该睡觉的时间,100%准确!比你算时差靠谱多了。
  • 所以,下次别再纠结“现在是几点”这种问题了——AI可能比你的表还准!
    2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    人工智能模型界的”奥运会”成绩单

    让我们来看看这些AI模型的表现,就像一群参加脑力奥运会的”学霸”们在比拼智力测试一样有趣。

    强者恒强定律

  • “大块头有大智慧”:就像健身房的肌肉男总会抢到最好的器械一样,规模更大的推理型模型确实展现出碾压性优势。
  • “浓缩就是精华”在这里行不通:对小规模模型和非推理型模型们,只能说声”下次加油”了。
  • 模型圈的明星选手

  • 谷歌的Gemini 2.5家族*简直就像班级里的学霸三胞胎:
  • 每个体型级别都能稳居第一
  • 让人不得不怀疑他们家的训练数据集是不是偷偷吃了”聪明药”
  • 令人意外的参赛者

  • Anthropic系列:仿佛是来凑数的陪跑选手,在各项赛事中稳稳垫底,可能得考虑换个教练了。
  • Grok 4:这位赛前被寄予厚望的选手表现堪称灾难:
  • 按体型明明该是重量级拳手
  • 表现却像个刚睡醒的业余爱好者
  • 让我们忍不住想问:”兄弟,你昨晚通宵打游戏了吗?”
  • 2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

    视觉推理争霸战:模型们如何和时钟”斗智斗勇”?

    在这场别开生面的「时钟识别大挑战」中,各大AI模型纷纷登场,结果却让人忍俊不禁——GPT-5虽位居第三,但推理预算对它影响微乎其微(中预算和高预算得分几乎难分伯仲)。那么问题来了:为啥GPT-5在这种视觉推理任务上总是翻车?

    “无效时间”:AI和人类的共同偏爱

    研究数据中有180个时钟,但神奇的是,其中37个根本不存在于现实(比如12:61?!)。有趣的是,人类和AI在看到”假时间”时反而更准确

  • 人类
  • 识别无效时钟准确率:96.2%(大概因为明显不对劲)
  • 识别有效时钟准确率:89.1%(”这应该是对的?……不对?”)
  • AI们
  • 在无效时间上的表现普遍高出有效时间349%,简直像“作弊者”专属buff
  • 排行榜:谁是”最会看表”的AI?

  • 冠军Gemini 2.5 Pro(准确率40.5%,不愧是”AI界的表匠”)
  • 怪咖奖Grok 4——它在无效时钟上准确率最高(64.9%),但问题是……它直接把63.3%的时钟全标记成了无效(这不就是做题时全选C的战术吗?!)
  • AI们的”集体看走眼”现象

    研究还发现,AI们在某些时钟上特别团结——要么一起错,要么一起对

  • 61.7% 的时钟没人答对(模型们集体挠头)
  • 38.3% 至少1个模型答对(总算有个明白人)
  • 8.9%4个及以上模型正确识别(这些钟大概是AI界的”标准答案时钟”)
  • 由此可见,模型的答案就像考场上抄作业——集中在少数”易读”的钟上,剩下的全靠……玄学?

  • 参考资料*:
  • 新智元(微信公众号)
  • ClockBench AI
  • © 版权声明

    相关文章