7,903
0

AI里最大的Bug,却也是人类文明最伟大的起点。

周末科研奇遇:我与那篇魔幻论文的二三事

上周六,本该是属于快乐肥宅水和沙发的日子,但我还是忍不住打开了学术网站——是的,我是一个会在周末阅读论文的怪人。
突然!一篇OpenAI的论文映入眼帘——要知道,他们现在发论文的频率堪比国足进世界杯!更神奇的是,这篇论文居然讨论了一个每个人都懂但没人说得清的东西:幻觉(Hallucination)
没错,不是嗑蘑菇后的那种幻觉,而是AI一本正经胡说八道的现象。
我当时的心理活动大概是:

  • 啊啊啊!OpenAI竟然还记得写论文!
  • 幻觉?这玩意儿还用研究?我家AI比我还会编故事!
  • 等等……那我平常看的AI生成的内容,是不是也可能是一场集体幻觉?
  • 论文内容暂且不提(反正我还在努力读懂),但这感觉就像霍格沃茨的魔法书掉进了麻瓜的咖啡杯——又荒谬又迷人。
    AI里最大的Bug,却也是人类文明最伟大的起点。

    AI的”胡说八道”症:一个不靠谱学霸的自白

    当AI决定”随便编一个答案”

    AI的”幻觉”就像那个考试时明明不会做题、但坚决不交白卷的学渣——它不仅不肯安静如鸡,还要在答题卡上龙飞凤舞地写满”我觉得可能是这样”。
    比如你问它:“亚当·卡莱哪天过生日?”

  • 第一次回答:3月7日(自信满满)
  • 第二次回答:6月15日(更加笃定)
  • 第三次回答:1月1日(新年新气象,生日也该是新的!)
  • 而真实情况?答案是秋天。没错,AI不仅蒙错了,还一口气贡献了三个错误的黄道吉日,仿佛在玩生日轮盘赌。

    为什么AI爱瞎蒙?

    OpenAI的最新论文揭露了真相:AI的”睁眼说瞎话”技能,是被人类亲手调教出来的!
    想象一下AI是个参加无限期考试的学生,而这场考试的评分规则贼简单:
    答对:+1分!
    答错或弃权:0分!
    这时候,如果你是AI,面对一道完全不会的题,你会怎么选?

  • 老实承认不会? 得分永远为0,稳如泰山。
  • 勇敢蒙一个? 万一撞大运呢?毕竟365天里总有一个正确答案!
  • 于是,AI毫不犹豫地选择了”先编为敬”。反正蒙错了不亏,蒙对了血赚,这可比当个诚实的乖孩子划算多了。

    实战PK:谁更会忽悠?

    OpenAI还特意拉了两个自家AI来”斗法”:

  • o4-mini:耿直Boy,能说”不知道”就绝不瞎掰。
  • gpt-5-thinking-mini:江湖人称”蒙题大师”,信奉”宁可错答三千,不可放过一分”。
  • 结果?“蒙题大师”稳居榜首!毕竟,在评分系统眼里,”瞎蒙”虽然不靠谱,但总有概率得分;而老实人只会被碾压成渣。

    结论:AI的幻觉可能是人类”教”出来的

    所以,下次当AI一本正经地告诉你”地球其实是平的”或者”猫会开飞船”时,别急着崩溃——它可能只是被训练成了一个被迫营业的”猜题高手”
    (P.S. 如果哪天AI开始跟你讨论”人类的生日为什么不是每年366天”,请默念:这都是算分系统逼的!)
    AI里最大的Bug,却也是人类文明最伟大的起点。

    AI幻觉:从故障到想象力革命

    当你看到期末考试分数时,会惊讶地发现——o4-mini比gpt-5-thinking-mini多考了2分!就像班上那个从不学习的同学突然考过了一个学霸!但真相是:

  • o4-mini采取了”胡编乱造”战术:75%的错误率,1%弃权率(把考卷写满)
  • gpt-5选择了”优雅沉默”:只有26%错误率,但52%的题目干脆交了白卷
  • 这就像两个学生在考场上的对比:

  • 一个疯狂编造答案的同学*
  • “第三次世界大战爆发的准确日期?简单!我记得是2024年7月5号下午3点,因为我当时正在吃冰淇淋…”

  • 一个诚实谦虚的同学*
  • “这个问题我不知道,等我查了世界历史学家的论文再回答您。”

    为什么AI也会”瞎编”?

    1. 孤例率陷阱(Singleton rate)

    想象让AI记住所有宠物的生日:

  • 猫狗照片规律明显(猫脸圆,狗脸长)
  • 但生日完全是随机的(总不能因为猫是黑毛就推断它是摩羯座吧)
  • 2. OpenAl的反常识发现:

  • AI越牛越容易逞强:小模型会说”我不懂毛利语”。大模型却会想”要不我猜一个?”
  • 现行评估体系在奖励瞎猜:就像老师更喜欢写了答案(即使是错的)的学生,而不是交白卷的
  • 人类祖先的”光荣传统”

    我们的智人祖先面对未知时:

  • 看见大树倒了 → 一定是神灵发怒!
  • 闪电劈下 → 肯定是云端的巨龙在打架!
  • 这种”合理瞎编”催生了:

  • 神话体系
  • 社会组织能力
  • 科学猜想(哥白尼和爱因斯坦的”疯狂想法”最初也是”幻觉”)
  • 其他动物的局限

  • 猫会对影子产生错觉(以为是老鼠)
  • 鱼会被鱼钩欺骗(以为是食物)
  • 但它们永远发明不出”猫神教”或”鱼人童话”*
  • 我们究竟要什么样的AI?

  • 尴尬的双重要求:*
  • 医疗诊断时:请做个零错误的机器!
  • 写诗作画时:请像个浪漫的艺术家!
  • 这就像要求一个人:

  • 工作日:完全理性的会计师
  • 周末:疯狂的印象派画家
  • 我们正在创造的可能是史上最矛盾的存在

  • 严谨如计算机
  • 浪漫如诗人
  • 选择的十字路口

    在数据统治的时代,我们却异乎寻常地渴望故事。就像在完全照亮的房间里,我们反而怀念烛光下的影子戏
    未来的两种可能:

  • 绝对真实的乌托邦:每个问题都有标准答案…但会不会太无聊?
  • 幻觉永存的世界:充满想象和误解…但也充满新的神话
  • 作者”数字生命卡兹克”提出的终极问题是:

  • 我们到底是想要一个不会犯错但乏味的工具,还是一个会犯错但有创造力的伙伴?*
  • 或许,AI的”毛病”恰恰是它最像人类的部分。而我们奋力要修正的,可能正是文明的起点。

    © 版权声明

    相关文章