53
0

4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!

4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!

科技圈也有”滤镜战士”?某AI记忆项目被指数据造假

“看那些急着圈钱的科技初创公司在论文里猛加’美颜滤镜’,我都快PTSD了。”一位网友如是吐槽。
这场”学术美颜风波”的主角是人气开源AI记忆项目Mem0——今年4月,他们发表了一篇论文,宣称自己的增强版架构在LOCOMO基准测试中碾压全场,其中”LLM-as-a-Judge”指标比OpenAI高出整整26%
但就在8月13日,另一家明星项目MemGPT的CTOSarah Wooders直接开团:”他们所谓的’SOTA’数据是怎么跑出来的?我们问实验细节他们根本不回!”
更戏剧性的是,Sarah团队用几个基础文件工具就轻松超越了Mem0的”神话数据”。”就好比有人宣称自己打破了百米世界纪录,结果被发现起跑时把对手的鞋带全系在了一起。”网友犀利点评。
最终,当MemGPTZep按正确姿势重跑测试时,成绩都比Mem0的”冠军数据”高出10%以上。”现在AI圈的空气产品比北京的雾霾还浓,但至少在论文里诚实点吧?”吃瓜群众纷纷投来”关爱智障”的眼神。

  • 这场闹剧给我们三个启示*:
  • arXiv论文不用peer review,简直是科技公司的”朋友圈晒图”
  • 当某个团队突然吊打所有竞品时,建议先检查下对手的鞋带
  • 用Linux命令行工具就能破的”SOTA”,建议改名叫”SODO”(State Of Deceptive Optimization)
  • 两个“顶流”崛起

    当AI开始患上”金鱼记忆综合征”:一场关于脑容量的科技突围

    记忆有限?原来AI也需要”备忘录”

    GPT-4出来的时候像个超级学霸,可惜它的记忆力堪比一条金鱼——只能记住最近的几秒钟对话。于是乎:

  • 昨天跟你聊过的兴趣爱好?忘了
  • 上周讨论的项目细节?记忆清零
  • 三个月前承诺的周末烧烤?早被丢进数字黑洞了
  • 这就像你雇了个超级聪明的助理,但他每天上班前都要喝一杯”记忆清除剂”。效率能高才怪!

    伯克利学霸的”作弊小抄”发明

    2023年,加州大学伯克利分校的几个聪明绝顶的博士生终于看不下去了。他们想:”既然人类会借助笔记本来扩展记忆,为什么AI不行?”
    于是诞生了MemGPT——一个让AI学会”记笔记”的系统:

  • 核心记忆:相当于手里的便签纸,立即能用
  • 对话记忆:像书包里的笔记本,弯腰就能拿到
  • 归档记忆:简直是家里的书柜,需要时再翻
  • 外部文件:就是远端存储的云盘啦
  • 这套”作弊系统”太受欢迎了,像期末考前的知识点总结一样迅速走红:

  • Hacker News热搜霸榜48小时
  • GitHub star数飞快突破1.78万
  • 项目火到直接孵化出一家公司——Letta
  • 印度技术宅的”外接硬盘”方案

    与此同时,印度两位工程师也在思考同样的问题:”扩大AI的记忆力窗口,就像给学生更大的考场——最终还是得靠自己背。”
    他们的Mem0方案获得了38.2k GitHub stars,Netflix等公司已经开始用它来解决AI的”健忘症”。看来AI圈也进入了”背诵神器”的商业战场!

    记忆技术的”军备竞赛”

    行业内的各种”记忆增强”方案层出不穷:

  • 向量数据库 —— AI的高级文件夹
  • 知识图谱 —— AI的个人维基百科
  • LoCoMo测试基准 ——记忆力的期末考试
  • 不过最讽刺的是:
    再好的记忆工具,碰上不会用的AI也是白搭——就像给学生配备了最贵的参考书,但他忘记了该查看哪一页。这场关于AI记忆的革命仍在继续,谁知道下一步会不会出现AI专用的”营养记忆胶囊”呢?

    分歧在哪里?

    当AI开始”记笔记”:Mem0团队的神奇操作

    谁说人工智能没记性?Mem0团队这次可是让AI学会“画关系图”了!

  • 问题发现:以前的记忆模型像个金鱼(只有7秒记忆),关系建模一塌糊涂。
  • 解决方案:4月底,团队灵机一动,“让AI画个思维导图吧!”——于是,基于图的记忆表示诞生了。
  • 效果:现在AI不仅能记住事,还能搞清楚“谁是朋友、谁是敌人、谁欠谁五块钱”这种复杂关系。
  • 论文警告:本文内容可能被AI偷偷抄进它的新笔记本里。
    4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!

    记忆系统大改造:从“记事本”升级成“超强大脑”

    1. 原来:记忆就像堆满便利贴的冰箱

    以前,Mem0 的记忆系统就像你家冰箱上贴满的便利贴一样乱中有序:

  • 提取阶段:从对话里捞关键词(“哦!今天是妈妈的生日!”),然后把它们塞进脑子。
  • 更新阶段:把新便利贴和旧的比对(“妈妈生日是下个月?哦不,是今天!”),然后修修改改。
  • 数据库:一个超大的冰箱,贴满了过去的信息,随时翻找。
  • 但问题来了——塞多了会糊! 尤其是当你想找到“我上次把车钥匙放哪了”这种关键记忆的时候,便利贴系统显然有点力不从心。

  • 2. 现在:升级成“思维导图狂魔”

    于是,Mem0g 决定给记忆做个大整容:

    2.1 提取阶段:从“随意贴”变成“疯狂写手”

    用大模型当整理狂,把对话变成类似“知识图谱”的东西:

  • “小明 爱 吃薯片”(实体—关系—实体)
  • “猫 害怕 吹风机”
  • “周末 可能有 下雨”
  • 2.2 更新阶段:冲突检测!数据版“家庭调解员”

    新知识来了?先在知识图谱里横竖对比一下!

  • 新信息:“猫 超爱 吹风机”(但之前记录“猫 害怕 吹风机”)
  • 冲突检测:“嘿,这家伙到底怕还是爱?”
  • 最终裁定:“猫 有时怕 吹风机,但给零食后 变疯狂 爱吹风。”(人类也很难搞懂猫,但 AI 至少比你强)
  • 2.3 底层技术:组合拳出击!

  • Neo4j 图数据库:用来存这些复杂关系(比如“你—欠钱—你朋友”这种危险信息)。
  • GPT-4o-mini:核心打工人,负责把人类碎碎念变成结构化数据。
  • 语义嵌入:类似“联想记忆”,让 AI 既能精准推理,又能灵活理解“你说的‘那个东西’到底是啥”。
  • 3. 效果:碾压同行,省时省力!

    结论简单粗暴——Mem0g 狠起来,连 OpenAI 都不放眼里!

    测试指标对比 OpenAI对比全上下文方法
    准确率提升 26%——
    延迟——降低 91%
    Token 开销节省 90%——
  • 翻译成人话就是:*
  • 比 OpenAI 更准,比 ChatGPT 更快,比传统方法 更省内存
  • 再也不怕 AI 跟你说“抱歉,我好像忘记了……”这种经典人类借口。
  • 所以,快让你的 AI 把“便利贴记忆”扔掉,换成“超强大脑”吧!
    4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!

    记忆方法延迟大战:谁才是真正的”龟速王”?

    响应延迟奥林匹克运动会现场直播

    各位观众朋友们,今天我们齐聚一堂,共同见证一场别开生面的”龟速竞赛”——不同的记忆方法在P50和P95延迟指标下的精彩(缓慢)表现!

    参赛选手阵容

  • 老派绅士:传统记忆方法(戴着单边眼镜,手持怀表)
  • 科技新贵:大模型推理(浑身发光但时不时卡顿一下)
  • 神秘黑马:某种您从未听说过的内存优化算法(自称能飞天但实际在爬行)
  • 比赛实况解说

  • P50赛道(中位数速度)*:
  • 传统方法像喝了5杯咖啡的程序员:“我还能更快!”
  • 大模型推理则像背着整个图书馆跑步:“谁…谁在我身上…放了…这么多…书…”
  • 而我们的黑马选手…噢!它被自己的优化参数绊倒了!
  • P95赛道(最惨烈区间)*:
  • 传统方法开始表演”老年太极”,响应延迟曲线画出了完美的正弦波
  • 大模型推理此刻正在处理一个”if语句”,已经思考了相当于《指环王》三部曲的时间长度
  • 黑马选手终于站了起来!然后系统显示:”内存不足,程序终止”
  • 技术宅的冷笑话时间

  • 问:为什么大模型的P95延迟这么高?
  • 答:因为它要遍历所有可能的回答方式来决定要不要说”我不知道”
  • 问:如何让传统方法更快?
  • 答:告诉它老板在后面看着
  • 本报道由”您的请求正在处理中…”传媒集团赞助播出*
  • 4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!

    Mem0团队的大脑回路:让AI记忆不再”掉线”

    Mem0团队显然深知AI的记忆管理有多重要——毕竟谁都经历过和朋友聊天时对方突然”断片”的尴尬场面。于是他们精心设计了一套记忆组合拳

  • “金鱼模式”上线:对于那些简单粗暴的问答,Mem0的稠密记忆管道就像大脑里的快餐店——快速响应、绝不拖沓,最大限度省下脑细胞(和token)。
  • “侦探柯南附体”:但遇到复杂案情时?全新升级的结构化图表征秒变推理狂魔,能把”谁是凶手”的关系网画得比电视剧还清晰,还不会让服务器冒烟。
  • 这两招合在一起,Mem0直接变身记忆瑞士军刀,完美应对从”今天天气如何”到”帮我梳理第三次世界大战时间线”的各种需求,甚至能支撑整个AI大军团作战。
    不过最戏剧性的是,6月份Sarah同学在GitHub上好奇宝宝附体:”Mem0啊,你们的MemGPT数据到底哪来的?”
    (屏幕上闪现三个大字:已读不回
    (别问,问就是商业机密)
    4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!

    记忆游戏的真假美猴王:当Letta遇上Mem0的”记忆魔术”

    一场突如其来的记忆大战

    最近,记忆工具圈的瓜有点多——Mem0公司突然蹦出来宣布在LoCoMo上成功运行了MemGPT,还秀了一波成绩单。但原团队Letta直接上演了一出”黑人问号脸”:
    我们翻遍了代码,都没找到不重写就能把LoCoMo数据灌进MemGPT/Letta的方法!
    更搞笑的是,Mem0不仅没回复Letta的澄清请求,甚至连“LoCoMo数据怎么能塞进MemGPT”的具体代码都没交出来。

    Letta的神奇骚操作:用txt文件打败专业记忆工具

    就当大家以为事情就这么扑朔迷离的时候,Letta在8月12日甩出了一篇更狠的推文:
    我们只用了一个txt文件存对话历史,连专业记忆工具都没用,就在LoCoMo上拿了74.0%的准确率!
    这意味着两件事:

  • 之前的记忆基准测试很可能是个花架子——真正重要的不是用了啥高大上的检索机制,而是怎么管好上下文
  • 记忆工具市场可能要重新洗牌了——如果txt文件都能赢,那谁还需要复杂的记忆系统?
  • Letta的”丐版记忆算法”

    Letta表示,他们虽然没有原生支持LoCoMo数据,但最新更新给智能体增加了文件系统访问。于是……他们做了个实验:

  • 把LoCoMo的数据丢进一个文件,上传到智能体里;
  • 智能体自己搜(用`search_files`搞语义搜索);
  • 搜完再回答问题(用`answer_question`)。
  • 而且,为了让结果和MemGPT一致,他们用的还是一个不怎么聪明的模型——GPT-4o mini(弱化版小助手)。即便如此,这个「只会搜文件再答题」的智能体,居然拿到了74.0%的成绩,比Mem0号称的68.5%还高!

    结论:有时候,最简单的办法最有效

    这次实验证明了两件事:

  • 记忆工具可能被高估了——与其花大功夫搞检索系统,不如优化智能体的上下文管理
  • GPT-4o mini虽然弱,但规则限制得好,也能秀操作——让AI少幻想、多干活,反而成绩更好。
  • 这下好了,Mem0要不要出来回应一下?还是继续假装没看到?我们拭目以待!

    Letta:能力比工具更重要

    智能体的记忆:文件系统工具比复杂记忆方案更给力?

    Letta这位大佬最近发表了一番高见:现在的AI智能体用工具那是相当溜,尤其是那些在训练数据里见过的“家常菜”——比如文件系统操作。于是,原本那些为单次检索设计的记忆工具就显得有点多余了——还不如让智能体自己动手循环搜索来得痛快。

    AI的记忆?就是看它找不找得着!

  • 智能体不仅能检索原始问题,还能自己发明搜索语句(例子:把“Calvin被打击后如何保持动力?”变成“Calvin motivation setbacks”)。
  • 直到翻遍整个数据宇宙找到正确答案为止
  • Letta强调:智能体的“记忆”本质上取决于它能不能在关键时刻搞定检索,而不是它用了啥高大上的检索机制(管你是知识图谱还是向量数据库)。
  • 为啥文件系统操作这么香?

    Letta认为,主要是因为后期优化时,AI的编码任务练得多——工具越简单,训练数据越常见,智能体就越容易上手。而那些复杂方案(比如知识图谱?)虽然可能在特定领域更有用,但模型未必能Hold住
    “智能体的记忆能力取决于它们的架构、工具和底层模型。你用框架和记忆工具比较智能体的表现?这不就是拿苹果和橘子比大小嘛!” —— Letta如是说。

    如何优雅地评估智能体的记忆力?

  • Letta Memory Benchmark(Letta排行榜)
  • 公平对决!(Apples-to-apples)
  • 固定框架+工具,只看不同模型的记忆管理能力
  • 动态上下文实时生成记忆场景,考察智能体如何应对,而不是简单地测检索能力(Looking at you, LoCoMo)。
  • 直接丢给它一个需要记忆的任务!
  • 比如Terminal-Bench,考验AI处理超长任务的能力(毕竟上下文窗口塞不下这么多信息)。
  • 聪明的AI会用记忆来记录任务状态和进度,否则就只能风中凌乱了……
  • 结论

    Letta最后总结:设计良好的智能体,哪怕只用最简单的文件系统工具,也能在LoCoMo这类检索测试里秀操作有时候,最简单的反而最好用!

  • 注:* 以上观点来自Letta的推特和官网文章,原刊自微信公众号“AI前线”。
  • © 版权声明

    相关文章