科技圈也有”滤镜战士”?某AI记忆项目被指数据造假
“看那些急着圈钱的科技初创公司在论文里猛加’美颜滤镜’,我都快PTSD了。”一位网友如是吐槽。
这场”学术美颜风波”的主角是人气开源AI记忆项目Mem0——今年4月,他们发表了一篇论文,宣称自己的增强版架构在LOCOMO基准测试中碾压全场,其中”LLM-as-a-Judge”指标比OpenAI高出整整26%。
但就在8月13日,另一家明星项目MemGPT的CTOSarah Wooders直接开团:”他们所谓的’SOTA’数据是怎么跑出来的?我们问实验细节他们根本不回!”
更戏剧性的是,Sarah团队用几个基础文件工具就轻松超越了Mem0的”神话数据”。”就好比有人宣称自己打破了百米世界纪录,结果被发现起跑时把对手的鞋带全系在了一起。”网友犀利点评。
最终,当MemGPT和Zep按正确姿势重跑测试时,成绩都比Mem0的”冠军数据”高出10%以上。”现在AI圈的空气产品比北京的雾霾还浓,但至少在论文里诚实点吧?”吃瓜群众纷纷投来”关爱智障”的眼神。
两个“顶流”崛起
当AI开始患上”金鱼记忆综合征”:一场关于脑容量的科技突围
记忆有限?原来AI也需要”备忘录”
GPT-4出来的时候像个超级学霸,可惜它的记忆力堪比一条金鱼——只能记住最近的几秒钟对话。于是乎:
这就像你雇了个超级聪明的助理,但他每天上班前都要喝一杯”记忆清除剂”。效率能高才怪!
伯克利学霸的”作弊小抄”发明
2023年,加州大学伯克利分校的几个聪明绝顶的博士生终于看不下去了。他们想:”既然人类会借助笔记本来扩展记忆,为什么AI不行?”
于是诞生了MemGPT——一个让AI学会”记笔记”的系统:
这套”作弊系统”太受欢迎了,像期末考前的知识点总结一样迅速走红:
印度技术宅的”外接硬盘”方案
与此同时,印度两位工程师也在思考同样的问题:”扩大AI的记忆力窗口,就像给学生更大的考场——最终还是得靠自己背。”
他们的Mem0方案获得了38.2k GitHub stars,Netflix等公司已经开始用它来解决AI的”健忘症”。看来AI圈也进入了”背诵神器”的商业战场!
记忆技术的”军备竞赛”
行业内的各种”记忆增强”方案层出不穷:
不过最讽刺的是:
再好的记忆工具,碰上不会用的AI也是白搭——就像给学生配备了最贵的参考书,但他忘记了该查看哪一页。这场关于AI记忆的革命仍在继续,谁知道下一步会不会出现AI专用的”营养记忆胶囊”呢?
分歧在哪里?
当AI开始”记笔记”:Mem0团队的神奇操作
谁说人工智能没记性?Mem0团队这次可是让AI学会“画关系图”了!
(论文警告:本文内容可能被AI偷偷抄进它的新笔记本里。)
记忆系统大改造:从“记事本”升级成“超强大脑”
1. 原来:记忆就像堆满便利贴的冰箱
以前,Mem0 的记忆系统就像你家冰箱上贴满的便利贴一样乱中有序:
但问题来了——塞多了会糊! 尤其是当你想找到“我上次把车钥匙放哪了”这种关键记忆的时候,便利贴系统显然有点力不从心。
2. 现在:升级成“思维导图狂魔”
于是,Mem0g 决定给记忆做个大整容:
2.1 提取阶段:从“随意贴”变成“疯狂写手”
用大模型当整理狂,把对话变成类似“知识图谱”的东西:
2.2 更新阶段:冲突检测!数据版“家庭调解员”
新知识来了?先在知识图谱里横竖对比一下!
2.3 底层技术:组合拳出击!
3. 效果:碾压同行,省时省力!
结论简单粗暴——Mem0g 狠起来,连 OpenAI 都不放眼里!
测试指标 | 对比 OpenAI | 对比全上下文方法 |
---|---|---|
准确率 | 提升 26% | —— |
延迟 | —— | 降低 91% |
Token 开销 | 节省 90% | —— |
所以,快让你的 AI 把“便利贴记忆”扔掉,换成“超强大脑”吧!
记忆方法延迟大战:谁才是真正的”龟速王”?
响应延迟奥林匹克运动会现场直播
各位观众朋友们,今天我们齐聚一堂,共同见证一场别开生面的”龟速竞赛”——不同的记忆方法在P50和P95延迟指标下的精彩(缓慢)表现!
参赛选手阵容
比赛实况解说
技术宅的冷笑话时间
Mem0团队的大脑回路:让AI记忆不再”掉线”
Mem0团队显然深知AI的记忆管理有多重要——毕竟谁都经历过和朋友聊天时对方突然”断片”的尴尬场面。于是他们精心设计了一套记忆组合拳:
这两招合在一起,Mem0直接变身记忆瑞士军刀,完美应对从”今天天气如何”到”帮我梳理第三次世界大战时间线”的各种需求,甚至能支撑整个AI大军团作战。
不过最戏剧性的是,6月份Sarah同学在GitHub上好奇宝宝附体:”Mem0啊,你们的MemGPT数据到底哪来的?”
(屏幕上闪现三个大字:已读不回)
(别问,问就是商业机密)
记忆游戏的真假美猴王:当Letta遇上Mem0的”记忆魔术”
一场突如其来的记忆大战
最近,记忆工具圈的瓜有点多——Mem0公司突然蹦出来宣布在LoCoMo上成功运行了MemGPT,还秀了一波成绩单。但原团队Letta直接上演了一出”黑人问号脸”:
「我们翻遍了代码,都没找到不重写就能把LoCoMo数据灌进MemGPT/Letta的方法!」
更搞笑的是,Mem0不仅没回复Letta的澄清请求,甚至连“LoCoMo数据怎么能塞进MemGPT”的具体代码都没交出来。
Letta的神奇骚操作:用txt文件打败专业记忆工具
就当大家以为事情就这么扑朔迷离的时候,Letta在8月12日甩出了一篇更狠的推文:
「我们只用了一个txt文件存对话历史,连专业记忆工具都没用,就在LoCoMo上拿了74.0%的准确率!」
这意味着两件事:
Letta的”丐版记忆算法”
Letta表示,他们虽然没有原生支持LoCoMo数据,但最新更新给智能体增加了文件系统访问。于是……他们做了个实验:
而且,为了让结果和MemGPT一致,他们用的还是一个不怎么聪明的模型——GPT-4o mini(弱化版小助手)。即便如此,这个「只会搜文件再答题」的智能体,居然拿到了74.0%的成绩,比Mem0号称的68.5%还高!
结论:有时候,最简单的办法最有效
这次实验证明了两件事:
这下好了,Mem0要不要出来回应一下?还是继续假装没看到?我们拭目以待!
Letta:能力比工具更重要
智能体的记忆:文件系统工具比复杂记忆方案更给力?
Letta这位大佬最近发表了一番高见:现在的AI智能体用工具那是相当溜,尤其是那些在训练数据里见过的“家常菜”——比如文件系统操作。于是,原本那些为单次检索设计的记忆工具就显得有点多余了——还不如让智能体自己动手循环搜索来得痛快。
AI的记忆?就是看它找不找得着!
为啥文件系统操作这么香?
Letta认为,主要是因为后期优化时,AI的编码任务练得多——工具越简单,训练数据越常见,智能体就越容易上手。而那些复杂方案(比如知识图谱?)虽然可能在特定领域更有用,但模型未必能Hold住。
“智能体的记忆能力取决于它们的架构、工具和底层模型。你用框架和记忆工具比较智能体的表现?这不就是拿苹果和橘子比大小嘛!” —— Letta如是说。
如何优雅地评估智能体的记忆力?
结论
Letta最后总结:设计良好的智能体,哪怕只用最简单的文件系统工具,也能在LoCoMo这类检索测试里秀操作。有时候,最简单的反而最好用!