榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

AI资讯2个月前发布云知AI运营官

那个”贪吃”的KV Cache

你知道吗？那些号称智慧超群的AI大模型，其实有个让人哭笑不得的秘密——它们的记性像金鱼一样糟糕，还特别能吃显存！这就是传说中的KV Cache（键值缓存）技术。

一个”吃货”的诞生

KV Cache本是提升AI推理速度的”神器”

但每多吃一个token（就像多吃一块饼干）

它就会膨胀一点，消耗更多显存空间

症状描述

这家伙现在简直是个：

内存黑洞：不管喂多少显存都能给你吃得干干净净

并发杀手*：同时想多开几个AI服务？做梦！

规模封印者*：想做大模型？先问问KV Cache同不同意

全球AI界的烦恼】

从硅谷到北京，工程师们都在挠头：

昨天还在炫耀GPT-4有多聪明

今天就被KV Cache打回原形：”先生，您的显存余额不足”

科学家们正在研究如何给这个”吃货”定制一个减肥方案，否则AI发展的下一步恐怕是——先去健身房减个肥！

业界探索

当显卡也想“吃烧烤”：存储系统的三级温度管理大作战

1. Nvidia的“数据自助餐”：热温冷三档套餐

热数据：躲在显卡的显存小厨房里，现烤现吃（快但贵）。

温数据：被赶到 主机内存 的微波炉加热，勉强能咽。

冷数据：发配边疆，要么塞进 SSD 冰箱，要么丢到 云端冷库，找回来还得解冻。

问题：搬运工（数据迁移）太忙，还没上菜，客人（计算单元）已经饿晕在桌前（高延迟）。

2. 微软的“快餐店”LMCache：专供vLLM顾客

优势：和推理框架（比如vLLM）勾肩搭背，点餐即拿，绝不磨叽。

缺点：

分店太少（分布式支持差），人多就排队。

厨房太小（容量上限低），想吃满汉全席？出门右转谢谢。

3. 阿里的“云端大排档”：Tair数据库的野望

口号：“无限续盘！只要你的钱包够厚！”（存储空间随便扩）

现实：

服务员（读写性能）跑得比食堂大妈还慢，客人（LLM）咆哮：“我点的烧烤呢？！”

最后端上来一盘 凉透的缓存，AI吃了直摇头。

结语

目前这三家“存储餐馆”各有痛点：

Nvidia 的流水线像复杂的分子料理，上菜慢。

微软是高效小炒，但只接熟客（vLLM）。

阿里搞了个“云烧烤摊”，可惜火候总差一点点。

或许未来会有个天才厨子（架构师）发明 “瞬移烤炉”（零延迟存储），让AI们彻底告别等待！
榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

CXL：当内存遇到”带宽焦虑症”的救星

内存瓶颈？这不是传统艺能吗？

传统内存：像个反应迟缓的老管家，AI和高性能计算一喊”上菜”，它就手忙脚乱。

CXL技术：忽然杀出个”闪电侠”，带着高带宽、低延迟两把刷子，嗖嗖地解决内存拥堵。

KV Cache也想住豪宅？

现在的大型语言模型推理要求存储加速，可内存空间紧张得就像北京的学区房。

CXL存储摇身变成”房产中介”，拍胸脯保证：”我这儿地儿大！KV Cache随便放！”

程序员们的”搬家”烦恼

现有的软件栈像个恋旧的老顽固，死守DDR内存不肯挪窝。

研究者们正在努力当”搬运工”，争取把代码基友好地迁移到CXL硬件的新公寓里。

未来展望

这项技术要是成熟了，AI推理大概能像点外卖一样快——只是希望别像外卖小哥那样偶尔迷路。

中兴通讯Mariana探索

科研界的”马里亚纳海沟”，这次居然被KV存储征服了？

你没看错！中兴通讯和华东师范大学联手搞了件KV存储界的大事件，堪称技术版的”海底捞针”——Mariana（马里亚纳）。这可不是造潜航器探索海沟，而是要在计算机内存的汪洋大海里玩出新花样！

为啥这个KV索引不一般？

像个CPU的”健身房教练”——SIMD友好的数据布局让它练就了闪电般的反应速度

具备”拆快递”式精细度——条目级的节点锁比传统粗放式管理细致多了

自带”智能体重计”——自适应分裂/合并技术完美把控热点区域的”身材管理”

性能表现绝对让你”哇塞”

吞吐量提升1.7倍——比春运抢票APP还快！

尾延迟降低23%——比程序员周末加班时的脾气降得还快！

这货到底能干啥？

想知道大模型推理时的GPU和KV Cache怎么处对象？Mariana就是那个最称职的红娘！在高并发的约会场景下，它能:

抑制”热点写放大”这种感情过载问题

搞定”延迟敏感”这种约会焦虑症

实现”高吞吐”这种高效相亲流程

科研论文已在《IEEE并行与分布式系统学报》发表（简称TPDS，不是TMD也不是PPT）。这下KV Cache存储终于找到了它的”白马存储”！
榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

Mariana的三项”魔法”创新

Mariana可不是普通的数据库选手——人家有三招”秘籍”，专门对付那些让人秃头的并发控制问题！

第一招：MSCS——锁界的”分槽大法”

别再说”锁整个节点”这种粗暴操作了！Mariana用MSCS（Multi-Slot lock-based Concurrency Scheme），直接把并发控制的”战场”从节点级缩小到条目级！换句话说：

多槽位设计：每个叶子节点自带多个”VIP席位”（Slots），每个座位还配一把独立的小锁（Latch），想写数据？先抢个空位再说！

RDMACAS抢座大战：客户端不再野蛮争夺整个节点的所有权，而是优雅地通过RDMACAS竞争某个空闲槽位，谁手快谁赢！

动态调参，热点隔离：叶子节点自带”智能调节”功能，会自动根据负载扩缩数据范围，把”热门地段”单独划出来，减少后续抢锁战斗的惨烈程度！

效果如何？

写密集型、数据分布严重不平衡（skewed）？小事儿！

吞吐量嗷嗷上升

尾延迟乖乖下降

热点地区再也不堵了

一句话总结：MSCS是谁用谁知道，锁界的内卷之王！
榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

当SIMD遇上了TLN：一场内存中的速度与激情

你以为键值存储只能乖乖地排排坐？TLN（Tailored Leaf Node）表示不服！这个叛逆的数据布局决定打破常规，把Key和Value硬生生拆成了两地分居：

Key们：整整齐齐在内存里列队，像军训标兵一样连续站着，随时准备被SIMD一把薅进寄存器，查谁都快如闪电！

Val们：带着校验和蹲在另一个内存块，虽然分居但好歹也是连号的，省得RDMA来回跑断腿。

性能优化的精髓*：

SIMD的饕餮盛宴 —— 连续键数组？直接塞进寄存器，查找速度堪比光速（至少比隔壁老王家的硬盘快）。

RDMA的偷懒哲学 —— 读写操作能一趟搞定的绝不跑两趟，毕竟网络延迟比等人的耐心还珍贵。

结论*：TLN不是普通的节点，它是键值存储界的特快专列！

（而你，还在用传统布局？——TLN笑而不语。）
榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

热点数据“热”得快，保冷的艺术

现在，让我们揭开自适应缓存策略的神秘面纱——它可不是普通的缓存机制，而是一个在数据海洋中精准捕捉“热浪”的数据冲浪高手！

核心技能：抓热点，保温暖

Count-Min Sketch（计数小能手）：

不是数学家，但比算命师更准！它能快速嗅出哪些数据最近最火爆，就像酒吧里总知道哪款鸡尾酒今晚卖爆。

热度排行榜（链表版）：

数据要是“火”了，就给它VIP待遇——按热度排队进缓存，省得冷的来占座，热的挤不进去。

L1节点：史上最快抢位战：

计算节点会盯着L1缓存，像夜店保安一样紧盯热门选手（数据），谁最“热”谁先进，响应速度直接起飞！

最终效果：内存界的“外卖小哥”

热数据？秒送达——不再是等半天才上菜，而是刚下单，数据就怼你脸上。
冷数据？靠边站——别占位置，该回硬盘吃灰就乖乖回去。
总之，这套缓存策略让存储系统的读性能不再像蜗牛爬行，倒像是装上火箭推进器——咻！瞬间起飞！
榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

谁说性能提升不能这么”马里亚纳”？

Mariana vs. 其他KV存储系统：一场海底两万里的性能竞赛

最新的实验数据证明，Mariana 在KV存储系统的赛道上，彻底诠释了什么叫”[道高一尺，渊深万丈](https://en.wikipedia.org/wiki/Mariana_Trench)”（开个玩笑，没有链接）：

读写吞吐：其他KV存储系统还在努力爬坡时，Mariana直接启动了海底喷气式加速模式。

延迟性能：别的系统还在打电话等信号，Mariana已经玩起了光速般的Fax（尽管这梗可能有点老）。

KV Cache场景：”读多写少”基本等于天天刷微博但从不发动态——而Mariana 在这种懒人天堂里居然还能跑出短跑冠军的速度。

为什么Mariana这么秀？

很简单——其他存储方案还在寻找突破口，而Mariana已经：

优化Cache策略——把数据塞进比短期记忆还快的存储里。

分布式架构——让每个节点都觉得自己是主角，积极性高得离谱。

减少I/O争议——也就是避免让CPU和硬盘像室友一样天天吵架。

总结：Mariana不仅解决了性能瓶颈，还让“瓶颈”这个词听起来像是故意在拖后腿。榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

应用验证

当KV Cache遇上玛丽安娜：一场内存界的芭蕾舞表演

1. 容量之争：玛丽安娜的”无限包包”

普通GPU显存放KV Cache就像试图把一头大象塞进手提箱——痛苦且不切实际。但玛丽安娜（Mariana）不一样！她的解耦内存架构就像背着一个哆啦A梦的口袋：

理论上存储空间没有上限（实际取决于你能找到多少CPU DRAM、PMem甚至SSD来拼凑）。

数据可以优雅地散落在共享内存池，而不用挤在显存这个小公寓里瑟瑟发抖。

2. 速度与激情：玛丽安娜的”极速快递”服务

KV Cache查找通常比蜗牛快那么一丢丢（尤其是远程访问时），但玛丽安娜表示：“交给我，稳了！” 她搬出两大法宝：

硬件加速（SIMD） —— 比普通CPU计算快了“大概十万八千倍”（为了科学严谨，此处数据经过夸张）。

智能缓存（元数据缓存） —— 像把快递提前放在你家门口，避免重复敲门。

结果？读吞吐量蹭蹭往上涨，甚至能赶在GPU打瞌睡之前完成工作。

3. 延迟：玛丽安娜的”闪电反应”

玛丽安娜的数据路径优化就像给快递员装上了火箭背包：

本地缓存 → RDMA → SIMD搜索，全程丝滑无阻。

远端CPU协议栈？太慢，直接淘汰！推理流水线表示：“这延迟，比我的咖啡还热乎。”

4. 水平扩展：玛丽安娜的”人多力量大”战术

想要搞大规模分布式推理？玛丽安娜早就准备好了：

去中心化并发控制 —— 不会像传统方案那样“一人卡住，集体罚站”。

像蚂蚁搬家一样扩展，AI集群再大也不怕，反正玛丽安娜能“海纳百川”。

5. 实战测评：显存50%？玛丽安娜笑了

某实验室用vLLM框架做测试，发现：

场景	表现	玛丽安娜点评
关闭KV Cache	推理像老牛拉车	“这年头还有人不用Cache？”
显存KV Cache（50%数据）	显存爆满，IO炸裂	“可怜的GPU，挤爆了吧？”
玛丽安娜多级存储	吞吐起飞，延迟超稳	“看我秀操作！”

结论

KV Cache原本是个“显存杀手”，但玛丽安娜用多层次存储 + 硬件加速直接开启“降维打击”模式。推理集群如果不用她，简直就像开跑车却选择走路——太奢侈了吧？
榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

大模型加速的秘诀：KV Cache的多级存储魔法

最新研究表明，Mariana扩展的多级KV Cache存储技术简直是大模型推理预加载阶段的”氮气加速器”*！

突破性发现

测试数据表明*：

模型推理速度突然变得像喝了咖啡一样精神

预加载阶段不再是瓶颈（终于不用玩”等待游戏”了）

性能提升明显到连隔壁实验室都跑来偷看

工作原理（通俗版）

想象一下KV Cache就像是大模型的短期记忆书桌：

普通方案：只用一张小课桌（内存不够就开始各种折腾）

Mariana方案：超级办公套间（主桌+抽屉+书架+地下室）

这样大模型工作时就：
不需要频繁站起坐下（减少IO）
随手就能拿到资料（快速检索）
再也不会手忙脚乱（稳定响应）

最终效果：推理过程快得让程序员们都开始怀疑人生*！

拥抱CXL新生态

当”马里亚纳”遇上CXL：大模型推理要掀桌了？

据说这是RDMA网络的”叛逆期”*

你以为存储技术都是老实巴交的乖孩子？不不不，马里亚纳(Mariana)就是一个”叛逆少年”——

硬件的”啃老族”？不存在的！：这家伙根本不屑于绑定特定硬件，今天和RDMA眉来眼去，明天就能无缝勾搭上CXL小鲜肉

API换装游戏：远程访问API？OUT！换上CXL.mem操作的衣服，分分钟给你表演个”低延迟+高一致性”走秀

显存壁垒？不存在的！：以前大模型看到显存就像看到期末考试，现在？马里亚纳直接给发了个”免死金牌”

大模型的”减肥革命”正在上演*

未来的画风可能是这样的：

你家老爷子玩斗地主的千元机

悄咪咪运行着千亿参数的大模型

邻居：你这电脑肯定很贵吧？

你：(战术性喝水)拼夕夕299包邮

结论*：

当AI界开始流行”硬件自由恋爱”，当CXL技术和马里亚纳这样的”红娘”成功牵线——算力焦虑？那都是上个纪元的老故事了！量子位报道的这一波操作，怕是要让硬件厂商们集体失眠了…

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

魅族AI眼镜1999元起售：拍照翻译付款全都会，39g重

# AI # AI新闻 # AI资讯

2个月前

2,2050

极佳视界完成Pre-A&Pre-A+两轮数亿元融资，以世界模型加速“物理世界ChatGPT时刻”到来

# AI # AI新闻 # AI资讯

2个月前

8900

大疆系智能车公司，一汽刚成了最大股东

# 一汽 # 传统车企怎么变？# 卓驭

2个月前

7210

数字技术工人已到岗！时序大模型+Agent已掌握了工厂生产管控技术，比人类更懂工况

# AI # AI新闻 # AI资讯

2个月前

2,5180

榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

那个”贪吃”的KV Cache

一个”吃货”的诞生

症状描述

全球AI界的烦恼】

业界探索

当显卡也想“吃烧烤”：存储系统的三级温度管理大作战

1. Nvidia的“数据自助餐”：热温冷三档套餐

2. 微软的“快餐店”LMCache：专供vLLM顾客

3. 阿里的“云端大排档”：Tair数据库的野望

结语

CXL：当内存遇到”带宽焦虑症”的救星

内存瓶颈？这不是传统艺能吗？

KV Cache也想住豪宅？

程序员们的”搬家”烦恼

未来展望

中兴通讯Mariana探索

科研界的”马里亚纳海沟”，这次居然被KV存储征服了？

为啥这个KV索引不一般？

性能表现绝对让你”哇塞”

这货到底能干啥？

Mariana的三项”魔法”创新

第一招：MSCS——锁界的”分槽大法”

效果如何？

当SIMD遇上了TLN：一场内存中的速度与激情

热点数据“热”得快，保冷的艺术

核心技能：抓热点，保温暖

最终效果：内存界的“外卖小哥”

谁说性能提升不能这么”马里亚纳”？

Mariana vs. 其他KV存储系统：一场海底两万里的性能竞赛

为什么Mariana这么秀？

应用验证

当KV Cache遇上玛丽安娜：一场内存界的芭蕾舞表演

1. 容量之争：玛丽安娜的”无限包包”

2. 速度与激情：玛丽安娜的”极速快递”服务

3. 延迟：玛丽安娜的”闪电反应”

4. 水平扩展：玛丽安娜的”人多力量大”战术

5. 实战测评：显存50%？玛丽安娜笑了

结论

大模型加速的秘诀：KV Cache的多级存储魔法

突破性发现

工作原理（通俗版）

拥抱CXL新生态

当”马里亚纳”遇上CXL：大模型推理要掀桌了？

一天之内，Meta痛失两员大将，小扎钞能力失效？

AI上新｜马卡龙 AI，一场从「哇塞」到「算了」的过山车体验

相关文章

魅族AI眼镜1999元起售：拍照翻译付款全都会，39g重

极佳视界完成Pre-A&Pre-A+两轮数亿元融资，以世界模型加速“物理世界ChatGPT时刻”到来

大疆系智能车公司，一汽刚成了最大股东

数字技术工人已到岗！时序大模型+Agent已掌握了工厂生产管控技术，比人类更懂工况

暂无评论

搜索文章

热门文章