1,025
0

榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

那个”贪吃”的KV Cache

你知道吗?那些号称智慧超群的AI大模型,其实有个让人哭笑不得的秘密——它们的记性像金鱼一样糟糕,还特别能吃显存!这就是传说中的KV Cache(键值缓存)技术。

一个”吃货”的诞生

  • KV Cache本是提升AI推理速度的”神器”
  • 但每多吃一个token(就像多吃一块饼干)
  • 它就会膨胀一点,消耗更多显存空间
  • 症状描述

    这家伙现在简直是个:

  • 内存黑洞:不管喂多少显存都能给你吃得干干净净
  • 并发杀手*:同时想多开几个AI服务?做梦!
  • 规模封印者*:想做大模型?先问问KV Cache同不同意
  • 全球AI界的烦恼】

    从硅谷到北京,工程师们都在挠头:

  • 昨天还在炫耀GPT-4有多聪明
  • 今天就被KV Cache打回原形:”先生,您的显存余额不足”
  • 科学家们正在研究如何给这个”吃货”定制一个减肥方案,否则AI发展的下一步恐怕是——先去健身房减个肥!

    业界探索

    当显卡也想“吃烧烤”:存储系统的三级温度管理大作战

    1. Nvidia的“数据自助餐”:热温冷三档套餐

  • 热数据:躲在显卡的 显存 小厨房里,现烤现吃(快但贵)。
  • 温数据:被赶到 主机内存 的微波炉加热,勉强能咽。
  • 冷数据:发配边疆,要么塞进 SSD 冰箱,要么丢到 云端冷库,找回来还得解冻。
  • 问题:搬运工(数据迁移)太忙,还没上菜,客人(计算单元)已经饿晕在桌前(高延迟)。
  • 2. 微软的“快餐店”LMCache:专供vLLM顾客

  • 优势:和推理框架(比如vLLM)勾肩搭背,点餐即拿,绝不磨叽。
  • 缺点
  • 分店太少(分布式支持差),人多就排队。
  • 厨房太小(容量上限低),想吃满汉全席?出门右转谢谢。
  • 3. 阿里的“云端大排档”:Tair数据库的野望

  • 口号:“无限续盘!只要你的钱包够厚!”(存储空间随便扩
  • 现实
  • 服务员(读写性能)跑得比食堂大妈还慢,客人(LLM)咆哮:“我点的烧烤呢?!”
  • 最后端上来一盘 凉透的缓存,AI吃了直摇头。
  • 结语

    目前这三家“存储餐馆”各有痛点:

  • Nvidia 的流水线像复杂的分子料理,上菜慢。
  • 微软 是高效小炒,但只接熟客(vLLM)。
  • 阿里 搞了个“云烧烤摊”,可惜火候总差一点点。
  • 或许未来会有个天才厨子(架构师)发明 “瞬移烤炉”(零延迟存储),让AI们彻底告别等待!
    榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

    CXL:当内存遇到”带宽焦虑症”的救星

    内存瓶颈?这不是传统艺能吗?

  • 传统内存:像个反应迟缓的老管家,AI和高性能计算一喊”上菜”,它就手忙脚乱。
  • CXL技术:忽然杀出个”闪电侠”,带着高带宽、低延迟两把刷子,嗖嗖地解决内存拥堵。
  • KV Cache也想住豪宅?

  • 现在的大型语言模型推理要求存储加速,可内存空间紧张得就像北京的学区房。
  • CXL存储摇身变成”房产中介”,拍胸脯保证:”我这儿地儿大!KV Cache随便放!”
  • 程序员们的”搬家”烦恼

  • 现有的软件栈像个恋旧的老顽固,死守DDR内存不肯挪窝。
  • 研究者们正在努力当”搬运工”,争取把代码基友好地迁移到CXL硬件的新公寓里。
  • 未来展望

    这项技术要是成熟了,AI推理大概能像点外卖一样快——只是希望别像外卖小哥那样偶尔迷路。

    中兴通讯Mariana探索

    科研界的”马里亚纳海沟”,这次居然被KV存储征服了?

    你没看错!中兴通讯和华东师范大学联手搞了件KV存储界的大事件,堪称技术版的”海底捞针”——Mariana(马里亚纳)。这可不是造潜航器探索海沟,而是要在计算机内存的汪洋大海里玩出新花样!

    为啥这个KV索引不一般?

  • 像个CPU的”健身房教练”——SIMD友好的数据布局让它练就了闪电般的反应速度
  • 具备”拆快递”式精细度——条目级的节点锁比传统粗放式管理细致多了
  • 自带”智能体重计”——自适应分裂/合并技术完美把控热点区域的”身材管理”
  • 性能表现绝对让你”哇塞”

  • 吞吐量提升1.7倍——比春运抢票APP还快!
  • 尾延迟降低23%——比程序员周末加班时的脾气降得还快!
  • 这货到底能干啥?

    想知道大模型推理时的GPU和KV Cache怎么处对象?Mariana就是那个最称职的红娘!在高并发的约会场景下,它能:

  • 抑制”热点写放大”这种感情过载问题
  • 搞定”延迟敏感”这种约会焦虑症
  • 实现”高吞吐”这种高效相亲流程
  • 科研论文已在《IEEE并行与分布式系统学报》发表(简称TPDS,不是TMD也不是PPT)。这下KV Cache存储终于找到了它的”白马存储”!
    榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

    Mariana的三项”魔法”创新

    Mariana可不是普通的数据库选手——人家有三招”秘籍”,专门对付那些让人秃头的并发控制问题!

    第一招:MSCS——锁界的”分槽大法”

    别再说”锁整个节点”这种粗暴操作了!Mariana用MSCS(Multi-Slot lock-based Concurrency Scheme),直接把并发控制的”战场”从节点级缩小到条目级!换句话说:

  • 多槽位设计:每个叶子节点自带多个”VIP席位”(Slots),每个座位还配一把独立的小锁(Latch),想写数据?先抢个空位再说!
  • RDMACAS抢座大战:客户端不再野蛮争夺整个节点的所有权,而是优雅地通过RDMACAS竞争某个空闲槽位,谁手快谁赢!
  • 动态调参,热点隔离:叶子节点自带”智能调节”功能,会自动根据负载扩缩数据范围,把”热门地段”单独划出来,减少后续抢锁战斗的惨烈程度!
  • 效果如何?

    写密集型、数据分布严重不平衡(skewed)?小事儿!

  • 吞吐量嗷嗷上升
  • 尾延迟乖乖下降
  • 热点地区再也不堵了
  • 一句话总结:MSCS是谁用谁知道,锁界的内卷之王!
    榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

    当SIMD遇上了TLN:一场内存中的速度与激情

    你以为键值存储只能乖乖地排排坐?TLN(Tailored Leaf Node)表示不服!这个叛逆的数据布局决定打破常规,把Key和Value硬生生拆成了两地分居:

  • Key们:整整齐齐在内存里列队,像军训标兵一样连续站着,随时准备被SIMD一把薅进寄存器,查谁都快如闪电!
  • Val们:带着校验和蹲在另一个内存块,虽然分居但好歹也是连号的,省得RDMA来回跑断腿。
  • 性能优化的精髓*:
  • SIMD的饕餮盛宴 —— 连续键数组?直接塞进寄存器,查找速度堪比光速(至少比隔壁老王家的硬盘快)。
  • RDMA的偷懒哲学 —— 读写操作能一趟搞定的绝不跑两趟,毕竟网络延迟比等人的耐心还珍贵。
  • 结论*:TLN不是普通的节点,它是键值存储界的特快专列!
  • (而你,还在用传统布局?——TLN笑而不语。)
    榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

    热点数据“热”得快,保冷的艺术

    现在,让我们揭开自适应缓存策略的神秘面纱——它可不是普通的缓存机制,而是一个在数据海洋中精准捕捉“热浪”的数据冲浪高手

    核心技能:抓热点,保温暖

  • Count-Min Sketch(计数小能手)
  • 不是数学家,但比算命师更准!它能快速嗅出哪些数据最近最火爆,就像酒吧里总知道哪款鸡尾酒今晚卖爆。
  • 热度排行榜(链表版)
  • 数据要是“火”了,就给它VIP待遇——按热度排队进缓存,省得冷的来占座,热的挤不进去。
  • L1节点:史上最快抢位战
  • 计算节点会盯着L1缓存,像夜店保安一样紧盯热门选手(数据),谁最“热”谁先进,响应速度直接起飞!
  • 最终效果:内存界的“外卖小哥”

    热数据?秒送达——不再是等半天才上菜,而是刚下单,数据就怼你脸上。
    冷数据?靠边站——别占位置,该回硬盘吃灰就乖乖回去。
    总之,这套缓存策略让存储系统的读性能不再像蜗牛爬行,倒像是装上火箭推进器——咻!瞬间起飞!
    榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

    谁说性能提升不能这么”马里亚纳”?

    Mariana vs. 其他KV存储系统:一场海底两万里的性能竞赛

    最新的实验数据证明,Mariana 在KV存储系统的赛道上,彻底诠释了什么叫”[道高一尺,渊深万丈](https://en.wikipedia.org/wiki/Mariana_Trench)”(开个玩笑,没有链接):

  • 读写吞吐:其他KV存储系统还在努力爬坡时,Mariana直接启动了海底喷气式加速模式。
  • 延迟性能:别的系统还在打电话等信号,Mariana已经玩起了光速般的Fax(尽管这梗可能有点老)。
  • KV Cache场景:”读多写少”基本等于天天刷微博但从不发动态——而Mariana 在这种懒人天堂里居然还能跑出短跑冠军的速度。
  • 为什么Mariana这么秀?

    很简单——其他存储方案还在寻找突破口,而Mariana已经:

  • 优化Cache策略——把数据塞进比短期记忆还快的存储里。
  • 分布式架构——让每个节点都觉得自己是主角,积极性高得离谱。
  • 减少I/O争议——也就是避免让CPU和硬盘像室友一样天天吵架。
  • 总结:Mariana不仅解决了性能瓶颈,还让“瓶颈”这个词听起来像是故意在拖后腿榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

    应用验证

    当KV Cache遇上玛丽安娜:一场内存界的芭蕾舞表演

    1. 容量之争:玛丽安娜的”无限包包”

    普通GPU显存放KV Cache就像试图把一头大象塞进手提箱——痛苦且不切实际。但玛丽安娜(Mariana)不一样!她的解耦内存架构就像背着一个哆啦A梦的口袋

  • 理论上存储空间没有上限(实际取决于你能找到多少CPU DRAM、PMem甚至SSD来拼凑)。
  • 数据可以优雅地散落在共享内存池,而不用挤在显存这个小公寓里瑟瑟发抖。
  • 2. 速度与激情:玛丽安娜的”极速快递”服务

    KV Cache查找通常比蜗牛快那么一丢丢(尤其是远程访问时),但玛丽安娜表示:“交给我,稳了!” 她搬出两大法宝:

  • 硬件加速(SIMD) —— 比普通CPU计算快了“大概十万八千倍”(为了科学严谨,此处数据经过夸张)。
  • 智能缓存(元数据缓存) —— 像把快递提前放在你家门口,避免重复敲门。
  • 结果?读吞吐量蹭蹭往上涨,甚至能赶在GPU打瞌睡之前完成工作。

    3. 延迟:玛丽安娜的”闪电反应”

    玛丽安娜的数据路径优化就像给快递员装上了火箭背包:

  • 本地缓存 → RDMA → SIMD搜索,全程丝滑无阻。
  • 远端CPU协议栈?太慢,直接淘汰!推理流水线表示:“这延迟,比我的咖啡还热乎。”
  • 4. 水平扩展:玛丽安娜的”人多力量大”战术

    想要搞大规模分布式推理?玛丽安娜早就准备好了:

  • 去中心化并发控制 —— 不会像传统方案那样“一人卡住,集体罚站”
  • 像蚂蚁搬家一样扩展,AI集群再大也不怕,反正玛丽安娜能“海纳百川”
  • 5. 实战测评:显存50%?玛丽安娜笑了

    某实验室用vLLM框架做测试,发现:

    场景表现玛丽安娜点评
    关闭KV Cache推理像老牛拉车“这年头还有人不用Cache?”
    显存KV Cache(50%数据)显存爆满,IO炸裂“可怜的GPU,挤爆了吧?”
    玛丽安娜多级存储吞吐起飞,延迟超稳“看我秀操作!”

    结论

    KV Cache原本是个“显存杀手”,但玛丽安娜用多层次存储 + 硬件加速直接开启“降维打击”模式。推理集群如果不用她,简直就像开跑车却选择走路——太奢侈了吧?
    榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

    大模型加速的秘诀:KV Cache的多级存储魔法

  • 最新研究表明,Mariana扩展的多级KV Cache存储技术简直是大模型推理预加载阶段的”氮气加速器”*!
  • 突破性发现

  • 测试数据表明*:
  • 模型推理速度突然变得像喝了咖啡一样精神
  • 预加载阶段不再是瓶颈(终于不用玩”等待游戏”了)
  • 性能提升明显到连隔壁实验室都跑来偷看
  • 工作原理(通俗版)

    想象一下KV Cache就像是大模型的短期记忆书桌

  • 普通方案:只用一张小课桌(内存不够就开始各种折腾)
  • Mariana方案:超级办公套间(主桌+抽屉+书架+地下室)
  • 这样大模型工作时就:
    不需要频繁站起坐下(减少IO)
    随手就能拿到资料(快速检索)
    再也不会手忙脚乱(稳定响应)

  • 最终效果:推理过程快得让程序员们都开始怀疑人生*!
  • 拥抱CXL新生态

    当”马里亚纳”遇上CXL:大模型推理要掀桌了?

  • 据说这是RDMA网络的”叛逆期”*
  • 你以为存储技术都是老实巴交的乖孩子?不不不,马里亚纳(Mariana)就是一个”叛逆少年”——

  • 硬件的”啃老族”?不存在的!:这家伙根本不屑于绑定特定硬件,今天和RDMA眉来眼去,明天就能无缝勾搭上CXL小鲜肉
  • API换装游戏:远程访问API?OUT!换上CXL.mem操作的衣服,分分钟给你表演个”低延迟+高一致性”走秀
  • 显存壁垒?不存在的!:以前大模型看到显存就像看到期末考试,现在?马里亚纳直接给发了个”免死金牌”
  • 大模型的”减肥革命”正在上演*
  • 未来的画风可能是这样的:

  • 你家老爷子玩斗地主的千元机
  • 悄咪咪运行着千亿参数的大模型
  • 邻居:你这电脑肯定很贵吧?
  • 你:(战术性喝水)拼夕夕299包邮
  • 结论*:
  • 当AI界开始流行”硬件自由恋爱”,当CXL技术和马里亚纳这样的”红娘”成功牵线——算力焦虑?那都是上个纪元的老故事了!量子位报道的这一波操作,怕是要让硬件厂商们集体失眠了…

    © 版权声明

    相关文章