5,591
0

上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

AI作画也能”从一而终”了!解锁《塞尔达传说》同款场景稳定术

  • 你以为AI生成的人物和场景都是”一日游”?*
  • “早上画个林克还挺帅,下午就变成杀马特”这种翻车事故要成为历史啦!最近的技术进步简直像给AI喂了一筐”记忆面包”,来看看《塞尔达传说》同款绿色田野的惊艳表现:

    场景稳定度爆表的三重buff

  • 地形轮廓:AI现在能把海拉鲁大陆的山丘曲线刻在DNA里
  • 色彩系统:那个标志性的绿,比星巴克的抹茶拿铁还稳定
  • 光影逻辑:从清晨到黄昏,太阳都记得要从哪个角度打光
  • 最神奇的是*——放大后的花草都保持着塞尔达式的卡通渲染风格,没有突然变异成写实派蒲公英!
  • 对比传统AI的”精分现场”

    传统AI新版AI
    同一场景生成三次可能是草原/沙漠/海底保持着90%以上的场景辨识度
    NPC换个角度就整容林克转个身还是那个”啊哈!”少年
    远景近景风格断层近看远处的神庙依然细节在线
  • 专业点评*:这技术就像是给AI装了个”海拉鲁GPS”,让它永远记得自己是在任天堂的童话世界里散步~
  • 下次当你看到AI生成的场景时,说不定会恍惚:”这真的是程序画的吗?怎么比我记路还靠谱!”上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

    《黑神话悟空》里的这座破庙,是开发商顺手盖的吗?

    荒废的寺庙,在《黑神话悟空》里堪称“怪物的长租房”。玩家走进去之前,必须默念三遍:“这里不会突然蹦出个妖怪吧?”然而现实往往更残酷——妖怪不仅会蹦出来,还会热情地请你喝茶(或者请你喝西北风)。

    这座庙的卖点

  • 年久失修套餐:墙皮剥落程度堪比现实中的北京胡同老房,唯一的区别是这里不会有居委会大妈催你修缮。
  • 佛像的笑容:原本慈悲为怀的佛像,看着玩家路过,想必内心OS是:“啊,又是个找死的新手。”
  • 怪物房客问题:里面的妖怪可能还没交房租,所以脾气特别爆,见人就打。
  • 玩家攻略指南

  • 心态准备:进门前确保血压稳定,因为寺庙的每一块地砖都可能触发BOSS战。
  • 战术建议:如果看到地上散落的骨头,千万别好奇去摸——那是上一波玩家的遗体展览。
  • 逃生路线:打完怪就跑,别留恋!谁知道这破庙是不是还藏着个隐藏BOSS,正在搓技能等你呢?
  • 总之,《黑神话悟空》里的废庙,完美诠释了“危险系数与建筑的破败程度成正比”这一真理。祝各位探险愉快——别被妖怪当房租收了就行!
    上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

    《戏台上的风暴——云堇登场》

    “谁说戏子无情?我这戏服里可藏着机关!”

    这位璃月港的名角儿可不是一般的戏曲演员——她能把戏台变成战场,把水袖甩出剑气,更能在唱到高潮时突然掏出长枪给你来个”即兴武打”。

  • 职业定位
  • 表面:优雅端庄的戏曲艺术家
  • 实际:”唱着歌就把你揍趴下”的战斗法师
  • 技能亮点
  • 普通攻击:”云翰社特供版广场舞”(持枪转圈动作优雅到让你忘记自己在挨打)
  • 元素战技:甩袖子的力度大到能抽飞丘丘人(”这叫艺术性的物理超度”)
  • 元素爆发:开大瞬间全员获得”看戏buff”(队友:我们到底是来打架还是来捧场的?)
  • 人物轶事

  • 曾经因为演出太过投入,一枪戳穿了戏台的背景板(后来这笔维修费记在了往生堂账上)
  • 在轻策庄巡演时,用戏腔吓跑了一整窝骗骗花(”它们大概觉得我在念驱魔咒语”)
  • 和辛焱组过限定乐团,结果把摇滚live变成了”戏曲×重金属灾难现场”
  • “接下来这出戏叫——《你这个血量不太对劲》”——云堇对深渊法师的最后一句话这位角儿用实力证明:在提瓦特大陆,最危险的职业不是冒险家,而是…不好好唱戏就揍你的戏曲演员
    上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

    当AI学会了”星际迷航”的相位锁定技术!

    香港大学和快手可灵团队的发明令人”眼镜掉落”

    你有没有看过那些疯狂晃动的镜头,但里面的东西却像被施了魔法一样纹丝不动?这不是什么超自然现象,而是香港大学和快手可灵研究团队的最新杰作——他们把整个场景变成了记忆体

    技术亮点直击

  • 这项名为”上下文即记忆”(Context-as-Memory)的技术就像一个喝了10杯咖啡的图书管理员,把画面中的每个元素都记得清清楚楚
  • 就算摄影师手抖得像在坐过山车,AI也能把场景元素钉在原地,比502胶水还牢固
  • 就像给整个场景穿上了防抖瑜伽裤,任你怎么扭,核心永远稳定
  • 研究人员可能偷偷看了太多科幻电影,不然怎么想到把记忆功能塞进视频里?这项技术一出,估计连PDCA都想来面试工作了!
    想象一下,甚至可以把这项技术用来稳定我那个永远对不准焦的男朋友——至少拍照时他能乖乖站好了!上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

    嘿,他们居然记得每一次视频的”前世今生”!

    这帮搞AI的家伙有点东西啊——他们把历史的每一帧画面都当成了”记忆”,然后像我们翻旧照片一样,需要的时候就快速翻出来对比一下,精准匹配当前正在制作的画面。

  • 具体来说:*
  • 记忆超速存取: 就像大脑能快速回想过去相似的场景一样,他们的系统能瞬间在”历史相册”中找到相关性最强的旧画面。
  • 一致性复制大师: 然后用这些历史画面作为参考,确保新生成的片段和老画面风格一致——从光线到物件位置都不跑偏!
  • 节省算力达人: 不需要从头开始渲染每一个细节,直接借鉴历史经验,效率咔咔提升!
  • 妙就妙在他们把过去的每一帧都变成了未来制作的”金手指”!*
  • 上下文记忆与记忆检索

    视频记忆大作战:动态 vs 静态谁的戏更多?

    好家伙,视频生成这玩意儿竟然还有“记忆”?没错!就跟人类一样,视频模型也得记住点东西才能不穿帮。今天我们就来扒一扒视频里的两类记忆——动态静态,顺便看看Context-as-Memory是怎么在这两位“记忆大师”中间玩转套路的!

  • Round 1:动态记忆 vs 静态记忆

    动态记忆(Dancing Queen)

  • 特长:专门记运动轨迹和即兴表演!
  • 代表作:角色扭屁股、车子漂移、雨滴砸脸、树叶抽风……
  • 名言:“别管什么大场景,老娘只管这一刻的疯狂!”
  • 静态记忆(佛系老干部)

  • 特长:负责一切躺平不动的玩意儿。
  • 代表作:建筑物死宅不动、游戏地图雷打不变、角色模型万年一张脸……
  • 名言:“风吹雨打?随便吧,反正我不动。”
  • 胜负已分?不不不!真正的挑战才刚刚开始!*
  • Round 2:记忆太长了,怎么选?

    长视频就像一部《权游》,动不动上千帧,总不能一股脑全部塞进内存吧?(电脑:求求你别这样!)
    于是,Context-as-Memory闪亮登场!它的核心思路就是:“别瞎记,挑重点!” 具体来说,它有三大绝技:

  • 长期记忆是刚需
  • 模型若只看最近几帧,那和追剧光看最后一集有什么区别?
  • 对策:把时间拉长,回顾历史,不能让背景一会是古堡一会变快餐店!
  • 聪明人的记忆检索术
  • 现实问题:所有历史帧都存?不可能!硬盘贵着呢!
  • 解决方案:搞个“记忆检索”模块,自动筛出有用信息,丢到输入里参考。
  • 比喻:看电影不会拿整部片去逐帧分析,只记关键台词!
  • 上下文拼接大法
  • 操作方式:把筛选出的记忆帧直接贴在输入帧后面,让模型不至于失忆!
  • 效果:场景一致性稳稳的,角色换个角度依然是他自己,不会突然长出第三只眼!
  • Final Round:谁赢了?

    动态记忆负责蹦迪,静态记忆负责镇场,而Context-as-Memory则是那个永远清醒的DJ,确保整场派对不崩盘!
    总而言之:

  • 想要狂拽酷炫的动态效果?靠动态记忆
  • 想让场景稳定不穿帮?靠静态记忆
  • 想让长视频不乱套?Context-as-Memory是你永远的神!
  • 上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

    当AI导演开始玩”极限记忆”:摄像机轨迹搜索大揭秘

    想象一下,你家的AI突然决定拍一部史诗级长片,但它的”大脑”内存比金鱼还小。怎么办呢?总不能让它像某些人类导演一样,拍到第三集就忘了第一集反派长啥样吧?

    1. 记忆检索:AI版的”断舍离”

    传统的视频生成模型有两个极端:

  • 金鱼模式:只看最近几帧,结果生成的画面里,角色上一秒在吃饭,下一秒突然开始太空漫步
  • 大象模式:试图记住所有画面,结果电脑风扇转得比直升机还响
  • 于是研究人员发明了“记忆检索”模块——相当于给AI装了个智能遥控器,让它能在无限长的”历史频道”里精准切到有用的片段。

    2. 摄像机轨迹搜索:AI成了斯坦尼康大师

    既然不能全记,也不能瞎记,那怎么选关键帧?以往的土方法包括:

  • 抽签法(随机选帧)
  • 近视眼法(只看最近的)
  • 压扁法(把全部历史压缩成马赛克)
  • 但这几位选手很快就被淘汰了,因为——
    AI评委:”请问你们是如何做到既忽略重点又保留所有噪点的?”最后胜出的是“摄像机轨迹搜索”,这套方法的神奇之处在于:

  • 先把历史画面变成”子弹时间”
  • 像《黑客帝国》里尼奥躲子弹那样,分析每一帧镜头的运动轨迹

  • 然后玩”连连看”
  • 找出那些镜头运动方向突变的关键帧(比如从横移突然变成推进)

  • 最后搞”记忆快照”
  • 把这些转折点的画面存入”记忆银行”,其他普通帧直接忽略

    3. 效果对比:从B级片到好莱坞

    测试结果证明:

  • 随机选帧生成的视频:像学生作业,主角的手臂时有时无
  • 轨迹搜索生成的视频:诺兰看了都要问”你们缺投资人吗?”
  • 最绝的是*——这个方法甚至能处理”画中画”场景。比如历史画面里有个电视正在播新闻,AI会自动锁定电视里的主播,而不是把整个客厅都记住。这大概就是数字时代的”抓重点”吧!
  • (注:未来版本或将增加”导演脾气模拟”功能,当生成的画面不够好时,AI会自动删除全部素材并大喊”再来一条!”)
    上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

    摄像机魔术师的秘密配方

    你们以为拍电影就是扛着摄像机到处跑吗?太天真了!来看看这群科技”巫师”是怎么玩转画面的:

  • “看我七十二变”选帧术:他们让摄像机像跳探戈一样前后摆动,然后像挑西瓜一样敲敲过去的帧和未来的帧,专挑那些”重叠度高”的好瓜当配料。
  • “游戏引擎变身科研神器”:为了搞到带姿势标记的视频,这群人居然用Unreal Engine 5造了个数据食堂——100个视频大餐,12道不同风味的场景,每道菜都有7601帧的”像素面条”。
  • “字幕自动流水线”:每77帧就有一个AI小秘书赶来贴字幕,勤快得像个不拿工资的打工人。
  • 最搞笑的是他们的摄像机运动设计——像一个被绑在椅子上的摄影师:

  • 只能左右摇头(假装在拍网球比赛)
  • XY平面上蠕动(像极了试图挪动办公椅的你)
  • Z轴上转转脑袋(活脱脱一个困惑的猫头鹰)
  • 这下知道为什么科幻片里的镜头那么稳了吧?因为真实的摄像机运动可能比你的办公室椅子的活动范围还有限!

    实验结论

    “视频生成方法大混战:谁才是真正的记忆大师?”

    最近,有一群科学家决定举办一场”视频生成界选美大赛”,看看哪种方法最能记住历史——Context-as-Memory(CaM) 带着自己的绝技,准备挑战其他几个参赛选手。让我们来看看这些竞争者们都有哪些”记忆绝招”:

    参赛选手名单

  • 单帧健忘症选手
  • 口头禅:“我只看第一帧,后面的全凭感觉!”
  • 特点:不管视频多长,它只记得开头那张照片,剩下的全靠想象力填充。
  • 随机抽帧选手
  • 口头禅:“随便选几帧,看看是不是够用!”
  • 绝招:把第一帧和一些随机抽选的历史帧一起丢进模型,试图假装记忆力很好。
  • DFoT(Dance Floor on Tour)选手
  • 口头禅:“最新20帧,新鲜热辣的!超过的部分直接忘掉!”
  • 特点:像个健忘的DJ,只保留最新的20帧,超出这个窗口大小的?抱歉,已经格式化啦!
  • FramePack 打包狂魔
  • 绝招:“压缩!再压缩!直到变成马赛克!”
  • 策略:把一堆帧拼命压扁,变成两帧,但每次压缩都会像截图拉分辨率一样——越来越糊
  • 比赛结果:谁是大赢家?

    最终,Context-as-Memory(CaM) 凭借不丢帧、不乱压、不健忘的智能存储方法,成功坐上冠军宝座!
    其他选手要么记太少(DFoT),要么记太杂(随机抽帧),甚至有人干脆摆烂(单帧)……看来,在视频生成界,记忆力不等于瞎记!
    上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

    科研论文?更像是情景喜剧!

    最近的研究团队似乎在玩一场“视频生成马拉松”——他们的新方法Context-as-Memory(简称CaM)简直像个记忆力超群的学霸邻居,不仅把以往的基线方法SOTA方法虐得体无完肤,还在“避免健忘症”和“防止啰嗦病”两项指标上拿了个双百!

    关键发现

  • 记忆能力:CaM就像装了固态硬盘的大脑,一点儿历史信息都不丢!(基线和SOTA方法:我的缓存呢?)
  • 生成长视频:它不仅记得住,还能保持剧情连贯性——想象一下你追的剧主角突然换了发型却不解释,CaM绝不会让这种事发生!
  • 泛化测试:为了证明自己不是“只会背书的书呆子”,团队还从互联网抓图当开头,用“左右摇镜”这种电影导演最爱的轨迹验证。结果?CaM淡定表示:“随便什么风格,我都能Hold住。”
  • 看来,未来的AI视频生成不仅不会前言不搭后语,还可能自带奥斯卡剪辑水平……前提是它别突然决定给自己加戏。
    上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

  • 学术论文秒变脱口秀?记忆大师的新玩法*
  • 研究表明,Context-as-Memory这家伙在开放的社交场合里,记忆力简直比隔壁大妈记八卦还厉害。
    几个有趣的点:

  • 它就像个永远不用充电的”人肉硬盘”,啥都能装
  • 比起金鱼的7秒记忆,它能记住的内容简直可以写本百科全书
  • 最关键的是,它不会像人类一样”选择性失忆”,该记住的绝对不落下
  • (友情提示:如果你也在派对上遇到这么能记事的家伙,最好管住自己的嘴)

    One More Thing

    当学术大佬遇上短视频巨头:一位博士生的大冒险

    谁说科研必须是枯燥乏味的?看看这位来自香港大学的在读博士生余济闻同学,人家可不是普通的学霸!他的日常除了在刘希慧教授的指导下钻研学术外,还在快手可灵团队担任研究实习生,接受王鑫涛博士的指导。

    这位同学的履历有多魔幻?

  • 学术主场:香港大学正经博士生一枚,师从刘希慧教授,显然是个搞研究的狠人。
  • 实习副业:跑去快手可灵(没错,就是那个让你刷短视频停不下来的可灵)当研究实习生,妥妥地横跨学术界和产业界。
  • 双重导师Buff加持:一边是大学教授指点迷津,一边是业内大牛王鑫涛博士传授实战经验,这配置简直就像游戏里的双天赋加点
  • 本次论文的背景故事

    这篇论文可不是一个人在战斗,而是集结了香港大学、浙江大学和快手可灵团队的联合研究成果。想象一下,三股势力(高校+科技公司)联手出击,大概就像是复仇者联盟研究人工智能吧!
    总之,这位余济闻同学证明了:

  • 学术可以是快乐的(毕竟还掺和了短视频产业)。
  • 博士生并非都是实验室里的苦行僧(也可能在刷快手找灵感)。
  • 跨界才是王炸!(高校+企业合作,知识变现指日可待。)
  • 期待这位同学未来的研究成果——说不定哪天你在快手上刷到的某一条精准推送,就有他的算法功劳呢!
    上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!

    这位学术界的”哪吒”又双叒叕搞事情了!

  • 你知道吗?* 这位师兄可真是”师出名门”——在未名湖畔的北京大学镀了层硕士金,拜在鼎鼎大名的张健教授门下修炼过。看来”神仙打架”的学术圈,装备必须得从顶级学府开始攒啊!
  • 要说他最近这篇关于”上下文记忆“的论文,那可是个”续集”专业户的作品集锦:

  • 前有互动视频生成
  • 后有世界模型
  • 现在又来个具身人工智能
  • 活脱脱一个学术版的”漫威宇宙”!
    最绝的是他之前的GameFactory研究,简直像个”学术界的造梦工厂”,居然能把生成式互动视频玩出游戏制造的新花样。这么天马行空的idea,难怪入选了ICCV 2025 Highlight,估计评审们都惊掉了下巴:
    “这哥们儿是把学术论文当科幻小说写呢?”(内容来源于”量子位”公众号,作者是那个总能挖出科技圈猛料的henry)

    © 版权声明

    相关文章