AI作画也能”从一而终”了!解锁《塞尔达传说》同款场景稳定术
“早上画个林克还挺帅,下午就变成杀马特”这种翻车事故要成为历史啦!最近的技术进步简直像给AI喂了一筐”记忆面包”,来看看《塞尔达传说》同款绿色田野的惊艳表现:
场景稳定度爆表的三重buff
对比传统AI的”精分现场”
传统AI | 新版AI |
---|---|
同一场景生成三次可能是草原/沙漠/海底 | 保持着90%以上的场景辨识度 |
NPC换个角度就整容 | 林克转个身还是那个”啊哈!”少年 |
远景近景风格断层 | 近看远处的神庙依然细节在线 |
下次当你看到AI生成的场景时,说不定会恍惚:”这真的是程序画的吗?怎么比我记路还靠谱!”
《黑神话悟空》里的这座破庙,是开发商顺手盖的吗?
荒废的寺庙,在《黑神话悟空》里堪称“怪物的长租房”。玩家走进去之前,必须默念三遍:“这里不会突然蹦出个妖怪吧?”然而现实往往更残酷——妖怪不仅会蹦出来,还会热情地请你喝茶(或者请你喝西北风)。
这座庙的卖点
玩家攻略指南
总之,《黑神话悟空》里的废庙,完美诠释了“危险系数与建筑的破败程度成正比”这一真理。祝各位探险愉快——别被妖怪当房租收了就行!
《戏台上的风暴——云堇登场》
“谁说戏子无情?我这戏服里可藏着机关!”
这位璃月港的名角儿可不是一般的戏曲演员——她能把戏台变成战场,把水袖甩出剑气,更能在唱到高潮时突然掏出长枪给你来个”即兴武打”。
人物轶事
“接下来这出戏叫——《你这个血量不太对劲》”——云堇对深渊法师的最后一句话这位角儿用实力证明:在提瓦特大陆,最危险的职业不是冒险家,而是…不好好唱戏就揍你的戏曲演员。
当AI学会了”星际迷航”的相位锁定技术!
香港大学和快手可灵团队的发明令人”眼镜掉落”
你有没有看过那些疯狂晃动的镜头,但里面的东西却像被施了魔法一样纹丝不动?这不是什么超自然现象,而是香港大学和快手可灵研究团队的最新杰作——他们把整个场景变成了记忆体!
技术亮点直击
研究人员可能偷偷看了太多科幻电影,不然怎么想到把记忆功能塞进视频里?这项技术一出,估计连PDCA都想来面试工作了!
想象一下,甚至可以把这项技术用来稳定我那个永远对不准焦的男朋友——至少拍照时他能乖乖站好了!
嘿,他们居然记得每一次视频的”前世今生”!
这帮搞AI的家伙有点东西啊——他们把历史的每一帧画面都当成了”记忆”,然后像我们翻旧照片一样,需要的时候就快速翻出来对比一下,精准匹配当前正在制作的画面。
上下文记忆与记忆检索
视频记忆大作战:动态 vs 静态谁的戏更多?
好家伙,视频生成这玩意儿竟然还有“记忆”?没错!就跟人类一样,视频模型也得记住点东西才能不穿帮。今天我们就来扒一扒视频里的两类记忆——动态和静态,顺便看看Context-as-Memory是怎么在这两位“记忆大师”中间玩转套路的!
Round 1:动态记忆 vs 静态记忆
动态记忆(Dancing Queen)
静态记忆(佛系老干部)
Round 2:记忆太长了,怎么选?
长视频就像一部《权游》,动不动上千帧,总不能一股脑全部塞进内存吧?(电脑:求求你别这样!)
于是,Context-as-Memory闪亮登场!它的核心思路就是:“别瞎记,挑重点!” 具体来说,它有三大绝技:
Final Round:谁赢了?
动态记忆负责蹦迪,静态记忆负责镇场,而Context-as-Memory则是那个永远清醒的DJ,确保整场派对不崩盘!
总而言之:
当AI导演开始玩”极限记忆”:摄像机轨迹搜索大揭秘
想象一下,你家的AI突然决定拍一部史诗级长片,但它的”大脑”内存比金鱼还小。怎么办呢?总不能让它像某些人类导演一样,拍到第三集就忘了第一集反派长啥样吧?
1. 记忆检索:AI版的”断舍离”
传统的视频生成模型有两个极端:
于是研究人员发明了“记忆检索”模块——相当于给AI装了个智能遥控器,让它能在无限长的”历史频道”里精准切到有用的片段。
2. 摄像机轨迹搜索:AI成了斯坦尼康大师
既然不能全记,也不能瞎记,那怎么选关键帧?以往的土方法包括:
但这几位选手很快就被淘汰了,因为——
AI评委:”请问你们是如何做到既忽略重点又保留所有噪点的?”最后胜出的是“摄像机轨迹搜索”,这套方法的神奇之处在于:
像《黑客帝国》里尼奥躲子弹那样,分析每一帧镜头的运动轨迹
找出那些镜头运动方向突变的关键帧(比如从横移突然变成推进)
把这些转折点的画面存入”记忆银行”,其他普通帧直接忽略
3. 效果对比:从B级片到好莱坞
测试结果证明:
(注:未来版本或将增加”导演脾气模拟”功能,当生成的画面不够好时,AI会自动删除全部素材并大喊”再来一条!”)
摄像机魔术师的秘密配方
你们以为拍电影就是扛着摄像机到处跑吗?太天真了!来看看这群科技”巫师”是怎么玩转画面的:
最搞笑的是他们的摄像机运动设计——像一个被绑在椅子上的摄影师:
这下知道为什么科幻片里的镜头那么稳了吧?因为真实的摄像机运动可能比你的办公室椅子的活动范围还有限!
实验结论
“视频生成方法大混战:谁才是真正的记忆大师?”
最近,有一群科学家决定举办一场”视频生成界选美大赛”,看看哪种方法最能记住历史——Context-as-Memory(CaM) 带着自己的绝技,准备挑战其他几个参赛选手。让我们来看看这些竞争者们都有哪些”记忆绝招”:
参赛选手名单
比赛结果:谁是大赢家?
最终,Context-as-Memory(CaM) 凭借不丢帧、不乱压、不健忘的智能存储方法,成功坐上冠军宝座!
其他选手要么记太少(DFoT),要么记太杂(随机抽帧),甚至有人干脆摆烂(单帧)……看来,在视频生成界,记忆力不等于瞎记!
科研论文?更像是情景喜剧!
最近的研究团队似乎在玩一场“视频生成马拉松”——他们的新方法Context-as-Memory(简称CaM)简直像个记忆力超群的学霸邻居,不仅把以往的基线方法和SOTA方法虐得体无完肤,还在“避免健忘症”和“防止啰嗦病”两项指标上拿了个双百!
关键发现
看来,未来的AI视频生成不仅不会前言不搭后语,还可能自带奥斯卡剪辑水平……前提是它别突然决定给自己加戏。
研究表明,Context-as-Memory这家伙在开放的社交场合里,记忆力简直比隔壁大妈记八卦还厉害。
几个有趣的点:
(友情提示:如果你也在派对上遇到这么能记事的家伙,最好管住自己的嘴)
One More Thing
当学术大佬遇上短视频巨头:一位博士生的大冒险
谁说科研必须是枯燥乏味的?看看这位来自香港大学的在读博士生余济闻同学,人家可不是普通的学霸!他的日常除了在刘希慧教授的指导下钻研学术外,还在快手可灵团队担任研究实习生,接受王鑫涛博士的指导。
这位同学的履历有多魔幻?
本次论文的背景故事
这篇论文可不是一个人在战斗,而是集结了香港大学、浙江大学和快手可灵团队的联合研究成果。想象一下,三股势力(高校+科技公司)联手出击,大概就像是复仇者联盟研究人工智能吧!
总之,这位余济闻同学证明了:
期待这位同学未来的研究成果——说不定哪天你在快手上刷到的某一条精准推送,就有他的算法功劳呢!
这位学术界的”哪吒”又双叒叕搞事情了!
要说他最近这篇关于”上下文记忆“的论文,那可是个”续集”专业户的作品集锦:
活脱脱一个学术版的”漫威宇宙”!
最绝的是他之前的GameFactory研究,简直像个”学术界的造梦工厂”,居然能把生成式互动视频玩出游戏制造的新花样。这么天马行空的idea,难怪入选了ICCV 2025 Highlight,估计评审们都惊掉了下巴:
“这哥们儿是把学术论文当科幻小说写呢?”(内容来源于”量子位”公众号,作者是那个总能挖出科技圈猛料的henry)