Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

AI资讯2个月前发布云知AI运营官

字节又双叒叕放大招！Sora2都颤抖的长视频黑科技

谁说AI生成视频只能用来做五秒的“闪送”？现在字节直接甩出一记王炸：4分钟超长丝滑视频，连Sora2看了都得连夜删号退网！

前方高能：AI版《海底总动员》来袭！

先别急着掏手机订机票，这支“潜水员Vlog”可不是人类拍的——

珊瑚？AI捏的！

鱼群走位？AI编的！

就连水波纹的反光……对不起，还是AI算的！

最离谱的是*：这破玩意儿居然一口气能跑4分钟不崩！对比某些AI工具“5秒就卡成PPT”的战斗力，简直是降维打击。

人类导演的失业倒计时？

（摸下巴）以后拍电影是不是只需要喂剧本，AI直接给你吐成片？

（突然警觉）等等，那电影字幕是不是也该写——“主演：GPU-4090”？

AI视频界的”马拉松选手”诞生了！字节和UCLA联手打造超长续航视频生成术

“你以为AI视频都是短视频界的兔子？错！这回来了个马拉松选手！”

这可不是你常见的那些“3秒真AI”短视频。让我们用掌声欢迎——长达1分40秒的全AI生成视频！全程无尿点（因为都是程序自己”尿”出来的）。

黑科技揭秘：Self-Forcing++

不用换模型，不用改架构：就像你用旧手机突然学会了5G

不用重新收集长视频数据：堪称AI界的”废物利用大师”

画质稳如老狗：告别那些看着看着就变成马赛克的”惊喜”

技术亮点

这技术居然懂得“自学成才”：

先找个AI老师补补课（利用教师知识）

再自己剪辑自己的视频作业（自生成视频片段指导）

最后像个学霸一样持续输出（自回归生成）

结果？最长能憋出4分15秒的视频！都快赶上短视频平台的时长限制了！

“尝尝鲜”系列

想象一下：

3分钟的无人机海岸线：AI一定偷偷考了无人机驾照

其他神秘视频：据说AI已经开始偷偷拍微电影了

(友情提示：看到突然出现导演字幕别惊讶，那是AI在尝试署名权！)*

这项技术还开源了，这意味着……你的电脑可能很快就会开始不分昼夜地渲染自己的”AI小电影”了！
Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

慢动作之旅——跟大象一起”散步”看草原

想体验最慵懒的非洲Safari吗？这个视频给你的不是两倍速，而是超级慢放——整整4分15秒的超长镜头，让你跟着大象的脚步沉浸式感受草原风光！

为什么这么慢？

大象的标准步伐：人家一步抵你五步，所以必须放慢才能真正感受那份”大佬气场”。

草原版ASMR：细听风声、鸟叫、草叶摩擦声，堪比最治愈的白噪音。

强迫症友好：一步一步……再一步……完美踩点，极度舒适！

你将看到

大象的大长腿：近距离观察它们走路时的”优雅晃动”。

草原实景IMAX：地平线、蓝天、微风，每一帧都能当桌面。

随机NPC动物：狮子和羚羊说不定会在背景客串，但大象依旧淡定前行。

温馨提示*：观看时建议配上薯片和饮料，毕竟这场”散步”比你的午餐时间还长！

当AI开始”掐头去尾”剪辑视频：一场数字世界的蝴蝶效应

前情提要

最近发现一个神奇现象：AI生成的短片开始自动”剪广告”了！这就像你妈突然学会了把你朋友圈的自拍修图——既惊喜又带着一丝诡异。

传统AI视频的”蚂蚁视角”

以前的技术做的长视频就像：

一只蚂蚁拿着GoPro拍的《蚁人》番外篇

画面仿佛在说：”我这辈子走过的路都没这么抖过”

每一帧都在挑战人类动态视力的极限

全新AI剪辑的三大魔幻功能

自动去广告 – 连AI都受不了”是兄弟就来砍我”

智能运镜 – 终于不再像 drunken master(醉拳)拍摄

节奏把控 – 把30秒视频剪出了好莱坞预告片的气质

幕后真相

算法工程师：”我们只是教会了AI刷抖音的正确姿势”

特效师失业预警：”以后连转场特效都要跟AI卷了”

网友锐评：”建议下次让AI学会把方便面广告里的牛肉P成真的”

这场AI视频革命让我想起小时候偷看电视要记住遥控器位置——现在连AI都学会帮我们”毁灭证据”了！
Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

AI电影革命即将到来？Self-Forcing++凭一己之力开启新纪元！

震惊！Self-Forcing++居然拿下了”All Kill”成就

听说最近AI圈子出了个狠角——Self-Forcing++，不仅能像它大哥Self-Forcing一样在短时长上呈现高清无码（咳咳，我是说高质量画面），还能在长片生成上达成”性能指标All Kill“！这是什么概念？就是别的AI还在为长视频画面崩溃挠头时，它已经优雅地端着咖啡说：”就这？”

竞争对手纷纷自闭

曾经叱咤风云的CausVid等方法突然发现自己被降维打击了：”我们好不容易让视频不崩盘就已经烧高香了，结果你告诉我Self-Forcing++不仅画面稳如老狗，还能长篇大论不乱帧？这不科学！”
老实说，看到这里我已经在脑子里播放《碟中谍》主题曲了——AI版的汤姆·克鲁斯怕是要开始爬电影的悬崖峭壁了！

技术揭秘

虽然咱不懂具体是怎么做到的（毕竟咱只是个吃瓜群众），但可以肯定的是：

短时长： 继承了Self-Forcing的老派优雅，高清画质稳得一批。

长时长： 不再是你熟悉的”开头精致，三秒后崩坏”，而是真正的”从头稳到尾”。

视觉稳定性： CausVid看了都得退群的水平。

难不成AI电影真的要来了？那以后好莱坞是不是该担心失业潮了？”您要找导演？哦，抱歉，他现在正在AI修理厂保养呢。”

最后，大胆预测

也许再过几年，我们就能看到：

AI导演的处女作摘得奥斯卡（并发表一段代码写的获奖感言）。

演员们集体转型AI视频补帧师（”这个表情不行，给我再渲染20遍！”）。

电影预告片的最后不再写”Coming Soon”，而是”Training Now”……

科幻迷狂喜，行业人挠头，吃瓜群众狂吹：Self-Forcing++，真有你的！*

从5秒到4分15秒

AI短视频为啥「帅不过三秒」？

朋友们，你们有没有发现一个奇怪的现象？
现在的AI视频生成技术简直令人叹为观止——你能看到猫咪戴着宇航员头盔在月球上跳芭蕾，也能看到马斯克穿着清朝官服用四川话讲相声。画面精致到让人怀疑自己的眼睛！
然而…这些视频通常只有5到10秒，就好像AI的创作激情只能维持一个「短视频平台黄金时间」。稍微长一点的视频？那简直就是一部「画质跳水」的灾难大片——开头美如画，结尾糊成渣！

为什么AI视频「昙花一现」？

「记忆力」堪忧：目前的主流AI视频模型（比如Sora2、字节Wan）都是基于Transformer架构工作的。简单来说，它们就像是个「超级会画画的金鱼」——只有7秒记忆！

误差滚雪球：每次生成新一帧画面时，前几帧的小错误会像「食堂大妈手抖」一样不断累积，最后导致画面彻底崩坏。

长视频训练太难了：传统方法需要「让AI看长视频学习」，但这就像要求小学生直接读《百年孤独》——看不懂啊！

字节的「自我PUA」大法

为了解决这个问题，字节跳动的天才们提出了 Self-Forcing++（你可以理解为「AI界的斯巴达教育」）：

不靠老师靠挨打：不再依赖完美的「长视频老师」做示例

在错误中成长：让AI自己生成长视频，然后看着自己的「翻车现场」反思改进

越挫越勇：反复练习后，AI终于学会了「坚持更久不崩」的秘诀

现在你知道为什么那些炫酷的AI视频都那么短了吧？因为它们正在努力练习憋气呢！
Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

让AI拍电影不翻车的神奇三招

1. 反向噪音初始化：从”百米冲刺”到”慢动作回放”

想象一下，你让一个小学生先一口气写完100秒的作文，然后老师拿着橡皮擦开始疯狂涂改——这就是反向噪音初始化的精髓！

学生模型：先莽一波，生成100秒的超长”干净”视频（虽然可能像毕加索的抽象画）。

老师：淡定地掏出”噪音喷雾”，按照科学配方往画上喷点随机艺术感（术语叫扩散噪声调度）。

结果：学生既学会了长跑（生成长视频），又掌握了涂鸦防手抖的技巧（稳定降噪）。

2. 扩展分布匹配蒸馏：抽卡式学习法

老师不想盯着100秒全程录像，而是像短视频刷屏一样随机抽5秒检查作业：

随机截取：从学生生成的素材里随便划拉5秒（比如第37秒到42秒，专挑容易翻车的部分）。

灵魂拷问：用KL散度（别名：”你和学霸的差距计算器”）对比这段和老师模型的输出。

目标：让学生偷偷模仿学霸的笔记风格，还不会被抓包（最小化差异）。

3. 滚动KV缓存：AI的”七秒记忆”训练营

给模型装上金鱼般的滚动记忆库，边忘边学：

训练时：缓存就像小本本，记下超长内容方便扩展DMD计算（但只认真复习最近几页）。

推理时：模型靠缓存”作弊小抄”假装自己记得住，实则悄悄迭代升级。

终极哲学：在”犯错→被纠正→继续犯错”的循环中，AI终于悟出真理——稳如老狗的关键是会删备忘录。

总结

这三招的终极奥义是：先放飞自我，再精准挨打，最后学会选择性失忆。从此，AI拍视频再也不会前5秒是猫，后5秒变土豆了！
Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

技术改良：让AI视频不再”失忆”的奇妙之旅

问题篇：当AI也开始”健忘”

想象一下，你正在看一部由AI制作的视频，主角上一秒还在优雅地跳舞，下一秒突然忘记自己有几条腿——这就是“长时记忆丢失”的悲剧现场。

为什么会这样？*

滑动窗口的锅：AI模型就像金鱼，只能记住最近几帧的内容，远处的画面？早扔进”记忆黑洞”了。

注意力稀疏的尴尬：让它专注关键帧？结果它专注过头，直接忽略了其他细节，画面顿时像PPT卡帧。

解决方案篇：给AI装个”运动传感器”

这时候，组相对策略优化（GRPO）闪亮登场！它就像给AI导演配了一个严格的场记+动作指导，确保视频不会突然”抽风”。

具体怎么操作？*

计算重要性权重：AI每生成一帧，GRPO就给它打个分：”这条腿还在吗？脸没崩吧？”

优化对数概率总和：确保AI的策略不仅合理，还要足够”丝滑”，不能前脚正常走路，后脚突然太空步。

光流运动监督：拿相邻帧的光流（也就是运动轨迹）当尺子，AI要是敢让角色瞬移，GRPO就让它回炉重造！

效果篇：从PPT到好莱坞级的蜕变

经过GRPO的调教，AI生成的视频终于：
不再失忆：主角从头到尾记得自己有几只手。
运动连贯：走路像走路，跳舞像跳舞，而不是抽搐式癫痫表演。
减少突变：告别”我眨眼他怎么就换了一套衣服”的灵异现象。
总之，GRPO让AI视频从”抽象派”进化到了”能看派”，可喜可贺！
Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

学霸AI给”假正经”视频打分，结果笑翻全场！

原以为AI评判视频会一本正经，没想到Gemini-2.5-Pro这位”评委大人”直接上演了一出”评分界的脱口秀”！

研究发现：*

以前的VBench基准像个老花眼老太太，经常把闪瞎眼的”曝光过度”视频误认成帅哥靓女

Gemini评委显然近视度数比较合适，上来就指出：”这位同学，你这不是拍电影，是在拍闪电侠吧？”

100分评分制下，那些自以为很”稳定”的视频们终于面临了残酷的现实

评分维度大揭秘：*

过曝光程度 – “这亮度是要让我看视频还是看太阳？”

误差积累 – “剧情不错，就是抖得我以为自己喝大了”

最后的实验结果证明了Gemini评委的眼光之毒辣，简直是视频届的”照妖镜”！从此以后，每个视频都要在AI评委面前乖乖接受灵魂拷问：”你到底是艺术创作，还是电源插头没插稳？”

兼顾时长和质量

科学家的奇妙实验：5秒短视频的”选美大赛”*

各位观众朋友们，今天我们来看看一群疯狂的研究人员在实验室里搞出了什么好玩的：

两大门派巅峰对决

一方是新晋”网红”方法，另一方是老牌”高富帅”基准模型（包含自回归模型和它的远房表哥双向模型）

就像让孙悟空和灭霸打架一样刺激

长短视频测评专场

短时长赛道：专门设立了5秒短视频”快闪”专区

评委阵容：高达946位”毒舌”提示词评委

评判标准：16个维度全方位360度无死角打分

从画质到创意

从流畅度到是不是让人想点赞

长时长赛道：则是考验谁能把故事讲得更久不翻车（不过这部分我们先按下不表）

这群严谨的科学工作者，愣是把AI测评搞得像综艺选秀一样热闹！*

Self-Forcing++：短视频界的”逆袭黑马”

惊人的成绩单：*

语义得分：80.37分（直接吊打NO.1天团NOVA、SkyReels-V2和CausVid）

总得分：83.11分（就差那么一丢丢就能追上Wan2.1的84.67分）

这说明了啥？*

虽然Self-Forcing++这孩子压根都没专门学过”短视频”这门课（就像是数学系的跑去参加了物理竞赛），但人家愣是在短视频这个赛道上跑出了刘翔般的跨栏速度：

视觉质量稳如老狗 – 画面清晰得让你怀疑人生

语义一致性杠杠的 – 说啥就是啥，绝不含糊

简直就是AI界的”偏科天才”，不务正业都能玩得这么溜！
Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

「科学数据也疯狂」之大比拼

当50秒一到，这家伙的视觉稳定性直接飙到90.94分！简直是学霸附体！相比那两个可怜巴巴的CausVid（40.47）和Self-Forcing（40.12），简直就像奥运冠军对比小区运动会选手，毫无悬念！
更搞笑的是，那所谓的动态程度，竟然比Self-Forcing高1.6倍，好像在喊：”嘿！我比你还能蹦跶！”
再看文本对齐得分（26.37），默默超过了大部分同行，简直就是那个躲在角落里偷偷进步，最后考试成绩让所有人震惊的「黑马」！
结论：这家伙在中长时长的战斗里，不仅能稳如泰山，还能蹦跶得风生水起！简直就是AI界的大佬级选手！
Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

“75秒到100秒的视频生成：我们的模型比咖啡还提神！”

数字会说话，但我们先翻译成人话

文本对齐得分26.04：比CausVid高出6.67%，意思是如果它们是两位学生提交的语文作业，我们的版本能让老师少叹一口气。

动态程度54.12：暴涨56.4%碾压CausVid，相当于从老年迪斯科突然切到嘻哈Battle现场。

对战Self-Forcing？：我们直接怒刷存在感——动态翻倍（+104.9%），文本对齐也高出18.36%，堪称AI界的降维打击。

视觉效果：稳如老狗

视觉稳定性84.22，是Self-Forcing（32.03）的2.6倍，也就是说，它们的画面像宿醉后的手机录像，而我们的是三脚架+防抖云台。

Framewise质量60.66：和基准模型差不多，证明即使视频长到能播完一首《 Bohemian Rhapsody》，我们依旧拒绝画质崩成“马赛克艺术”。

总结*：别人的模型在75秒后可能开始怀疑AI生，而我们的——还在优雅微笑，稳得仿佛刚喝了AI版红牛。

Self-Forcing++：让你的视频不再卡得像PPT！*

终于有一项技术不再是“前5秒帅炸，后半段拉胯”！Self-Forcing++就像一个不知疲倦的马拉松选手，一路狂奔4分15秒都不带喘，把原先只能憋5秒的老系统甩开50条街。

这款神器的亮点在哪里？

完全根治“僵尸运动”症：其他长视频生成动不动就僵在原地，仿佛被按了暂停键。Self-Forcing++却能全程丝滑运动，堪比吃了德芙！

画质永不滑坡：别人的视频越播越糊，像在看20年前的VCD。它却稳如老狗，亮度、细节全程在线，简直是强迫症福音！

一致性碾压同行：对比那些“开头像科幻片，结尾像鬼片”的基线方法，Self-Forcing++仿佛有个严格的导演，从头到尾不给演员崩戏的机会。

科学家狂喜表示*：这次真的不是实验室限定产品了！50倍的提升，约等于从“只能拍短视频的乙方”进化成“好莱坞专业团队”。

（小声说：详情请自行谷歌研究，毕竟咱们的重点是幽默，不是学术汇报。）*

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

AI意识「觉醒」！图灵得主Bengio重磅发声：AI正接近人类意识临界点

# AI # AI新闻 # AI资讯

2个月前

7710

独家｜被Manus收购再创业！95后团队「InferNet」获锦秋基金独家投资，曾打造85.5k Star明星项目

# AI # AI新闻 # AI资讯

2个月前

7,6600

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

# AI # AI新闻 # AI资讯

2个月前

4,1350

马斯克的最快AI模型来了

# AI # AI新闻 # AI资讯

2个月前

4,2540

Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

字节又双叒叕放大招！Sora2都颤抖的长视频黑科技

前方高能：AI版《海底总动员》来袭！

人类导演的失业倒计时？

AI视频界的”马拉松选手”诞生了！字节和UCLA联手打造超长续航视频生成术

“你以为AI视频都是短视频界的兔子？错！这回来了个马拉松选手！”

黑科技揭秘：Self-Forcing++

技术亮点

“尝尝鲜”系列

慢动作之旅——跟大象一起”散步”看草原

为什么这么慢？

你将看到

当AI开始”掐头去尾”剪辑视频：一场数字世界的蝴蝶效应

前情提要

传统AI视频的”蚂蚁视角”

全新AI剪辑的三大魔幻功能

幕后真相

AI电影革命即将到来？Self-Forcing++凭一己之力开启新纪元！

震惊！Self-Forcing++居然拿下了”All Kill”成就

竞争对手纷纷自闭

技术揭秘

最后，大胆预测

从5秒到4分15秒

AI短视频为啥「帅不过三秒」？

为什么AI视频「昙花一现」？

字节的「自我PUA」大法

让AI拍电影不翻车的神奇三招

1. 反向噪音初始化：从”百米冲刺”到”慢动作回放”

2. 扩展分布匹配蒸馏：抽卡式学习法

3. 滚动KV缓存：AI的”七秒记忆”训练营

总结

技术改良：让AI视频不再”失忆”的奇妙之旅

问题篇：当AI也开始”健忘”

解决方案篇：给AI装个”运动传感器”

效果篇：从PPT到好莱坞级的蜕变

学霸AI给”假正经”视频打分，结果笑翻全场！

兼顾时长和质量

Self-Forcing++：短视频界的”逆袭黑马”

「科学数据也疯狂」之大比拼

“75秒到100秒的视频生成：我们的模型比咖啡还提神！”

数字会说话，但我们先翻译成人话

视觉效果：稳如老狗

这款神器的亮点在哪里？

重生之在《我的世界》做山姆·奥特曼：网友在线手搓ChatGPT

推理token减少46%！Meta新方法缩短思维链，告别重复推导

相关文章

AI意识「觉醒」！图灵得主Bengio重磅发声：AI正接近人类意识临界点

独家｜被Manus收购再创业！95后团队「InferNet」获锦秋基金独家投资，曾打造85.5k Star明星项目

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

马斯克的最快AI模型来了

暂无评论

搜索文章

热门文章