700
0

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

字节又双叒叕放大招!Sora2都颤抖的长视频黑科技

谁说AI生成视频只能用来做五秒的“闪送”?现在字节直接甩出一记王炸:4分钟超长丝滑视频,连Sora2看了都得连夜删号退网!

前方高能:AI版《海底总动员》来袭!

先别急着掏手机订机票,这支“潜水员Vlog”可不是人类拍的——

  • 珊瑚?AI捏的!
  • 鱼群走位?AI编的!
  • 就连水波纹的反光……对不起,还是AI算的!
  • 最离谱的是*:这破玩意儿居然一口气能跑4分钟不崩!对比某些AI工具“5秒就卡成PPT”的战斗力,简直是降维打击。
  • 人类导演的失业倒计时?

  • (摸下巴)以后拍电影是不是只需要喂剧本,AI直接给你吐成片?
  • (突然警觉)等等,那电影字幕是不是也该写——“主演:GPU-4090”?
  • Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    AI视频界的”马拉松选手”诞生了!字节和UCLA联手打造超长续航视频生成术

    “你以为AI视频都是短视频界的兔子?错!这回来了个马拉松选手!”

    这可不是你常见的那些“3秒真AI”短视频。让我们用掌声欢迎——长达1分40秒的全AI生成视频!全程无尿点(因为都是程序自己”尿”出来的)。

    黑科技揭秘:Self-Forcing++

  • 不用换模型,不用改架构:就像你用旧手机突然学会了5G
  • 不用重新收集长视频数据:堪称AI界的”废物利用大师”
  • 画质稳如老狗:告别那些看着看着就变成马赛克的”惊喜”
  • 技术亮点

    这技术居然懂得“自学成才”

  • 先找个AI老师补补课(利用教师知识)
  • 再自己剪辑自己的视频作业(自生成视频片段指导)
  • 最后像个学霸一样持续输出(自回归生成)
  • 结果?最长能憋出4分15秒的视频!都快赶上短视频平台的时长限制了!

    “尝尝鲜”系列

    想象一下:

  • 3分钟的无人机海岸线:AI一定偷偷考了无人机驾照
  • 其他神秘视频:据说AI已经开始偷偷拍微电影了
  • (友情提示:看到突然出现导演字幕别惊讶,那是AI在尝试署名权!)*
  • 这项技术还开源了,这意味着……你的电脑可能很快就会开始不分昼夜地渲染自己的”AI小电影”了!
    Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    慢动作之旅——跟大象一起”散步”看草原

    想体验最慵懒的非洲Safari吗?这个视频给你的不是两倍速,而是超级慢放——整整4分15秒的超长镜头,让你跟着大象的脚步沉浸式感受草原风光!

    为什么这么慢?

  • 大象的标准步伐:人家一步抵你五步,所以必须放慢才能真正感受那份”大佬气场”。
  • 草原版ASMR:细听风声、鸟叫、草叶摩擦声,堪比最治愈的白噪音。
  • 强迫症友好:一步一步……再一步……完美踩点,极度舒适!
  • 你将看到

  • 大象的大长腿:近距离观察它们走路时的”优雅晃动”。
  • 草原实景IMAX:地平线、蓝天、微风,每一帧都能当桌面。
  • 随机NPC动物:狮子和羚羊说不定会在背景客串,但大象依旧淡定前行。
  • 温馨提示*:观看时建议配上薯片和饮料,毕竟这场”散步”比你的午餐时间还长!
  • Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    当AI开始”掐头去尾”剪辑视频:一场数字世界的蝴蝶效应

    前情提要

    最近发现一个神奇现象:AI生成的短片开始自动”剪广告”了!这就像你妈突然学会了把你朋友圈的自拍修图——既惊喜又带着一丝诡异。

    传统AI视频的”蚂蚁视角”

    以前的技术做的长视频就像:

  • 一只蚂蚁拿着GoPro拍的《蚁人》番外篇
  • 画面仿佛在说:”我这辈子走过的路都没这么抖过”
  • 每一帧都在挑战人类动态视力的极限
  • 全新AI剪辑的三大魔幻功能

  • 自动去广告 – 连AI都受不了”是兄弟就来砍我”
  • 智能运镜 – 终于不再像 drunken master(醉拳)拍摄
  • 节奏把控 – 把30秒视频剪出了好莱坞预告片的气质
  • 幕后真相

  • 算法工程师:”我们只是教会了AI刷抖音的正确姿势”
  • 特效师失业预警:”以后连转场特效都要跟AI卷了”
  • 网友锐评:”建议下次让AI学会把方便面广告里的牛肉P成真的”
  • 这场AI视频革命让我想起小时候偷看电视要记住遥控器位置——现在连AI都学会帮我们”毁灭证据”了!
    Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    AI电影革命即将到来?Self-Forcing++凭一己之力开启新纪元!

    震惊!Self-Forcing++居然拿下了”All Kill”成就

    听说最近AI圈子出了个狠角——Self-Forcing++,不仅能像它大哥Self-Forcing一样在短时长上呈现高清无码(咳咳,我是说高质量画面),还能在长片生成上达成”性能指标All Kill“!这是什么概念?就是别的AI还在为长视频画面崩溃挠头时,它已经优雅地端着咖啡说:”就这?”

    竞争对手纷纷自闭

    曾经叱咤风云的CausVid等方法突然发现自己被降维打击了:”我们好不容易让视频不崩盘就已经烧高香了,结果你告诉我Self-Forcing++不仅画面稳如老狗,还能长篇大论不乱帧?这不科学!”
    老实说,看到这里我已经在脑子里播放《碟中谍》主题曲了——AI版的汤姆·克鲁斯怕是要开始爬电影的悬崖峭壁了!

    技术揭秘

    虽然咱不懂具体是怎么做到的(毕竟咱只是个吃瓜群众),但可以肯定的是:

  • 短时长: 继承了Self-Forcing的老派优雅,高清画质稳得一批。
  • 长时长: 不再是你熟悉的”开头精致,三秒后崩坏”,而是真正的”从头稳到尾”。
  • 视觉稳定性: CausVid看了都得退群的水平。
  • 难不成AI电影真的要来了?那以后好莱坞是不是该担心失业潮了?”您要找导演?哦,抱歉,他现在正在AI修理厂保养呢。”

    最后,大胆预测

    也许再过几年,我们就能看到:

  • AI导演的处女作摘得奥斯卡(并发表一段代码写的获奖感言)。
  • 演员们集体转型AI视频补帧师(”这个表情不行,给我再渲染20遍!”)。
  • 电影预告片的最后不再写”Coming Soon”,而是”Training Now”……
  • 科幻迷狂喜,行业人挠头,吃瓜群众狂吹:Self-Forcing++,真有你的!*
  • 从5秒到4分15秒

    AI短视频为啥「帅不过三秒」?

    朋友们,你们有没有发现一个奇怪的现象?
    现在的AI视频生成技术简直令人叹为观止——你能看到猫咪戴着宇航员头盔在月球上跳芭蕾,也能看到马斯克穿着清朝官服用四川话讲相声。画面精致到让人怀疑自己的眼睛!
    然而…这些视频通常只有5到10秒,就好像AI的创作激情只能维持一个「短视频平台黄金时间」。稍微长一点的视频?那简直就是一部「画质跳水」的灾难大片——开头美如画,结尾糊成渣!

    为什么AI视频「昙花一现」?

  • 「记忆力」堪忧:目前的主流AI视频模型(比如Sora2、字节Wan)都是基于Transformer架构工作的。简单来说,它们就像是个「超级会画画的金鱼」——只有7秒记忆!
  • 误差滚雪球:每次生成新一帧画面时,前几帧的小错误会像「食堂大妈手抖」一样不断累积,最后导致画面彻底崩坏。
  • 长视频训练太难了:传统方法需要「让AI看长视频学习」,但这就像要求小学生直接读《百年孤独》——看不懂啊!
  • 字节的「自我PUA」大法

    为了解决这个问题,字节跳动的天才们提出了 Self-Forcing++(你可以理解为「AI界的斯巴达教育」):

  • 不靠老师靠挨打:不再依赖完美的「长视频老师」做示例
  • 在错误中成长:让AI自己生成长视频,然后看着自己的「翻车现场」反思改进
  • 越挫越勇:反复练习后,AI终于学会了「坚持更久不崩」的秘诀
  • 现在你知道为什么那些炫酷的AI视频都那么短了吧?因为它们正在努力练习憋气呢!
    Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    让AI拍电影不翻车的神奇三招

    1. 反向噪音初始化:从”百米冲刺”到”慢动作回放”

    想象一下,你让一个小学生先一口气写完100秒的作文,然后老师拿着橡皮擦开始疯狂涂改——这就是反向噪音初始化的精髓!

  • 学生模型:先莽一波,生成100秒的超长”干净”视频(虽然可能像毕加索的抽象画)。
  • 老师:淡定地掏出”噪音喷雾”,按照科学配方往画上喷点随机艺术感(术语叫扩散噪声调度)。
  • 结果:学生既学会了长跑(生成长视频),又掌握了涂鸦防手抖的技巧(稳定降噪)。
  • 2. 扩展分布匹配蒸馏:抽卡式学习法

    老师不想盯着100秒全程录像,而是像短视频刷屏一样随机抽5秒检查作业:

  • 随机截取:从学生生成的素材里随便划拉5秒(比如第37秒到42秒,专挑容易翻车的部分)。
  • 灵魂拷问:用KL散度(别名:”你和学霸的差距计算器”)对比这段和老师模型的输出。
  • 目标:让学生偷偷模仿学霸的笔记风格,还不会被抓包(最小化差异)。
  • 3. 滚动KV缓存:AI的”七秒记忆”训练营

    给模型装上金鱼般的滚动记忆库,边忘边学:

  • 训练时:缓存就像小本本,记下超长内容方便扩展DMD计算(但只认真复习最近几页)。
  • 推理时:模型靠缓存”作弊小抄”假装自己记得住,实则悄悄迭代升级。
  • 终极哲学:在”犯错→被纠正→继续犯错”的循环中,AI终于悟出真理——稳如老狗的关键是会删备忘录
  • 总结

    这三招的终极奥义是:先放飞自我,再精准挨打,最后学会选择性失忆。从此,AI拍视频再也不会前5秒是猫,后5秒变土豆了!
    Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    技术改良:让AI视频不再”失忆”的奇妙之旅

    问题篇:当AI也开始”健忘”

    想象一下,你正在看一部由AI制作的视频,主角上一秒还在优雅地跳舞,下一秒突然忘记自己有几条腿——这就是“长时记忆丢失”的悲剧现场。

  • 为什么会这样?*
  • 滑动窗口的锅:AI模型就像金鱼,只能记住最近几帧的内容,远处的画面?早扔进”记忆黑洞”了。
  • 注意力稀疏的尴尬:让它专注关键帧?结果它专注过头,直接忽略了其他细节,画面顿时像PPT卡帧。
  • 解决方案篇:给AI装个”运动传感器”

    这时候,组相对策略优化(GRPO)闪亮登场!它就像给AI导演配了一个严格的场记+动作指导,确保视频不会突然”抽风”。

  • 具体怎么操作?*
  • 计算重要性权重:AI每生成一帧,GRPO就给它打个分:”这条腿还在吗?脸没崩吧?”
  • 优化对数概率总和:确保AI的策略不仅合理,还要足够”丝滑”,不能前脚正常走路,后脚突然太空步。
  • 光流运动监督:拿相邻帧的光流(也就是运动轨迹)当尺子,AI要是敢让角色瞬移,GRPO就让它回炉重造!
  • 效果篇:从PPT到好莱坞级的蜕变

    经过GRPO的调教,AI生成的视频终于:
    不再失忆:主角从头到尾记得自己有几只手。
    运动连贯:走路像走路,跳舞像跳舞,而不是抽搐式癫痫表演。
    减少突变:告别”我眨眼他怎么就换了一套衣服”的灵异现象。
    总之,GRPO让AI视频从”抽象派”进化到了”能看派”,可喜可贺!
    Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    学霸AI给”假正经”视频打分,结果笑翻全场!

    原以为AI评判视频会一本正经,没想到Gemini-2.5-Pro这位”评委大人”直接上演了一出”评分界的脱口秀”!

  • 研究发现:*
  • 以前的VBench基准像个老花眼老太太,经常把闪瞎眼的”曝光过度”视频误认成帅哥靓女
  • Gemini评委显然近视度数比较合适,上来就指出:”这位同学,你这不是拍电影,是在拍闪电侠吧?”
  • 100分评分制下,那些自以为很”稳定”的视频们终于面临了残酷的现实
  • 评分维度大揭秘:*
  • 过曝光程度 – “这亮度是要让我看视频还是看太阳?”
  • 误差积累 – “剧情不错,就是抖得我以为自己喝大了”
  • 最后的实验结果证明了Gemini评委的眼光之毒辣,简直是视频届的”照妖镜”!从此以后,每个视频都要在AI评委面前乖乖接受灵魂拷问:”你到底是艺术创作,还是电源插头没插稳?”

    兼顾时长和质量

  • 科学家的奇妙实验:5秒短视频的”选美大赛”*
  • 各位观众朋友们,今天我们来看看一群疯狂的研究人员在实验室里搞出了什么好玩的:

  • 两大门派巅峰对决
  • 一方是新晋”网红”方法,另一方是老牌”高富帅”基准模型(包含自回归模型和它的远房表哥双向模型)
  • 就像让孙悟空和灭霸打架一样刺激
  • 长短视频测评专场
  • 短时长赛道:专门设立了5秒短视频”快闪”专区
  • 评委阵容:高达946位”毒舌”提示词评委
  • 评判标准:16个维度全方位360度无死角打分
  • 从画质到创意
  • 从流畅度到是不是让人想点赞
  • 长时长赛道:则是考验谁能把故事讲得更久不翻车(不过这部分我们先按下不表)
  • 这群严谨的科学工作者,愣是把AI测评搞得像综艺选秀一样热闹!*
  • Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    Self-Forcing++:短视频界的”逆袭黑马”

  • 惊人的成绩单:*
  • 语义得分:80.37分(直接吊打NO.1天团NOVA、SkyReels-V2和CausVid)
  • 总得分:83.11分(就差那么一丢丢就能追上Wan2.1的84.67分)
  • 这说明了啥?*
  • 虽然Self-Forcing++这孩子压根都没专门学过”短视频”这门课(就像是数学系的跑去参加了物理竞赛),但人家愣是在短视频这个赛道上跑出了刘翔般的跨栏速度

  • 视觉质量稳如老狗 – 画面清晰得让你怀疑人生
  • 语义一致性杠杠的 – 说啥就是啥,绝不含糊
  • 简直就是AI界的”偏科天才”,不务正业都能玩得这么溜!
    Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    「科学数据也疯狂」之大比拼

    当50秒一到,这家伙的视觉稳定性直接飙到90.94分!简直是学霸附体!相比那两个可怜巴巴的CausVid(40.47)和Self-Forcing(40.12),简直就像奥运冠军对比小区运动会选手,毫无悬念!
    更搞笑的是,那所谓的动态程度,竟然比Self-Forcing高1.6倍,好像在喊:”嘿!我比你还能蹦跶!”
    再看文本对齐得分(26.37),默默超过了大部分同行,简直就是那个躲在角落里偷偷进步,最后考试成绩让所有人震惊的「黑马」!
    结论:这家伙在中长时长的战斗里,不仅能稳如泰山,还能蹦跶得风生水起!简直就是AI界的大佬级选手
    Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

    “75秒到100秒的视频生成:我们的模型比咖啡还提神!”

    数字会说话,但我们先翻译成人话

  • 文本对齐得分26.04:比CausVid高出6.67%,意思是如果它们是两位学生提交的语文作业,我们的版本能让老师少叹一口气。
  • 动态程度54.12:暴涨56.4%碾压CausVid,相当于从老年迪斯科突然切到嘻哈Battle现场。
  • 对战Self-Forcing?:我们直接怒刷存在感——动态翻倍(+104.9%),文本对齐也高出18.36%,堪称AI界的降维打击。
  • 视觉效果:稳如老狗

  • 视觉稳定性84.22,是Self-Forcing(32.03)的2.6倍,也就是说,它们的画面像宿醉后的手机录像,而我们的是三脚架+防抖云台。
  • Framewise质量60.66:和基准模型差不多,证明即使视频长到能播完一首《 Bohemian Rhapsody》,我们依旧拒绝画质崩成“马赛克艺术”。
  • 总结*:别人的模型在75秒后可能开始怀疑AI生,而我们的——还在优雅微笑,稳得仿佛刚喝了AI版红牛。
  • Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
  • Self-Forcing++:让你的视频不再卡得像PPT!*
  • 终于有一项技术不再是“前5秒帅炸,后半段拉胯”!Self-Forcing++就像一个不知疲倦的马拉松选手,一路狂奔4分15秒都不带喘,把原先只能憋5秒的老系统甩开50条街。

    这款神器的亮点在哪里?

  • 完全根治“僵尸运动”症:其他长视频生成动不动就僵在原地,仿佛被按了暂停键。Self-Forcing++却能全程丝滑运动,堪比吃了德芙!
  • 画质永不滑坡:别人的视频越播越糊,像在看20年前的VCD。它却稳如老狗,亮度、细节全程在线,简直是强迫症福音!
  • 一致性碾压同行:对比那些“开头像科幻片,结尾像鬼片”的基线方法,Self-Forcing++仿佛有个严格的导演,从头到尾不给演员崩戏的机会。
  • 科学家狂喜表示*:这次真的不是实验室限定产品了!50倍的提升,约等于从“只能拍短视频的乙方”进化成“好莱坞专业团队”。
  • (小声说:详情请自行谷歌研究,毕竟咱们的重点是幽默,不是学术汇报。)*
  • © 版权声明

    相关文章