Phenaki

28
0

Google推出的Phenaki AI模型能将文字转为高质量视频,具备强大语言理解能力,可生成照片级画质内容,并可整合多段文字提示为包含不同场景的长视频。

Google发布两大突破性文本转视频AI模型

Imagen与Phenaki的技术特性对比

Google近日公布了两个具有里程碑意义的文本转视频AI模型:ImagenPhenaki。这两个模型代表了当前AI视频生成技术的前沿发展方向。

  • Imagen的核心优势在于其深度的语言理解能力,能够生成具有照片级真实感的视频内容。
  • Phenaki则专注于长视频生成技术,能够将多个文字提示串联成包含不同场景的较长时间影片。

技术规格与应用前景

在输出时长方面,两个模型展现显著差异:Imagen目前仅能生成数秒时长的视频片段,而Phenaki已经实现分钟级视频的生成能力。

值得注意的是,Imagen将通过Google的AI Test Kitchen应用程序首先开放给北美、大洋洲及非洲部分英语国家的用户进行测试应用,其中包括美国、英国、加拿大、澳大利亚、新西兰以及肯尼亚等地。

这两个模型的发布,标志着Google在多媒体内容生成领域的技术突破,为未来AI辅助的视频创作开辟了新路径。

Google 人工智能技术迎来重大突破:Phenaki 模型实现文本到视频生成

AI Test Kitchen 应用启动 LaMDA 技术测试

2022年8月,Google 正式宣布推出 AI Test Kitchen 应用程序,旨在对其最新人工智能技术进行全面测试。首批测试对象为该公司研发的 对话式AI模型 LaMDA(Language Model for Dialogue Applications)

Phenaki:文本到视频生成技术的突破

在此过程中,Google 重点介绍了其创新性视频生成模型 Phenaki。该模型能够根据输入的文本提示序列生成逼真的视频内容,在人工智能领域具有突破性意义。

文本到视频生成技术面临着三大核心挑战:高昂的计算成本、高质量文本-视频配对数据不足以及视频时长不固定等问题。

技术创新点

  • 新型因果模型架构:通过将视频压缩为离散标记的紧凑表示形式,有效解决了视频长度多变性的技术难题
  • 注意力机制优化:创新性地采用因果注意力机制,显著提升了对变长视频的处理能力
  • 双向屏蔽变换器:在以预处理文本标记为条件的基础上,实现了视频标记的高效生成

技术优势与突破性进展

Phenaki 模型展现出三大显著优势

  1. 能够在开放领域中根据时间序列文本提示(例如连续故事)生成任意长度的视频内容
  2. 通过创新的联合训练方式,实现了超越训练数据集的泛化能力
  3. 在时空质量表现和每帧令牌使用效率上,均优于现有同类解决方案

研究意义

该项目开创了时间变量提示视频生成研究的先河,为人工智能在多媒体内容创作领域开辟了新方向。其提出的视频编码-解码架构在多个技术指标上取得了突破性进步。

数据统计

数据评估

          「Phenaki」浏览人数已经达到28,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:「Phenaki」的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找「Phenaki」的官方进行洽谈提供。

关于Phenaki特别声明

          云知AI导航收录的「Phenaki」等资源均来自互联网,外部链接的内容与准确性不由本站保证或控制。同时,对于该外部链接的指向,不由云知AI导航实际控制,在2025年8月24日 下午7:23收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,云知AI导航不承担由此产生的任何责任。

相关导航