https://sites.research.google/videopoet/ favicon

VideoPoet by Google

VideoPoet – Google 研究院的视频生成技术

介绍:

VideoPoet 是一种简单的建模方法,可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。它包含预训练的视频和音频标记器,可以将图像、视频和音频剪辑转化为离散代码序列。这些代码与基于文本的语言模型兼容,支持文本、图像和视频生成。

记录:

2024-07-05

每月访客数:

174.8K

VideoPoet by Google

VideoPoet by Google 产品信息

VideoPoet – Google 研究院

什么是 VideoPoet

VideoPoet 是一种简单的建模方法,可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。它包含以下组件:

  • 预训练的 MAGVIT V2 视频标记器和 SoundStream 音频标记器,将图像、视频和音频剪辑转化为离散代码序列。
  • 自回归语言模型在视频、图像、音频和文本模式之间进行学习,自动预测序列中的下一个视频或音频标记。
  • 在 LLM 训练框架中引入多种多模态生成学习目标,包括文本转视频、文本转图像、图像转视频、视频帧延续、视频修复和修饰、视频风格化以及视频转音频。

特点

VideoPoet 展示了最先进的视频生成技术,特别是在生成大量有趣且高保真的运动方面。该模型支持方形或纵向视频生成,适合短视频内容,还支持从视频输入生成音频。

高动态视频生成

VideoPoet 能够根据文本提示输出高动态变化的视频。

视频转音频

VideoPoet 还能输出与输入视频匹配的音频,而无需使用任何文本作为指导。

用例

为了展示 VideoPoet 的能力,我们制作了一部由模型生成的短片。我们请 Bard 撰写了一系列提示,详细描述了一只旅行浣熊的短篇故事。然后,我们根据每个提示生成视频剪辑,并将所有剪辑拼接在一起,制作成最终的 YouTube Short

常见问题

如何使用 VideoPoet

  1. 提供文本或图像输入。
  2. 选择所需的视频长度和格式。
  3. 点击生成按钮,等待视频输出。

VideoPoet 支持哪些输入格式

VideoPoet 支持文本、图像和视频输入。

VideoPoet 的输出视频有哪些特点

VideoPoet 输出的视频具有高度的时间一致性,能够生成长时间的视频,支持多种视频风格和特效。

资源

论文

研究博客

相关链接

文本转视频

图像转视频

视频编辑

视频风格化

视频修复

Loading related products...