VideoPoet by Google
VideoPoet – Google 研究院的视频生成技术
VideoPoet 是一种简单的建模方法,可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。它包含预训练的视频和音频标记器,可以将图像、视频和音频剪辑转化为离散代码序列。这些代码与基于文本的语言模型兼容,支持文本、图像和视频生成。
2024-07-05
174.8K
VideoPoet by Google 产品信息
VideoPoet – Google 研究院
什么是 VideoPoet
VideoPoet 是一种简单的建模方法,可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。它包含以下组件:
- 预训练的 MAGVIT V2 视频标记器和 SoundStream 音频标记器,将图像、视频和音频剪辑转化为离散代码序列。
- 自回归语言模型在视频、图像、音频和文本模式之间进行学习,自动预测序列中的下一个视频或音频标记。
- 在 LLM 训练框架中引入多种多模态生成学习目标,包括文本转视频、文本转图像、图像转视频、视频帧延续、视频修复和修饰、视频风格化以及视频转音频。
特点
VideoPoet 展示了最先进的视频生成技术,特别是在生成大量有趣且高保真的运动方面。该模型支持方形或纵向视频生成,适合短视频内容,还支持从视频输入生成音频。
高动态视频生成
VideoPoet 能够根据文本提示输出高动态变化的视频。
视频转音频
VideoPoet 还能输出与输入视频匹配的音频,而无需使用任何文本作为指导。
用例
为了展示 VideoPoet 的能力,我们制作了一部由模型生成的短片。我们请 Bard 撰写了一系列提示,详细描述了一只旅行浣熊的短篇故事。然后,我们根据每个提示生成视频剪辑,并将所有剪辑拼接在一起,制作成最终的 YouTube Short。
常见问题
如何使用 VideoPoet
- 提供文本或图像输入。
- 选择所需的视频长度和格式。
- 点击生成按钮,等待视频输出。
VideoPoet 支持哪些输入格式
VideoPoet 支持文本、图像和视频输入。
VideoPoet 的输出视频有哪些特点
VideoPoet 输出的视频具有高度的时间一致性,能够生成长时间的视频,支持多种视频风格和特效。