VideoPoet by Google

VideoPoet – Google 研究院的视频生成技术

介绍:

VideoPoet 是一种简单的建模方法，可以将任何自回归语言模型或大型语言模型（LLM）转换为高质量的视频生成器。它包含预训练的视频和音频标记器，可以将图像、视频和音频剪辑转化为离散代码序列。这些代码与基于文本的语言模型兼容，支持文本、图像和视频生成。

记录:

2024-07-05

每月访客数:

492.3K

视频

VideoPoet by Google - AI Tool Screenshot and Interface Preview

VideoPoet by Google 产品信息

VideoPoet – Google 研究院

什么是 VideoPoet

VideoPoet 是一种简单的建模方法，可以将任何自回归语言模型或大型语言模型（LLM）转换为高质量的视频生成器。它包含以下组件：

预训练的 MAGVIT V2 视频标记器和 SoundStream 音频标记器，将图像、视频和音频剪辑转化为离散代码序列。
自回归语言模型在视频、图像、音频和文本模式之间进行学习，自动预测序列中的下一个视频或音频标记。
在 LLM 训练框架中引入多种多模态生成学习目标，包括文本转视频、文本转图像、图像转视频、视频帧延续、视频修复和修饰、视频风格化以及视频转音频。

特点

VideoPoet 展示了最先进的视频生成技术，特别是在生成大量有趣且高保真的运动方面。该模型支持方形或纵向视频生成，适合短视频内容，还支持从视频输入生成音频。

高动态视频生成

VideoPoet 能够根据文本提示输出高动态变化的视频。

视频转音频

VideoPoet 还能输出与输入视频匹配的音频，而无需使用任何文本作为指导。

用例

为了展示 VideoPoet 的能力，我们制作了一部由模型生成的短片。我们请 Bard 撰写了一系列提示，详细描述了一只旅行浣熊的短篇故事。然后，我们根据每个提示生成视频剪辑，并将所有剪辑拼接在一起，制作成最终的 YouTube Short。

常见问题

如何使用 VideoPoet

提供文本或图像输入。
选择所需的视频长度和格式。
点击生成按钮，等待视频输出。

VideoPoet 支持哪些输入格式

VideoPoet 支持文本、图像和视频输入。

VideoPoet 的输出视频有哪些特点

VideoPoet 输出的视频具有高度的时间一致性，能够生成长时间的视频，支持多种视频风格和特效。

资源

论文

研究博客

相关链接

Alternatives Tools

Ariaflow

AriaFlow.ai：专业AI无人出镜视频生成器，支持从脚本、主题或链接一键制作视频。

AriaFlow.ai 是一款领先的 AI 无人出镜视频（Faceless Video）生成工具。它支持通过创意主题、现成脚本或网页 URL 快速生成高质量视频。用户可以在发布前深度编辑脚本、视觉效果、配音和字幕。系统支持 YouTube、TikTok、Instagram 和 X 的自动发布功能，提供从长视频到短视频的全方位解决方案，是内容创作者提高生产力、实现视频自动化的理想选择。

视频

reapi

reAPI：一站式集成顶尖图像、视频、对话及音乐 AI 模型的聚合平台

reAPI 是一个领先的 AI API 聚合器，为开发者提供统一的 API 接口，支持 GPT-5.5、Claude 4.8、Seedance 2.0 及 Suno 等顶级模型。通过 99.96% 的高可用性、自动故障转移和零日志记录隐私保护，reAPI 简化了 AI 多供应商集成流程，提供极具竞争力的价格，助力生产环境稳定运行。

视频

FLUX 3

Flux 3：一站式 AI 图像与视频创作工作室，集成全球顶尖 AI 模型

Flux 3 是一款全能型 AI 创作工作站，无缝集成 Text-to-Image、Image-to-Image、Text-to-Video 及 Image-to-Video 功能。平台汇集了 Flux 2、GPT Image 2、Nano Banana、Kling 3.0 和 Veo 3.1 等领先 AI 模型，提供 4K 高质量输出、商业授权及隐私保护。无论是设计师还是营销团队，都能通过 Flux 3 实现从创意灵感到电影级视频资产的高效转化。

视频

PodcastorAI

PodcastorAI：领先的 AI 视频播客生成器，一键将内容转化为专业视频播客

PodcastorAI 是一款强大的 AI 视频播客生成器，旨在将 PDF、网页链接、笔记和录音快速转化为工作室级别的音频和视频播客。该平台提供一站式工作流，支持通过照片定制 AI 播客主播，并提供单人、脱口秀、分屏等多种视觉风格。无论是内容创作者、教育者还是营销团队，都能利用 PodcastorAI 的播客脚本生成与 AI 语音克隆功能，在无需昂贵设备的情况下，快速产出适合 YouTube 和 Spotify 的高质量内容。

视频

Buzzy

Buzzy：专业AI视频创作利器，轻松打造爆款Instagram、TikTok与Pinterest内容

Buzzy 是一款革命性的 AI 视频创作平台，致力于实现“专业视频，简单制作”。通过集成 Nano Pro 技术、AI Storyboard 分镜系统及 Seedance 2 引擎，Buzzy 赋能创作者在 Instagram Reels、TikTok 和 Pinterest 上生成高质量视频。无论是品牌广告、UGC 内容、短剧创作还是 AI ASMR，Buzzy 都能通过其强大的创意代理与多角度光影调节功能，将创意瞬间转化为具备病毒式传播潜力的专业级视觉大片。

视频

TapVid

TapVid：将提示词、文档和链接转化为专业动态图形演示视频的AI生成工具

TapVid 是一款领先的 AI 视频生成平台，专为快速创作动态图形演示视频而设计。通过 TapVid，用户可以将简单的提示词、PDF 文件、文章链接或脚本直接转换为包含专业视觉效果、配音和清晰讲解的高质量视频。无需剪辑经验或设计技能，TapVid 即可在几分钟内产出 1080p 无水印视频。它不仅支持 3D 动画、像素风等多种风格，还提供智能编辑功能，是营销、教育及产品演示的理想选择。

视频

Flow AI

Flow AI Video 4K 视频生成器：基于 Google Flow Video 的专业 AI 创作工具

Flow AI Video 是一款由 Google Flow Video 驱动的专业级 AI 视频生成器，支持 4K 高清输出。通过先进的 Flow Video Generator 技术，用户可轻松实现文生视频、图生视频及多镜头叙事，打造电影级视觉大片。

视频

seedance 2.0 AI Video

Seedance 2.0：领先的AI电影级视频生成平台，支持多镜头叙事与2K高画质

Seedance 2.0 是一款先进的AI视频生成工具，支持从文本或图像生成2K电影级画质视频。其核心优势包括多镜头叙事能力、自然动作合成及毫秒级音画同步，支持8种以上语言的口型同步。Seedance 2.0 能够维持角色与风格的一致性，通过 Dual Branch Diffusion Transformer 架构，帮助创作者在60秒内完成专业级视频创作。

视频

Loading related products...