ElevenLabs发布Image & Video平台：一站式AI图像、视频、音频生成

多模态AI公司ElevenLabs正式上线“Image & Video平台”，将图像生成、视频生成、声音合成、音乐创作和音效设计整合于一体。该平台旨在帮助创作者和营销人员告别多平台切换，实现从剧本到成品商业视频的一站式制作。新平台打通了视觉与音频能力，用户可直接在同一界面完成画面生成、视频制作、旁白添加、背景音乐和环境音效叠加，官方宣称最快几分钟即可产出可投放的营销视频。平台集成了Google Veo、OpenAI Sora、Kling等顶级多模态模型，并针对商业应用进行了优化，支持多种视频比例、内置商用安全素材库及多语种旁白替换功能，大幅提升AI内容生产效率。

多模态AI领域的领先企业ElevenLabs近日重磅宣布，其全新的“Image & Video平台”已正式上线。这一更新标志着ElevenLabs不再仅仅是一个语音工具，而是转型为一个集图像生成、视频生成、声音合成、音乐创作、音效设计于一体的超级AI内容工厂。此举旨在彻底改变创作者和营销人员的工作流程，使他们能够告别多平台来回切换的繁琐，实现从剧本构思到成品级商业视频的一站式制作。

新平台的核心亮点在于其“一站闭环”能力，将视觉生成与ElevenLabs引以为傲的音频能力彻底打通。用户可以首先生成画面和动态视频，然后直接在同一界面叠加专业级旁白、背景音乐和环境音效，整个流程实现零缝隙衔接。官方宣称，从概念提出到生成可直接投放的营销视频，最快只需几分钟，这无疑将重新定义AI内容生产的效率。

“Image & Video平台”集结了强大的模型矩阵，一次性集成了全球顶级的多模态模型，包括Google Veo（以超长一致性视频著称）、OpenAI Sora（提供电影级画面质感）、Kling（擅长超现实物理动效），以及Nanobanana、Flux Kontext、Seedream等新锐黑马。这些视觉模型将与ElevenLabs自研的全球最自然AI语音技术和最新的音乐生成模型相结合，使用户能够随心所欲地混搭“最强视觉”与“最强听觉”，从而生成远超单一模型拼凑效果的内容。

该平台明确专为商业应用而生，针对创作者和营销人员进行了深度优化。它支持直接输出竖屏或横屏等多种比例，以适配抖音、小红书、TikTok、YouTube等主流短视频平台。平台内置商业安全语音与音乐库，确保生成内容可直接用于广告投放。此外，用户还可以一键替换旁白语言，轻松制作多语种版本，拓展全球市场。平台还提供完整的事件线编辑器，支持精确到帧的音画同步调整，满足专业级制作需求。

根据官方演示案例，仅需一段30秒的文案，用户即可在平台内完成一系列操作：首先生成品牌故事板图像，接着将其转化为流畅视频，然后添加CEO级别自然旁白，叠加情绪化背景音乐和环境音效，最终导出4K商用成品。整个过程无需在Premiere、Midjourney、Runway、Suno等多个工具之间来回倒文件。AIbase编辑部评论指出，ElevenLabs此举直接将“文本到视频”的天花板又抬高了一大截，更重要的是它一次性解决了最难的音画同步问题。当视觉生成与声音生成两大王者合体，独立创作者与中小企业将迎来真正的降维打击时代。

ElevenLabs推出“Image & Video平台”：图像、视频、音频、音乐一站式AI生成，重塑内容创作效率

相关新闻

AI作品夺得俄亥俄州博览会海报大赛冠军，官方宣布2027年起禁用AI

萨姆·奥特曼呼吁控制AI开发节奏：深度解析行业“减速论”辩论

Fender首席执行官称乐队成员为“模拟AI”：言论引发音乐界公关危机