ElevenLabs推出“Image & Video平台”:图像、视频、音频、音乐一站式AI生成,重塑内容创作效率
多模态AI公司ElevenLabs正式上线“Image & Video平台”,将图像生成、视频生成、声音合成、音乐创作和音效设计整合于一体。该平台旨在帮助创作者和营销人员告别多平台切换,实现从剧本到成品商业视频的一站式制作。新平台打通了视觉与音频能力,用户可直接在同一界面完成画面生成、视频制作、旁白添加、背景音乐和环境音效叠加,官方宣称最快几分钟即可产出可投放的营销视频。平台集成了Google Veo、OpenAI Sora、Kling等顶级多模态模型,并针对商业应用进行了优化,支持多种视频比例、内置商用安全素材库及多语种旁白替换功能,大幅提升AI内容生产效率。
多模态AI领域的领先企业ElevenLabs近日重磅宣布,其全新的“Image & Video平台”已正式上线。这一更新标志着ElevenLabs不再仅仅是一个语音工具,而是转型为一个集图像生成、视频生成、声音合成、音乐创作、音效设计于一体的超级AI内容工厂。此举旨在彻底改变创作者和营销人员的工作流程,使他们能够告别多平台来回切换的繁琐,实现从剧本构思到成品级商业视频的一站式制作。
新平台的核心亮点在于其“一站闭环”能力,将视觉生成与ElevenLabs引以为傲的音频能力彻底打通。用户可以首先生成画面和动态视频,然后直接在同一界面叠加专业级旁白、背景音乐和环境音效,整个流程实现零缝隙衔接。官方宣称,从概念提出到生成可直接投放的营销视频,最快只需几分钟,这无疑将重新定义AI内容生产的效率。
“Image & Video平台”集结了强大的模型矩阵,一次性集成了全球顶级的多模态模型,包括Google Veo(以超长一致性视频著称)、OpenAI Sora(提供电影级画面质感)、Kling(擅长超现实物理动效),以及Nanobanana、Flux Kontext、Seedream等新锐黑马。这些视觉模型将与ElevenLabs自研的全球最自然AI语音技术和最新的音乐生成模型相结合,使用户能够随心所欲地混搭“最强视觉”与“最强听觉”,从而生成远超单一模型拼凑效果的内容。
该平台明确专为商业应用而生,针对创作者和营销人员进行了深度优化。它支持直接输出竖屏或横屏等多种比例,以适配抖音、小红书、TikTok、YouTube等主流短视频平台。平台内置商业安全语音与音乐库,确保生成内容可直接用于广告投放。此外,用户还可以一键替换旁白语言,轻松制作多语种版本,拓展全球市场。平台还提供完整的事件线编辑器,支持精确到帧的音画同步调整,满足专业级制作需求。
根据官方演示案例,仅需一段30秒的文案,用户即可在平台内完成一系列操作:首先生成品牌故事板图像,接着将其转化为流畅视频,然后添加CEO级别自然旁白,叠加情绪化背景音乐和环境音效,最终导出4K商用成品。整个过程无需在Premiere、Midjourney、Runway、Suno等多个工具之间来回倒文件。AIbase编辑部评论指出,ElevenLabs此举直接将“文本到视频”的天花板又抬高了一大截,更重要的是它一次性解决了最难的音画同步问题。当视觉生成与声音生成两大王者合体,独立创作者与中小企业将迎来真正的降维打击时代。