谷歌Gemini Veo 3.1发布:多图参考一键生成8秒1080p视频,人物场景风格融合
谷歌今日向Gemini Pro/Ultra订阅用户推出Veo 3.1视频模型,新增“Ingredients to Video”模式。该模式允许用户同时上传三张参考图,分别提取人物、场景和风格特征,并将其融合生成一段8秒的1080p视频。生成内容自带SynthID隐形水印,并支持跨帧角色一致性与光影连贯。用户可通过网页或移动端输入文本提示后一键生成,并可控制首尾帧及进行视频延伸。谷歌表示,多图参考功能已全面开放,生成配额与现有订阅额度一致,暂无额外付费方案。
谷歌今日宣布,已向其Gemini Pro/Ultra订阅用户推送了最新的Veo 3.1视频模型。此次更新的核心亮点是引入了全新的“Ingredients to Video”模式,显著提升了视频生成能力。通过此模式,用户可以同时上传三张参考图片,系统将智能地从这三张图片中分别提取人物、场景以及风格特征,并将这些元素巧妙地融合,最终生成一段时长为8秒的1080p高清视频。
Veo 3.1生成的所有视频内容都将自动嵌入SynthID隐形水印,以确保内容溯源。用户操作简便,只需在网页端或移动端输入文本提示,即可一键启动视频生成过程。该模型在生成视频时,能够保持跨帧的角色一致性以及光影的连贯性,有效避免了传统视频生成中常见的跳变问题。谷歌通过演示展示了其强大功能:例如,上传三张不同角度的自拍、一张赛博城市背景图和一张油画风格图,即可输出一段“印象派未来街头漫步”的短片,且视频中人物的脸部与服装均无形变。
此外,Veo 3.1还同步输出原生环境音,进一步增强了视频的沉浸感。模型支持首尾帧控制功能,并提供了视频延伸能力,为用户提供了更大的创作自由度。谷歌方面表示,多图参考功能目前已全量开放给所有Gemini Pro/Ultra订阅用户,其生成配额将与用户现有的订阅额度保持一致,目前尚未公布任何额外的付费方案。