返回列表
产品AI视频谷歌

谷歌Gemini Veo 3.1发布:多图参考一键生成8秒1080p视频,人物场景风格融合

谷歌今日向Gemini Pro/Ultra订阅用户推出Veo 3.1视频模型,新增“Ingredients to Video”模式。该模式允许用户同时上传三张参考图,分别提取人物、场景和风格特征,并将其融合生成一段8秒的1080p视频。生成内容自带SynthID隐形水印,并支持跨帧角色一致性与光影连贯。用户可通过网页或移动端输入文本提示后一键生成,并可控制首尾帧及进行视频延伸。谷歌表示,多图参考功能已全面开放,生成配额与现有订阅额度一致,暂无额外付费方案。

AI新闻资讯 - AI Base

谷歌今日宣布,已向其Gemini Pro/Ultra订阅用户推送了最新的Veo 3.1视频模型。此次更新的核心亮点是引入了全新的“Ingredients to Video”模式,显著提升了视频生成能力。通过此模式,用户可以同时上传三张参考图片,系统将智能地从这三张图片中分别提取人物、场景以及风格特征,并将这些元素巧妙地融合,最终生成一段时长为8秒的1080p高清视频。

Veo 3.1生成的所有视频内容都将自动嵌入SynthID隐形水印,以确保内容溯源。用户操作简便,只需在网页端或移动端输入文本提示,即可一键启动视频生成过程。该模型在生成视频时,能够保持跨帧的角色一致性以及光影的连贯性,有效避免了传统视频生成中常见的跳变问题。谷歌通过演示展示了其强大功能:例如,上传三张不同角度的自拍、一张赛博城市背景图和一张油画风格图,即可输出一段“印象派未来街头漫步”的短片,且视频中人物的脸部与服装均无形变。

此外,Veo 3.1还同步输出原生环境音,进一步增强了视频的沉浸感。模型支持首尾帧控制功能,并提供了视频延伸能力,为用户提供了更大的创作自由度。谷歌方面表示,多图参考功能目前已全量开放给所有Gemini Pro/Ultra订阅用户,其生成配额将与用户现有的订阅额度保持一致,目前尚未公布任何额外的付费方案。

相关新闻

产品

Manus发布Browser Operator扩展:将任意浏览器升级为AI智能浏览器,提升工作效率

Manus公司推出了一款名为Manus Browser Operator的Chrome扩展程序,旨在将任何浏览器转变为具备AI能力的智能浏览器。该扩展能够自动化复杂的浏览器操作,并支持安全访问受保护的网站和系统,如研究平台和CRM工具。其核心功能包括安全的本地访问与会话复用,避免额外的登录验证和验证码,并能长期保持会话活跃。典型应用场景涵盖在数据库中查找资料、在CRM系统执行任务以及在付费平台提取数据。该扩展目前处于Beta测试阶段,逐步向Pro、Plus、Team高级用户开放,支持Chrome和Edge浏览器,旨在大幅提升日常工作效率。

产品

Quora Poe应用推出AI群聊功能,支持200人协作与多模态交互

Quora近日为其AI平台Poe推出了创新性的群聊功能,允许最多200名用户在单一对话中与不同的AI模型和机器人进行协作。该功能支持文本、图像、视频和音频生成等多种形式,旨在变革AI交互方式,为用户带来全新的互动体验。用户可以利用此功能规划旅行、创作Mood Board或参与智力游戏。Poe的群聊功能还具备实时同步聊天记录的特性,方便用户在不同设备间无缝切换。Quora表示,该功能已开发六个月,未来将根据用户反馈持续优化,并鼓励用户创建和分享自定义机器人以探索更多应用场景。

产品

ElevenLabs推出Image & Video(Beta):一站式AI视听内容创作平台,整合顶尖多模态模型

ElevenLabs正式推出Image & Video(Beta)平台,旨在为创作者和营销人员提供一个集图像、视频、声音、音乐、音效生成于一体的全功能AI内容创作解决方案。该平台整合了Veo、Sora、Kling等多个顶尖多模态生成模型,用户可在同一平台内完成视觉内容创建、声音合成、旁白叠加、配乐编辑,并支持唇形同步、超分辨率增强和时间轴调节等功能,最终输出可用于商业与创意的视频内容。其目标是打造一个统一的创意平台,提升内容创作效率和质量。