Black Forest Labs推出Self-Flow技术,多模态AI模型训练效率提升2.8倍
德国AI初创公司Black Forest Labs发布了Self-Flow技术,这是一种自监督流匹配框架,旨在解决生成式AI扩散模型对外部“教师”的依赖。传统模型如Stable Diffusion和FLUX在生成图像或视频时,需依赖CLIP或DINOv2等外部编码器提供语义理解,但这导致了扩展瓶颈。Self-Flow通过整合新颖的双时间步调度机制,使模型能够同时学习表示和生成,无需外部监督即可在图像、视频和音频领域达到领先水平,并显著提升训练效率2.8倍,打破了传统生成训练中的“语义鸿沟”问题。
为了创建连贯的图像或视频,像Stable Diffusion或FLUX这样的生成式AI扩散模型通常依赖外部“教师”——如CLIP或DINOv2等冻结编码器——来提供它们无法自行学习的语义理解。然而,这种依赖带来了代价:一个“瓶颈”,即当模型规模扩大时,由于外部教师已达到其极限,结果不再能得到更好的提升。
今天,德国AI初创公司Black Forest Labs(FLUX系列AI图像模型的开发者)宣布,随着Self-Flow的发布,这种学术借用时代可能即将结束。Self-Flow是一种自监督流匹配框架,它允许模型同时学习表示和生成。通过整合一种新颖的双时间步调度机制,Black Forest Labs已证明,一个单一模型无需任何外部监督,即可在图像、视频和音频领域实现最先进的结果。
这项技术旨在打破“语义鸿沟”。传统生成训练的根本问题在于它是一个“去噪”任务。模型被展示噪声并被要求找到图像;它几乎没有动力去理解图像是什么,只关心它看起来像什么。为了解决这个问题,研究人员之前曾将生成特征与外部判别模型“对齐”。然而,Black Forest Labs认为这从根本上存在缺陷:这些外部模型通常在目标不一致的情况下运行,并且无法泛化到音频或机器人等不同模态。
Black Forest Labs的新技术Self-Flow引入了“信息不对称”来解决这个问题。利用一种名为双时间步调度(Dual-Timestep Scheduling)的技术,系统对输入的不同部分施加不同程度的噪声。学生接收到数据的高度损坏版本,而教师——模型本身的指数移动平均(EMA)版本——则看到相同数据的“更干净”版本。