微软发布Phi-4-reasoning-vision-15B:小尺寸多模态AI模型,性能媲美大型系统
微软于周二发布了Phi-4-reasoning-vision-15B,这是一款紧凑型开放权重多模态AI模型。微软表示,该模型在性能上与尺寸大得多的系统相当或超越,但计算和训练数据消耗仅为后者的一小部分。这款150亿参数的模型能够处理图像和文本,解决复杂的数学和科学问题,解释图表和文档,导航图形用户界面,并处理日常视觉任务。该模型的发布正值AI行业面临大型模型成本高昂、延迟和能耗大的挑战之际,微软旨在通过该模型为社区提供构建更小、高效多模态推理模型的实用见解。
微软于周二发布了Phi-4-reasoning-vision-15B,这是一款紧凑型开放权重多模态AI模型。该公司表示,该模型在性能上与尺寸大得多的系统相当或超越,但计算和训练数据消耗仅为后者的一小部分。此次发布标志着这家软件巨头长达一年的努力进入了最新且技术上更具雄心的一个篇章,旨在证明精心设计的小型模型可以在关键领域与业界最大的AI系统竞争并超越它们。
这款150亿参数的模型已通过Microsoft Foundry、HuggingFace和GitHub以宽松许可立即提供。它能够处理图像和文本,并能推理复杂的数学和科学问题,解释图表和文档,导航图形用户界面,并处理日常视觉任务,如图片标注和阅读收据。该模型发布之际,AI行业正面临一个根本性的矛盾:最大的模型提供最佳的原始性能,但其巨大的成本、延迟和能耗使其在许多实际部署中不切实际。
微软研究团队在该模型的官方公告中写道:“我们的目标是为社区提供关于构建更小、高效多模态推理模型的实用见解,并分享一个开放权重模型,该模型在通用视觉语言任务上与同等大小的模型具有竞争力,在计算机使用方面表现出色,并在科学和数学多模态推理方面表现出色。”
此次发布中最引人注目的主张之一是该模型相对于竞争对手所需的训练数据量非常少。Phi-4-reasoning-vision-15B在大约2000亿个多模态数据令牌上进行了训练,其基础是Phi-4-Reasoning语言骨干(本身在160亿个令牌上训练)和基础Phi-4模型(4000亿个独特令牌)。相比之下,竞争对手的m