返回列表
技术AI创新企业级应用

谷歌推出Gemini Embedding 2:原生多模态支持,助力企业降本增效

谷歌近日宣布推出Gemini Embedding 2的公开预览版,这是一款全新的嵌入模型,旨在革新机器处理和检索信息的方式。与以往主要限于文本的嵌入模型不同,Gemini Embedding 2原生支持文本、图像、视频、音频和文档等多种媒体类型,并将其整合到单一的数值空间中。此举有望为企业客户显著降低延迟(部分客户可达70%),并减少使用由自身数据驱动的AI模型完成业务任务的总成本。AI和机器学习培训公司Red Dragon AI的联合创始人Sam Witteveen已提前体验并分享了其印象。

VentureBeat

谷歌近日在一系列企业AI产品更新中,宣布了对企业客户而言可能最具重要意义的更新:Gemini Embedding 2的公开预览版现已推出。这款全新的嵌入模型,标志着机器在不同媒体类型之间表示和检索信息方式的重大演进。以往的嵌入模型主要局限于文本处理,而Gemini Embedding 2则实现了原生集成文本、图像、视频、音频和文档,将它们统一到一个数值空间中。这一创新有望为部分客户将延迟降低高达70%,并为那些利用自身数据驱动AI模型来完成业务任务的企业降低总成本。

AI和机器学习培训公司Red Dragon AI的联合创始人兼VentureBeat合作者Sam Witteveen,获得了Gemini Embedding 2的早期访问权限,并在YouTube上发布了关于他使用体验的视频。

那么,谁需要并使用嵌入模型呢?对于那些在AI讨论中遇到“嵌入”一词但觉得抽象的人来说,一个有用的类比是将其想象成一个通用图书馆。在传统图书馆中,书籍是根据元数据(如作者、标题或类型)进行组织。而在AI的“嵌入空间”中,信息则是根据“思想”进行组织。

想象一个图书馆,书籍不是按照杜威十进制分类法组织,而是根据它们的“氛围”或“本质”来组织。在这个图书馆里,一本史蒂夫·乔布斯的传记可能会自动飞到一本Macintosh技术手册旁边。一首关于日落的诗歌会飘向一本关于太平洋海岸的摄影书,所有主题相似的内容都以美丽的、漂浮的“书云”形式组织在一起。这基本上就是嵌入模型的作用。

嵌入模型将复杂的数据——比如一个句子、一张日落的照片或一段播客片段——转换成一长串数字,称为向量。这些数字代表了高维地图中的坐标。如果两个项目在“语义上”相似(例如,一个

相关新闻