技术AI移动端多模态
MiniCPM-o:手机端Gemini 2.5 Flash级视觉语音全双工多模态大模型
OpenBMB在GitHub Trending上发布了MiniCPM-o项目,这是一个专为手机设计的视觉、语音和全双工多模态大模型(MLLM)。该模型旨在实现Gemini 2.5 Flash级别的性能,支持在移动设备上进行多模态直播应用。MiniCPM-o的发布标志着移动端多模态AI技术的新进展,有望提升手机在处理复杂视觉和语音交互方面的能力。
GitHub Trending
OpenBMB于2026年2月10日在GitHub Trending上发布了其最新项目MiniCPM-o。该项目被描述为一个适用于手机的视觉、语音和全双工多模态大模型(MLLM)。MiniCPM-o旨在达到Gemini 2.5 Flash级别的性能,特别强调其在多模态直播应用中的潜力。这意味着该模型能够处理实时的视觉和语音输入,并进行全双工交互,为移动设备上的高级AI应用提供了可能。该项目的发布链接为https://github.com/OpenBMB/MiniCPM-o,由OpenBMB团队开发。