阿里巴巴发布Qwen3.5-9B小型开源模型:性能超越OpenAI gpt-oss-120B,可在笔记本电脑运行
阿里巴巴Qwen团队近日发布了Qwen3.5小型模型系列,其中包括Qwen3.5-0.8B、2B、4B和9B。其中,Qwen3.5-9B作为一款紧凑型推理模型,在多语言知识和研究生级别推理等第三方基准测试中,表现优于规模大13.5倍的OpenAI开源模型gpt-oss-120B。该系列模型采用高效混合架构,结合门控Delta网络和稀疏专家混合(MoE),旨在解决小型模型面临的“内存墙”问题。这些模型权重已在全球范围内以Apache 2.0许可证在Hugging Face和ModelScope上发布,支持企业和商业用途,甚至可在标准笔记本电脑上运行。
在中国AI领域持续快速发展之际,电商巨头阿里巴巴的Qwen AI研究团队发布了其最新的Qwen3.5小型模型系列。该系列旨在开发并向全球发布一系列强大的Qwen开源语言和多模态AI模型。
Qwen3.5小型模型系列包括:
* **Qwen3.5-0.8B & 2B:** 这两款模型针对“微型”和“快速”性能进行了优化,适用于原型开发和部署在电池续航至关重要的边缘设备上。
* **Qwen3.5-4B:** 作为轻量级代理的强大多模态基础模型,原生支持262,144个token的上下文窗口。
* **Qwen3.5-9B:** 这是一款紧凑型推理模型,在多语言知识和研究生级别推理等关键第三方基准测试中,其性能超越了规模大13.5倍的美国竞争对手OpenAI的开源模型gpt-oss-120B。
这些模型的规模与全球其他实验室近期发布的小型通用模型相当,例如麻省理工学院衍生公司LiquidAI的LFM2系列,它们也拥有数亿或数十亿参数。这与OpenAI、Anthropic和谷歌Gemini系列旗舰模型据称使用的万亿参数(模型设置)形成对比。这些模型的权重已在全球范围内以Apache 2.0许可证在Hugging Face和ModelScope上发布,非常适合企业和商业用途,包括按需定制。
**技术:高效混合与原生多模态**
Qwen3.5小型系列的技术基础与标准的Transformer架构有所不同。阿里巴巴转向了一种高效混合架构,该架构结合了门控Delta网络(一种线性注意力形式)和稀疏专家混合(MoE)。这种混合方法旨在解决通常限制小型模型的“内存墙”问题。