阿里巴巴Qwen团队正式发布新一代大语言模型Qwen3, 阿里称,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。

Qwen3系列包含 2个混合专家模型(MoE) 和 6个密集模型(Dense) ,覆盖从0.6B到235B的不同规模,满足多样化场景需求。其核心突破在于 “更小参数量,更高性能” 的极致优化:

Qwen3架构与功能:

  • 独创“思考模式” :通过动态激活部分参数,在保证高性能的同时大幅降低推理成本。例如,Qwen3-235B-A22B仅激活9.4%的参数即可完成复杂推理,硬件成本仅为同类模型的1/3。
  • 多语言与海量数据:支持119种语言与方言,训练数据规模达36万亿tokens,是上一代的两倍,覆盖更广泛的知识领域。
  • 工具调用优化:配套发布的Qwen-Agent工具链,使开发者能快速适配垂直场景,例如电商客服、代码生成等。

Qwen3延续阿里巴巴的开源战略,所有模型权重、训练代码及推理框架均基于Apache 2.0协议开放,允许免费商用与二次开发。开发者可通过以下途径获取:

  • 模型下载:Hugging Face、ModelScope等平台提供完整权重。
  • 部署支持:兼容Ollama、LMStudio等主流框架,个人用户甚至可在本地设备运行小规模模型。
  • 企业级服务:阿里云百炼平台提供API接口,企业无需自行部署即可集成Qwen3

官网:https://qwenlm.github.io/zh/blog/qwen3/

源码:https://github.com/QwenLM/Qwen3