阿里巴巴开源权重模型 Qwen3
阿里巴巴Qwen团队正式发布新一代大语言模型Qwen3, 阿里称,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。
Qwen3系列包含 2个混合专家模型(MoE) 和 6个密集模型(Dense) ,覆盖从0.6B到235B的不同规模,满足多样化场景需求。其核心突破在于 “更小参数量,更高性能” 的极致优化:
Qwen3架构与功能:
- 独创“思考模式” :通过动态激活部分参数,在保证高性能的同时大幅降低推理成本。例如,Qwen3-235B-A22B仅激活9.4%的参数即可完成复杂推理,硬件成本仅为同类模型的1/3。
- 多语言与海量数据:支持119种语言与方言,训练数据规模达36万亿tokens,是上一代的两倍,覆盖更广泛的知识领域。
- 工具调用优化:配套发布的Qwen-Agent工具链,使开发者能快速适配垂直场景,例如电商客服、代码生成等。
Qwen3延续阿里巴巴的开源战略,所有模型权重、训练代码及推理框架均基于Apache 2.0协议开放,允许免费商用与二次开发。开发者可通过以下途径获取:
- 模型下载:Hugging Face、ModelScope等平台提供完整权重。
- 部署支持:兼容Ollama、LMStudio等主流框架,个人用户甚至可在本地设备运行小规模模型。
- 企业级服务:阿里云百炼平台提供API接口,企业无需自行部署即可集成Qwen3
官网:https://qwenlm.github.io/zh/blog/qwen3/
源码:https://github.com/QwenLM/Qwen3
发表回复