小红书首个中文 AI 模型 dots.llm1
小红书实验室(hi lab)在 2025 年 6 月正式开源了其首个自研文本大模型 dots.llm1。该模型基于创新的 Mixture of Experts (MoE) 架构,以中等规模参数实现了媲美顶级大模型的性能,同时大幅降低了训练成本。AI模型遵守 MIT 开源许可协议。
目前开源内容包括:
- 完整模型文件:Pretrain 阶段的基座模型(dots.llm1.base)、微调后的 Instruct 模型(dots.llm1.inst),以及长文优化版本 。
- 训练中间件:每 1 万亿 token 的中间训练 checkpoint,共 14 个 checkpoint,覆盖预训练和微调全阶段,便于研究模型学习动态 。
- 技术文档:arXiv 技术论文、超参数设置和训练细节,确保透明性和可复现性
dots.llm1 是总参数规模达 1420 亿(142B),但通过 MoE 架构仅激活 140 亿(14B)参数进行推理,显著提升了效率 。这种设计借鉴了 DeepSeek 系列的经验,采用 Decoder-only Transformer 结构,每层包含注意力层和 MoE 模块的前馈网络,确保在保持高性能的同时降低资源消耗 。模型的上下文长度支持高达 32K token,使其能够处理长序列输入,如复杂文档或多轮对话 。
训练方面,dots.llm1 使用了 11.2 万亿(11.2T) token 的高质量真实数据,所有数据均来自非合成的真实场景文本,避免了合成数据的潜在偏差 。小红书 hi lab 团队开发了一套三阶段数据处理流程:文档准备(过滤、提取、去重)、规则处理(行级去重、启发式过滤)和模型处理(使用分类器平衡数据分布),确保数据质量优于当前开源标准 。
源代码:
- GitHub 仓库:https://github.com/rednote-hilab/dots.llm1
- Hugging Face 模型库:https://huggingface.co/rednote-hilab
发表回复