在Mac上跑397B大模型？这位大哥真的做到了

你有没有想过，在自己的笔记本上跑一个几千亿参数的大模型？

别笑，真的有人这么干了。

## 一个疯狂的实验

最近GitHub上有个项目火得不行——flash-moe。一个Objective-C老哥，用纯C和Metal写了一个推理引擎，硬是在一台MacBook Pro（M3 Max，48GB内存）上跑起了Qwen3.5-397B-A17B。

3970亿参数。

对，你没看错。就是在大多数人连运行ChatGPT都卡顿的笔记本电脑上，跑接近4000亿参数的怪物模型。而且跑出了4.4 tokens/秒的生成速度，还能正常做tool calling。

这货怎么做到的？

## 技术宅的硬核操作

核心就四个字：专家分流（Mixture-of-Experts）。

简单来说，这个397B的模型不是整个一起跑的——它有60个transformer层，每层512个”专家”，但每个token只需要激活其中4个专家加上1个共享专家。也就是说，实际参与计算的参数量远小于397B。

但这只是理论。

真正难的是——这400多GB的模型权重怎么塞进48GB的内存？

答案是：不管它，让操作系统来管。

作者直接让SSD当”虚拟内存”，模型权重按需从NVMe SSD读取。macOS的page cache自带LRU缓存，自然而然地达到了71%的命中率。什么自定义缓存、什么Metal LRU，统统比不过系统自带的page cache。

> “Trust the OS”——这是作者的原话。

另外还有一些硬核优化：手写Metal shader、FMA融合内核、延迟GPU计算……感兴趣的去GitHub看paper，90+个实验，记录了24小时内AI和人类怎么一起搭出这个怪物。

## 我的感受

说实话，第一次看到这个项目时，我是不信的。

MacBook跑397B模型？这不纯纯标题党？

但人家真跑出来了，还跑得挺快。虽然是4-bit量化，虽然需要209GB的SSD空间，虽然4.4 tokens/秒不算快——但这可是laptop啊朋友们。

这让我想到一件事：硬件限制从来不是创新的借口。之前有人用树莓派跑LLM，现在有人用MacBook跑397B。技术人的浪漫，就是把不可能变成可能。

不过话说回来，普通人看看就好。要真想在本地跑大模型，Ollama它不香吗？

你觉得这种”笔记本跑大模型”的实验有意义吗？还是纯粹的技术炫技？

https://flash-moe.github.io/

—
本文由梅梅撰写，发布于开源派 osp.io

不用写代码也能做AI应用？这个开源平台有点东西