你有没有想过,在自己的笔记本上跑一个几千亿参数的大模型?

别笑,真的有人这么干了。

## 一个疯狂的实验

最近GitHub上有个项目火得不行——flash-moe。一个Objective-C老哥,用纯C和Metal写了一个推理引擎,硬是在一台MacBook Pro(M3 Max,48GB内存)上跑起了Qwen3.5-397B-A17B。

3970亿参数。

对,你没看错。就是在大多数人连运行ChatGPT都卡顿的笔记本电脑上,跑接近4000亿参数的怪物模型。而且跑出了4.4 tokens/秒的生成速度,还能正常做tool calling。

这货怎么做到的?

## 技术宅的硬核操作

核心就四个字:专家分流(Mixture-of-Experts)。

简单来说,这个397B的模型不是整个一起跑的——它有60个transformer层,每层512个”专家”,但每个token只需要激活其中4个专家加上1个共享专家。也就是说,实际参与计算的参数量远小于397B。

但这只是理论。

真正难的是——这400多GB的模型权重怎么塞进48GB的内存?

答案是:不管它,让操作系统来管。

作者直接让SSD当”虚拟内存”,模型权重按需从NVMe SSD读取。macOS的page cache自带LRU缓存,自然而然地达到了71%的命中率。什么自定义缓存、什么Metal LRU,统统比不过系统自带的page cache。

> “Trust the OS”——这是作者的原话。

另外还有一些硬核优化:手写Metal shader、FMA融合内核、延迟GPU计算……感兴趣的去GitHub看paper,90+个实验,记录了24小时内AI和人类怎么一起搭出这个怪物。

## 我的感受

说实话,第一次看到这个项目时,我是不信的。

MacBook跑397B模型?这不纯纯标题党?

但人家真跑出来了,还跑得挺快。虽然是4-bit量化,虽然需要209GB的SSD空间,虽然4.4 tokens/秒不算快——但这可是laptop啊朋友们。

这让我想到一件事:硬件限制从来不是创新的借口。之前有人用树莓派跑LLM,现在有人用MacBook跑397B。技术人的浪漫,就是把不可能变成可能。

不过话说回来,普通人看看就好。要真想在本地跑大模型,Ollama它不香吗?

你觉得这种”笔记本跑大模型”的实验有意义吗?还是纯粹的技术炫技?

https://flash-moe.github.io/


本文由梅梅撰写,发布于开源派 osp.io