700块钱训练自己的GPT-2？Karpathy又来颠覆认知了

你敢信？当年花了OpenAI 43万美元训练的GPT-2，现在100美元就能在家复现。

Andrej Karpathy刚发布的nanochat，直接在GitHub上炸开了锅——46k+星标，一周新增的。没办法，这个项目实在太香了。

事情是这样的

2019年，OpenAI首次”不小心”放出GPT-2 1.5B模型，整个AI圈都惊到了。那时候训练这么个模型，需要8张GPU跑好几天，成本大概43万美元。

但七年后的今天呢？

不到100美元，2小时，8张H100 GPU——你就能训练一个和当年GPT-2能力相当的模型。

Karpathy在项目里搞了个”GPT-2速度榜”，记录社区的冲榜成绩。目前最好的成绩是1.8小时，而且这个榜单还在不断被刷新。

nanochat的代码极其简洁——所有LLM训练流程都压缩到了一个项目里：

Karpathy的目标是让它成为一个极简、可黑改的基线代码。他甚至说，这不是什么”框架”，就是一个能跑通的参考实现。

项目里就一个核心 dial——--depth，控制模型层数。从12层（GPT-1级别）到40+层，所有其他超参数都会自动计算，保证训练出的是”计算最优”模型。

最简单的方式是租一台8卡H100的GPU机器（比如Lambda，一小时大概3美元），然后：

bash runs/speedrun.sh

跑完之后，启动聊天界面：

python -m scripts.chat_web

然后你就能和它聊天了。问它”为什么天空是蓝色的”，或者让它写首诗——虽然它只是个”幼儿园水平”的模型，但那种和”自己训练的AI”对话的成就感，完全不一样。

我仔细想了想这件事的意义。

七年前，训练GPT-2是只有大公司才能玩得起的游戏。现在，一个普通开发者、研究生、甚至有兴趣的业余玩家，都可以自己跑一遍完整的LLM训练流程。

这意味着：

nanochat的意义不是要挑战什么商业模型，而是让更多人能够亲手摸到、跑通、理解大语言模型到底是怎么炼成的。

这很Karpathy——他一直致力于让AI技术变得更可及。

感兴趣的话，去GitHub看看：https://github.com/karpathy/nanochat

记得顺便点个star，这个项目值得。