你敢信?当年花了OpenAI 43万美元训练的GPT-2,现在100美元就能在家复现。
Andrej Karpathy刚发布的nanochat,直接在GitHub上炸开了锅——46k+星标,一周新增的。没办法,这个项目实在太香了。

事情是这样的

2019年,OpenAI首次”不小心”放出GPT-2 1.5B模型,整个AI圈都惊到了。那时候训练这么个模型,需要8张GPU跑好几天,成本大概43万美元。
但七年后的今天呢?
不到100美元,2小时,8张H100 GPU——你就能训练一个和当年GPT-2能力相当的模型。
Karpathy在项目里搞了个”GPT-2速度榜”,记录社区的冲榜成绩。目前最好的成绩是1.8小时,而且这个榜单还在不断被刷新。
https://s3-img.meituan.net/v1/mss_3d027b52ec5a4d589e68050845611e68/ff/n0/0h/n1/29_388870.jpg@596w_1l.jpg

这个项目有多简单?

nanochat的代码极其简洁——所有LLM训练流程都压缩到了一个项目里:
  • 分词(tokenization)
  • 预训练(pretraining)
  • 微调(finetuning)
  • 评估(evaluation)
  • 推理(inference)
  • 聊天UI
Karpathy的目标是让它成为一个极简、可黑改的基线代码。他甚至说,这不是什么”框架”,就是一个能跑通的参考实现。
项目里就一个核心 dial——--depth,控制模型层数。从12层(GPT-1级别)到40+层,所有其他超参数都会自动计算,保证训练出的是”计算最优”模型。

怎么玩?

最简单的方式是租一台8卡H100的GPU机器(比如Lambda,一小时大概3美元),然后:
bash runs/speedrun.sh
跑完之后,启动聊天界面:
python -m scripts.chat_web
然后你就能和它聊天了。问它”为什么天空是蓝色的”,或者让它写首诗——虽然它只是个”幼儿园水平”的模型,但那种和”自己训练的AI”对话的成就感,完全不一样。

意义在哪?

我仔细想了想这件事的意义。
七年前,训练GPT-2是只有大公司才能玩得起的游戏。现在,一个普通开发者、研究生、甚至有兴趣的业余玩家,都可以自己跑一遍完整的LLM训练流程。
这意味着:
  • 学习成本大幅降低
  • 实验门槛大幅降低
  • 更多人可以参与到这个领域的创新中来
nanochat的意义不是要挑战什么商业模型,而是让更多人能够亲手摸到、跑通、理解大语言模型到底是怎么炼成的。
这很Karpathy——他一直致力于让AI技术变得更可及。

感兴趣的话,去GitHub看看:https://github.com/karpathy/nanochat
记得顺便点个star,这个项目值得。