Transformer Debugger (TDB) 是由 OpenAI 的 Superalignment 团队开发的一种工具,旨在支持对小型语言模型特定行为的调查。该工具将自动可解释性技术与稀疏自动编码器相结合。基于Python编写,遵守MIT开源协议。

Transformer Debugger (TDB)能够在需要编写代码之前进行快速探索,可以用于回答“为什么模型对于这一提示输出了令牌 A 而不是令牌 B”之类的问题。通过识别对行为有贡献的特定组件(神经元、注意力头、自动编码器 latents),显示自动生成的解释来分析导致这些组件最强烈激活的原因,并跟踪组件之间的连接以帮助人们发现联系,以此来帮助人们进行 Transformer 的 debug 工作。

源代码:https://github.com/openai/transformer-debugger