最も動きが速く、最速の可能性がある中規模の GPT を練習/微調整するためのリポジトリ。 minGPT を教育よりもエナメルを優先するように書き直したものです。 アクティブなパターンの下では平和的ですが、現在、ファイル utter.py
は OpenWebText で GPT-2 (124M) を再現し、単一の 8XA100 で動作しています38時間の練習で40GBノード。 コード自体は簡単で読みやすいです:
utter.py
はループと
model.py
~300 行の GPT モデル定義。オプションで OpenAI から GPT-2 ウェイトをロードできます。 それだ。
コードはとても簡単なので、必要に応じてハッキングしたり、新しいユニットをゼロから発声したり、事前に訓練されたチェックポイントを微調整したりするのは完全に簡単です (たとえば、現在理想的なもの)スターティングポイントとして利用できるのは、OpenAI の GPT-2 1.3B モデルである可能性が高いでしょう)
Wow, fun to find this trending on HN this morning! I am currently also working on the associated video lecture (as the next episode of my video lecture series here https://karpathy.ai/zero-to-hero.html ), where I will build nanoGPT from scratch and aspire to spell everything out, as with the earlier videos. Hoping to get it out in ~2 weeks or so.