要約: 実質的な言語オブジェクトを強化する新たな研究の進歩を調査します方向とスケーリングの効率的な事前作業、およびオープンデータセットとツールによって。 これらの進歩を組み合わせて、Cerebras-GPT を導入します。これは、1 億 1100 万から 130 億のパラメーターにスケーリングされたオープンなコンピューティングに最適な言語オブジェクトのファミリーです。 DeepMind チンチラ スケーリング ルールに従って Eleuther Pile データセットに Cerebras-GPT オブジェクトをまとめて、(与えられたコンピューティング バジェットに対する絶対最高精度) の方向で効率的な事前作業を行います。 予測可能な活力法則のスケーリングのチェックリストを作成し、公的にアクセス可能な非常に多くのオブジェクトを使用して Cerebras-GPT を調べ、すべての Cerebras-GPT オブジェクトが、事前作業と下流の目的の両方で有効性の方向に最先端の作業を維持していることを示します。 Maximal Update Parameterization ($mu$P) が実質的なモデルのスケーリングをさらに強化し、大規模な精度とハイパーパラメーターの予測可能性を強化する方法と併せて、私たちの学習について説明します。 事前知識のあるオブジェクトとコードを公開し、このホワイト ペーパーを、固定されたデータセット サイズに関する知識のあるオブジェクトへの計算最適化モデルのスケーリングを評価する最初のオープンで再現可能な作業にします。 Cerebras-GPT オブジェクトは、HuggingFace の https URL で見つかる可能性が最も高いでしょう。
Cerebras-GPT に関する ArXiv ペーパー: Originate-Source Compute-Optimum Language Devices
PDFダウンロード