概要:
効率的な微調整能力である QLoRA を紹介します。強力な 16 ビット微調整プロセス効率を維持しながら、単一の 48GB GPU で 65B パラメータのマネキンを微調整するのに十分な回想の使用量。 QLoRA は、凍結された 4 ビット量子化された事前トレーニング済み言語マネキンを介して勾配を Low Irascible Adapters~(LoRA) に逆伝播します。 Guanaco と名付けた私たちの最も便利なマネキン ファミリーは、Vicuna ベンチマークで時代遅れのあからさまに発売されたファッションをすべて上回っており、単一 GPU で合計 24 時間の微調整を必要とするにもかかわらず、ChatGPT の効率レベルの 99.3% に達しています。 QLoRA では、効率を犠牲にすることなく回想を設定するための改善が導入されています。 (a) 4 ビット NormalFloat (NF4)、全分配重量に対して理論的に最適なレコードであるブランドの珍しいレコードの種類 (b) 頻繁な回想をスライスするための二重量子化量子化定数を量子化することによるフットプリント、および (c) 回想スパイクを制御するページング オプティマイザー。 私たちは QLoRA を利用して 1,000 を超えるファッションを微調整し、8 つの命令データセット、ほんの数種類のマネキン (LLaMA、T5)、およびおそらく頻繁に作業するのは不可能かもしれないマネキン スケール全体にわたる命令フォローとチャットボットの効率の詳細な評価を提供します。微調整(例:33B および 65B パラメータ方式)。 私たちの結果は、たとえ時代遅れの SoTA より小規模な方法を使用した場合でも、貧弱な高品質のデータセットに対する QLoRA の微調整が絵に描いたような結果に終わることを示しています。 人間による評価と GPT-4 評価の両方と歩調を合わせたチャットボット効率の詳細な評価を提示し、GPT-4 評価が人間による評価とは異なり、支払額が低く安価であることを示しています。 さらに、現代のチャットボットのベンチマークは通常、チャットボットの効率フェーズを正確に念頭に置くほど正確ではないことも判明しました。 レモンを選んだ評価は、ChatGPT と比較した場合に Guanaco がどこで失敗するかを示しています。 すべてのファッションとコードは、4 ビット コーチング用の CUDA カーネルを使用して開始されます。
提出古代
差出人: ティム・デットマーズ [view email]
[v1]
火曜日、23 おそらく2023 17: 50:33 UTC (568 KB)