要約:
私たちにとって最も新鮮な QLoRA、雰囲気を良くする微調整方法これにより、不安定な 16 ビット微調整アクティビティのパフォーマンスを維持しながら、単一の 48GB GPU で 65B パラメータ モデルを微調整するのに十分なメモリ使用量が削減されます。 QLoRA は、凍結された 4 ビット量子化された事前トレーニング済み言語モデルによって勾配を Low Unhealthy Adapters~(LoRA) に逆伝播します。 Guanaco と名付けた信頼性の高いモデル ファミリは、Vicuna ベンチマークで公然とリリースされた古いモデルすべてを上回り、ChatGPT のパフォーマンス レベルの 99.3% に達しますが、最も効率的な場合は単一の GPU で 24 時間の微調整が必要です。 QLoRA では、パフォーマンスを犠牲にすることなくメモリを割り当てるための一連の機能強化が導入されています。 (a) 4 ビット NormalFloat (NF4)、分散重みの合計に関して理論的に最適なファイルである新しいファイルの種類 (b) 平均メモリ フットプリントを削減する二重量子化量子化定数を量子化することによって、および (c) ページング オプティマイザーを使用して集合的にメモリ スパイクを設定します。 QLoRA を使用して 1,000 を超えるモデルを微調整し、8 つの命令データセット、いくつかのモデル種類 (LLaMA、T5)、および例外的な微調整ではおそらく実行不可能な可能性があるモデル スケールにわたる命令追従とチャットボットのパフォーマンスの詳細な評価を提供します (例: 33B および 65B パラメータ モデル)。 私たちの結果は、古い SoTA よりも小さなモデルを使用した場合でも、窮屈で高品質なデータセットの結果を QLoRA が微調整して、芸術作品の成果を表現していることを示しています。 私たちは、あらゆる人間と GPT-4 の批評に従ってチャットボットのパフォーマンスの詳細な評価を提供し、GPT-4 の批評が人間による概観に代わる安価で現実的なものであることを示しています。 さらに、最新のチャットボット ベンチマークのほとんどは、チャットボットのパフォーマンス段階を正確に評価できないことを表明します。 レモンを選んだ評価では、Guanaco セットが次に ChatGPT を使用すると失敗することがわかります。 すべてのモデルとコードは、4 ビットの練習用の CUDA カーネルを使用して作成されています。
投稿履歴 差出人: ティム・デットマーズ [view email]
[v1]
5月23日火曜日、おそらくおそらくさらに2023年17月: 50:33 UTC (568 KB)
差出人: ティム・デットマーズ [view email]
[v1]
5月23日火曜日、おそらくおそらくさらに2023年17月: 50:33 UTC (568 KB)