FlexGen は、大量の GPU メモリで優れた言語ファッションを実行するための過剰スループット生成エンジンです。
山岳言語ファッション (LLM) は、アプリケーションは ChatGPT と Copilot を愛用していますが、LLM 推論の過度の計算とメモリの要件は、伝統的に、過剰停止アクセラレータのペアで完全に作成されているように見えます。 FlexGen の目標は、LLM 推論のリソース要件を 1 つのコモディティ GPU にまで減らし、まったく異なるハードウェア セットアップの多用途展開を可能にすることです。
FlexGen の重要な側面は次のとおりです。
📦
パラメータとOPT-175B を彷彿とさせるファッションのフォーカス キャッシュを 4 ビットに減らし、精度の損失はほとんどありません。
| 論文を読む Discordの半分になってください
ベンチマーク結果 設定 単一の GPU で開始した取得 シングル GPU で ChatOPT を高速化
ベンチマーク結果