Shikun Liu、Linxi Fan、Edward Johns、Zhiding Yu、Chaowei Xiao、および Anima Anandkumar
私たちは、プリスマーを紹介します。プリズマーは、情報とパラメーターの環境を啓発する視覚言語モデルであり、多くの経験豊富なアリーナの専門家の集団を活用しています。 Prismer は、2 桁も少ない練習情報しか必要としないにもかかわらず、異常なヒス オブ アートに匹敵する、正直に調整された少数ショット学習視覚言語推論パフォーマンスを達成します。
Tech Suppose 2023
膨大な数のプロジェクトのコレクションを通じて、幅広いプレエキスパートのファッションが、独特の一般化能力を常に発揮しています。 あるいは、これらの機能は、実践と推論に必要な計算リソースの方法論によって多額のコストでアプローチします。 視覚と言語の学習における考慮事項は、おそらくもはや容易ではありません。 このアリーナは、言語処理の厳密な大規模な場所であり、さらに、目に見えるマルチモーダルな推論には奇妙な特別なスキルが必要です。 奇妙な解決策は、膨大な量の画像とテキストの情報を利用して、これらのモダリティ固有のスキルを最初から、同時に、そして同じ一般的な構造を介してずっと学習する、1 つの広くモノリシックなモデルを実践することです。
変更として、これらのスキルとアリーナ情報を、「エキスパート」と呼ばれる幻想的で別のサブネットワークを介して教えられる変更テクニックを調査します。 そのため、すべての専門家が特定のタスクに対してほぼ確実に個別に最適化され、単一の教育ネットワークでは実現できないアリーナ固有の情報とアーキテクチャの利用が可能になります。 これは、練習効率の向上につながります。モデルは、すべての部分をすぐに教えようとする代わりに、専門的なスキルとアリーナ情報の統合に集中できるため、マルチモーダル学習をスケールダウンするための優れた方法論になります.
これを計画するために、視覚的に調整された自己回帰テキスト技術モデルである Prismer エキスパートが、元のビジョン言語推論プロジェクトのために多数のプレエキスパート アリーナ エキスパートをより多く採用することをお勧めします。 物質を見つけるための Prismer の鍵には、i) 注目に値するビジョン – 最も効率的な Web スケール情報のための最も効率的な方法と言語 – 最も効率的な方法、および ii) モダリティ – 特定のビジョンの専門家が低段階の視覚指標を含む多くの形式の可視情報をコード化することが含まれます。補助情報の維持として、インスタンスおよびセマンティックラベルに相当する深さ、および過度の段階のビジョンインジケーターに相当します。 すべての専門家のファッションは個別に事前に専門化され、凍結されており、いくつかの軽量のトレーニング可能な物質を介してリンクされており、事実上すべての罰金がネットワークパラメーター全体の約 20% を占めています。
Prismer は、予測されたマルチモーダル インジケーターを介して多数の予備専門家の専門家を活用する情報環境教育視覚言語モデルです。 画像キャプションや VQA に匹敵する視覚言語推論プロジェクトを開発する必要があります。
Prismer は、既存のプレエキスパートのライブラリを活用するエンコーダ/デコーダ変換モデルです。専門家。 ビジョン エンコーダーと自己回帰言語デコーダーを備えています。 ビジョン エンコーダーは、RGB 画像とそれに対応するマルチモーダル ラベルを入力として受け取り (たとえば、深さ、光沢のない地面、冷凍されたプレエキスパート エキスパートから予測されたセグメンテーション ラベル)、RGB およびマルチモーダル物質のシーケンスを出力します。 次に、言語デコーダーは、不道徳な注意を介してこれらのマルチモーダル物質に条件付けられ、一連のテキスト トークンを生成します。
Prismer は、トレーニング可能なパラメーターの解像度を最小限に維持しながら、事前に専門家の専門家を十分に活用できるように設計されています。 これを機能させるために、専門家になる前の専門家のネットワークの重みの大部分を凍結して、学習した情報の完全性を維持し、壊滅的な忘却を終わらせます。 マルチモーダル ラベルを Prismer の視覚および言語サブスタンスと同じくらいスマートにハイパーリンクするために、トレーニング可能なサブスタンスを説明する 2 つの形式のパラメータ-環境を挿入します:
専門家リサンプラー: Experts Resampler は潜在的な入力クエリの事前定義された解像度を学習し、知覚者と フラミンゴモデル。 次に、リサンプラーは、補助情報の蒸留の維持として、マルチモーダル物質を、学習された潜在クエリの解像度に等しい価値のあるより小さな解像度のトークンに圧縮します。
アダプター: アダプターには、検出するエンコーダー/デコーダーがあります。は、最初に入力物質をより小さな次元に下方投影し、非線形性を適用した後、物質を通常の入力次元に上方投影します。 残りの接続を使用して、すべてのアダプターをリーチ ゼロの重みで初期化し、id 機能を近似します。 言語デコーダー内の弱い不道徳な注意ブロックとブレンドされたこのモデルは、アリーナ特有のビジョンの最も効率的なバックボーンと言語の最も効率的なバックボーンからビジョン言語モデルへの危険な移行なしに成功しています。画像とテキストの情報を組み合わせて練習します。
Prismer は生成モデルであり、単一の目的を持つ専門家であり、自己回帰的に次のテキスト トークンを予測します。 そのため、すべての視覚言語推論プロジェクトを言語モデリングまたはプレフィックス言語モデリングの窮状として再定式化します。 マルチモーダル トークンと接頭辞としての要求が与えられると、モデルは目に見える要求応答タスクのレトルトを生成します。 マルチモーダル トークンが与えられると、モデルは画像キャプション タスクのキャプションを生成します。 指示された接頭辞を維持すると、発信終了の雰囲気のように、出力テキストを自己回帰式でパターン化することもできます。 または、クローズドエンドの雰囲気のように、完了のビルド場所からログ確率を汚染することさえできます。
Prismer には、最も重要なトレーニング可能な 2 つの物質があります。変数のマルチモーダル インジケーターを出力のビルド解像度に変換する Experts Resampler と、視覚言語の推論のためのモデルの表現力を強化する Adapter です。 モデルを開発するために、経験豊富な専門家によってエンコードされた豊富なアリーナ固有の情報について偏りのない正しいものを使用します。ネットワークの重みの大部分は、雪の結晶のアイコンで表されるように、練習によって完全に凍結されます。
Prismer には、次の 2 つの形式のプレエキスパート エキスパートが含まれています:
バックボーン エキスパート: ビジョンと言語の両方で最も効率的なプレエキスパート ファッション。画像とテキストを意味のある一連のトークンにエンコードする管理を行っています。 すべてのファッションは、ほぼ完全にトランスフォーマー構造に基づいている必要があるため、同じデザインのいくつかの訓練可能な物質でそれらを結合することを考慮する必要はありません。 ネットワークパラメータ内にエンコードされた豊富なアリーナ固有の情報を消費するために、重みの大部分は、事前に練習することによってずっと凍結されています。
モダリティの専門家: タスクを見つけることができるファッション-実践的なデータセットに依存する特定のラベル。 Prismer には、ビジョン分野から 6 人ものモダリティ専門家が参加し、3 つのローステージ ビジョン インジケーター (深度、グラウンド法線、エッジ) をエンコードします。 オブジェクト ラベル、セグメンテーション ラベル、およびテキスト ラベルの 3 つの過剰ステージ ビジョン インジケーター。 これらのモダリティ エキスパートは薄暗いフィールドの予測子として扱われ、予測されたラベルは Prismer モデルの入力として淡いものになります。 その結果、モダリティ エキスパートのすべてのネットワーク ウェイトが凍結され、いずれかが見つかるように維持されます。
Prismer と同様にスマートに、我々は PrismerZ という名前のモデルバリアントをさらに導入します。これは、頑丈なバックボーンの専門家の活力に完全に依存しています。モダリティがゼロの専門家です。 PrismerZ には、通常の Prismer と同じアーキテクチャがありますが、Experts Resampler はありません。 PrismerZ は、最も効率的に RGB 画像を必要とするため、ソリューションの推論プロセスを簡素化し、より雰囲気を高め、より幅広いアプリケーションに適用できるようにします。 Prismer は、エキスパート ラベルでの情報処理の必要性に起因する情報推論の環境教育にはあまり適していませんが、これによりさらに大きなパフォーマンスが維持されます。
Prismer と PrismerZ はそれぞれ Vision Transformer プレエキスパート by CLIP フリーズビジョンエンコーダ、および RoBERTa 凍結された言語デコーダーとして。 BASE と LARGE の 2 つのモデル サイズで実験します。 BASE モデルは、ViT-B/16 と RoBERTaBASE
Resampler
言語デコーダー
ベース
768 ViT-B/16
1024 360M
24
構造サイズごとに消費するバックボーンを、対応するレイヤーの解像度と幅とともに特徴付けます。 さらに、すべての構造のトレーニング可能なパラメーターと合計パラメーターの解像度を特徴付けます。 情報推論に必要な全体的なパラメーターを数えます。これには、Prismer モデルで 6 億 5400 万パラメーターの混合パラメーター サイズを持つ追加の 6 つのモダリティ エキスパートが含まれます。
Prismer と PrismerZ の両方が、モデルを熟考して成功するパフォーマンスを計画できることを提示しますこれは、頑丈なバックボーンの専門家が本質的に事実の一般化を管理していることを意味します。 あるいは、モダリティの専門家は、画像キャプション プロジェクトや LARGE モデル バリアント内で、パフォーマンスをさらに強化することを提案しています。 Prismer は、 と同様の画像キャプション パフォーマンスを終了しました。 BLIP と LEMON、それぞれ 10 ケースと 20 ケースの専門家であるにもかかわらず、情報が少ない。 さらに、プリズマーはと同等のVQAv2精度を達成していますGIT, 60ケースの専門家であるにもかかわらず、情報が少ない. Prismer と異常なアートワークのヒスノイズ VLM との間に顕著なパフォーマンス ギャップがあることは認識していますが ( に匹敵) CoCa, GIT-2
それぞれの Prismer と PrismerZ は、同じモデル サイズの他の VLM を次に配置すると、NoCaps および VQAv2 データセットで正直に調整されたパフォーマンスが正常に終了しました。 Prismer は、桁違いに多くの情報に精通している VLM と同等の競争力のあるパフォーマンスを計画できます。 バブルのスケールは、マルチモーダルの事前練習を介してトレーニング可能なネットワーク パラメーターの解像度を表します。
私たちのジェネレーティブな事前練習方法は、ゼロショットの一般化を可能にします。そこでは、余分な正直な調整なしで、ファッションが画像キャプション プロジェクトにほぼ確実にすぐに適用されます。 次のデスクでは、Prismer が と同様のパフォーマンスを達成することを示します。 SimVLM の NoCaps データセットで、140 ケースの活用としても実践的な情報が少ない。 さらに、Prismer ファッションのゼロ ショット パフォーマンスは、OSCAR と VinVL、古い部分に示されています。
B@4 | M C S | ゼロキャップ | 2.6 | 11.5 14.6 5.5 | |
---|
16.9
– –
C | 47.7 ) | 9.1 | MetalLM | ) | 58.7 | 8.6 VLKD | 63.6 12.8 102.2 |
|
---|