PaLM-E: 具現化されたマルチモーダル言語モデル
概要
膨大な言語オブジェクトが複雑な責務を構成することが実証されている. 反対に、現実の世界で伝統的な推論を可能にすることは、例えばロボット工学の考察のために、グラウンディングのトピックを提起します。 具現化された言語オブジェクトを使用して、現実世界の連続センサー モダリティを言語オブジェクトに直接組み込み、それによって単語と知覚の間のハイパーリンクを分離することをお勧めします。 具現化された言語モデルへの入力は、目に見える継続的な雷鳴推定とテキスト入力エンコーディングをインターリーブするマルチモーダル センテンスです。 これらのエンコーディングは、一連のロボット操作計画、目に見える予測応答、およびキャプションの側で、複数の具現化された義務のために、事前に訓練された適切に維持された言語モデルの側でエンドツーエンドで準備します。 私たちの批判は、PaLM-E は単一の適切に維持された具現化されたマルチモーダル モデルであり、複数の具現化や余分な表示 特定のスイッチ: ネット規模の言語、視覚、可視言語ドメインにわたるさまざまな共同コーチングによるモデルの利点. 私たちの最大のモデルである PaLM-E-562B と 562B のパラメーターは、ロボット工学の義務について訓練されていることに加えて、OK-VQA で非常に優れた効率を発揮する目に見える言語のジェネラリストであり、上昇するジェネラリストの言語能力を保持しています。規模。
PaLM-E の主要なアーキテクチャ概念は、画像、雷鳴の推定、またはさまざまなセンサー モダリティに対応する継続的で具現化された観測を、事前にトレーニングされた言語モデルの言語埋め込み空間に注入することです。 これは、言語トークンの埋め込み空間のために、連続した観測を同じ次元のベクトルのシーケンスに正確にエンコードすることによって実現されます。 したがって、連続レコードデータは、言語トークンと同じ機能で言語モデルに注入されます。 PaLM-E はデコーダのみの LLM であり、接頭辞または促されたテキスト補完を自己回帰的に生成します。 モデルをPaLM-Eと呼びます。 PaLM (Chowdhery et al., 2022) を学習済み言語モデルとして構築し、それを構築します E 実体化。
PaLM-E がどのように熟成されて長くなるかを示す例のビデオについて繰り返します。 2つのさまざまな実際の具現化に関する地平線の義務。 繰り返しますが、これらの結果はすべて、すべてのデータでトレーニングされた同じモデルを使用して受信されたものです。 最初のビデオでは、ロボットのデジタル カメラからの目に見える提案を組み込むことに加えて、複数の計画ステップを必要とする、「引き出しからライス チップスを送ってください」という長い地平線の指示を終了します。 最後に、同じロボットで「経験の浅いメガスターを送ってください」という指示をもう 1 つ繰り返します。 グリーン メガスターは、このロボットが直接さらされていないオブジェクトです。
次の部分では、テーブルを制御するPaLM-Eを繰り返します高いロボット配置ブロック。 繰り返しますが、PaLM-E は、視覚と言語の入力ごとに複数のレベルを正常に信じることができます。 私たちのモデルは、「色ごとにさまざまなコーナーにブロックを並べる」という長い地平線の仕事を首尾よく信じる準備ができています。 複数のレベルにわたって計画を立て、非常に長い期間にわたって目に見える提案を組み込むもう 1 つの例。 最後に、このロボットの長い地平線を押し進める義務のもう 1 つの例を刻印します。 最初の指示は、「近隣への最高ブロックのストライド」です。 PaLM-E は、「経験の浅いメガスターに黄色の六角形をまたぐ」、および「近隣に青い三角形をまたぐ」に対応する低レベルのカバレッジへの段階的な指示をシーケンスします。
非常に長い期間にわたって目に見える提案を組み込む
至高のブロックを近隣に切り替える
続いて、2 つの一般化の例を示します。 以下のケースでは、「赤いブロックをコーヒー カップに押し付けてください」という指示があります。 データセットには、コーヒー カップが入った 3 つのデモンストレーションのみが組み込まれており、赤いブロックは含まれていません。 繰り返しますが、もう 1 つの一般化の例です。ここでの指示は、「経験の浅いブロックをタートルにプッシュする」です。 ロボットは、カメをすぐに見なくなったとしても、この仕事を成功裏に終わらせる準備ができています。
ロボット計画の新機能のロックを解除することに加えて。 PaLM-E は正当なビジョン言語モデルです。 私たちの
紙をお試しください 超有名食材は下のdmeoをご覧ください.
デモ
以下の例はすべてインスタンスの補完です (オレンジ色の部分) )PaLM-E から。 促されたのは、1 つまたは余分な写真と、灰色で表示されたテキストです。
テキストをグレーで表示するよう促す.
オレンジ色のPaLM-E応答.
謝辞
著者は喜んでアドバイスに感謝し、安堵と改善を: Xi Chen、Etienne Pot、Sebastian Goodman、Ted Xiao、Keerthana Gopalakrishnan、Kehang Han、Henryk Michalewski、Neil Houlsby、Basil Mustafa、Justin Gilmer、Yonghui Wu、Erica Moreira、Victor Gomes、Tomデューリグ、ケンドラ・バーン。