PaLM-E: 具現化されたマルチモーダル言語モデル
概要
きらめく言語ユニットは、複雑なタスクを実行することが実証されていました。 あるいは、たとえばロボット工学の懸念など、主張の世界でファッションド推論を有効にすると、グラウンディングの使命が高まります。 私たちは、具体化された言語ユニットが突然、真の世界で正確なセンサーモダリティを言語ユニットに組み込み、それによってフレーズと知覚の間のリンクを設定することを暗示しています。 私たちの具現化された言語モデルへの入力は、目に見える正確な歌の推定とテキスト入力エンコーディングをインターリーブするマルチモーダル文です。 これらのエンコーディングは、一連のロボット操作の計画、目に見える質問への回答、キャプションなど、いくつかの具現化されたタスクに対して、専門家の前の巨大な言語モデルとともに、結論から結論へと向かうと言います。 私たちのレビューは、単一の巨大な具現化されたマルチモーダルモデルであるPaLM-Eが、観察モダリティの展開から、具現化された推論タスクの展開に対処できることを示しています。 特定の転送 : このモデルは、Web スケールの言語、視覚、および視覚言語のドメイン全体にわたる多様な共同コーチングの恩恵を受けています。 私たちの最大のモデルである PaLM-E-562B は、562B パラメーターを持ち、ロボット工学タスクの専門家であることに加えて、OK-VQA で最高の芸術効率を誇る視覚言語ジェネラリストであり、規模が拡大してもジェネラリスト言語能力を保持しています。
PaLM-E の主要なアーキテクチャのアイデアは、ショット、歌の推定、またはその他のセンサー モダリティなどの正確で具現化された観察を、専門家になる前の言語モデルの言語埋め込み状況に注入することです。 これは、言語トークンの埋め込み状況により、正確な観測を同じ次元のベクトルのシーケンスにエンコードすることによって実現されます。 したがって、パワー知識は、言語トークンと同じ手段で言語モデルに注入されます。 PaLM-E は、接頭辞が与えられた場合、または実際に役立つ場合に、自己回帰的にテキスト補完を生成する、デコーダーに最適な LLM です。 モデルをPaLM-Eと呼びます。 PaLM (Chowdhery et al., 2022) をプレエキスパート言語モデルとして作成し、E 実体化。
PaLM-E がどのように熟成され、長期にわたって達成されるかを示すビデオの例をいくつか示します。 2つの多様な真の具現化に関するホライゾンタスク。 これらの結果はすべて、すべてのデータに対して同じモデルの専門家が使用したものであることを提示してください。 主なビデオでは、ロボットのカメラから目に見える概念を組み込むことに加えて、いくつかの計画ステップを含む、「引き出しからライスチップを持ってきて」という長期的な指示を達成します。 最後に、指示が「緑のメガスターを連れてきて」という同じロボットの別の例を示します。 緑のメガスターは、このロボットが突然さらされたわけではありません。
次の割り当てでは、PaLM-E がブロックを並べる卓上ロボット。 私たちは、PaLM-E が可視化と言語入力に従っていくつかのフェーズをうまく計画できることを示しています。 私たちのモデルは、「色ごとにブロックを多様なコーナーに並べる」長期にわたる作業をうまく計画することができます。 それでも、いくつかのフェーズで計画を立て、長期的な視野で目に見えるコンセプトを組み込む他のすべての例. 最後に、このロボットの長い地平線を押すタスクの別の例を示します。 最初の指示は「コミュニティへの最後のブロックを自走させる」です。 PaLM-E は、「黄色の六角形をゴルフ場のグリーン メガスターに移動する」、「青い三角形をコミュニティに移動する」など、低段階のポリシーに対して段階的な指示を順番に実行します。
長い時間軸で目に見える概念を取り入れる
次に、一般化の例を 2 つ示します。 ケースの下には「赤いブロックをコーヒーカップに押し付けてください」と書かれています。 データセットには、コーヒー カップが入った最も優れた 3 つのデモンストレーションが含まれていますが、いずれも赤いブロックが統合されていません。 もう 1 つの一般化の例を示します。ここでは、命令は「緑のブロックをタートルに押し付けます」です。 ロボットは、カメのことをすぐに考慮したことがないとしても、この仕事を成功裏に達成することができます。
ロボット計画の新機能のロックを解除するのと同じくらい賢く。 PaLM-E は、正当な想像力と先見の明のある言語モデルです。 私たちの
紙をお試しください より重要な側面については、その下の dmeo を垣間見ることができます.
デモ
下の例はすべて例の補完です (オレンジ色で)PaLM-E から。 本当のことを言うと、1 つまたは複数のショットと灰色のテキストが役に立ちます。
灰色のテキストは提案されています.
オレンジ色のPaLM-E応答
謝辞
アドバイス、教唆、サポート: Xi Chen、Etienne Pot、Sebastian Goodman、Ted Xiao、Keerthana Gopalakrishnan、Kehang Han、Henryk Michalewski、Neil Houlsby、Basil Mustafa、Justin Gilmer、Yonghui Wu、Erica Moreira、Victor Gomes、Tom Duerig、そしてケンドラ・バーン。