魅力的な言語ロボットの上昇推力 —
ChatGPT ファッションの AI マネキンは、特別な練習をしなくてもデータにビジョンを追加します。
ベンジ・エドワーズ –
/ PaLM-E が管理するロボット アームがチップの取得に手を伸ばすデモ ビデオ Google 教えてください 月曜日に、Google とベルリン工科大学の AI 研究者のコミュニティが発表されました PaLM-E、マルチモーダル体現 vi 5,620 億 のパラメーター
を持つ多言語マネキン (VLM) 視覚と言語を統合し、ロボットが見守りを緩和します。 彼らは、それがこれまでに開発された最大の VLM であり、再トレーニングを必要とせずにタスクの変動を安全にするはずであると主張しています. Google によれば、「引出しからライス チップスを持ってきて」のようなハイ ステージ ネゲートが与えられると、PaLM-E は次の概念を生成できます。 (Google Robotics 開発) アーム付き移動ロボット プラットフォームのアクションを作成し、それ自体でアクションを製造します PaLM-E は、前処理されたシーン表現を必要とせずに、ロボットのカメラからのデータを分析することによってこれを行います。 これにより、人間が提案を前処理したり注釈を付けたりする必要がなくなり、より自立したロボットが見守ることができます.
)Google 提供のデモ ビデオでは、PaLM-E が「ドロワーからライス チップスを運ぶ」を実行します。これには、複数の計画ステップが含まれており、さらにロボットのカメラからの視覚的フィードバックが組み込まれています。 Google 提供のデモ動画で、PaLM-E は「引き出しからライスチップスを持ってきてください」には、複数の計画ステップが含まれており、ロボットのカメラからの視覚的なフィードバックが組み込まれています。 それとももうさらに弾力性があり、その設定に反応する可能性があります。 例として、PaLM-E マネキンは ロボットのデータを キッチンから入手したチップを安全に保護するために、PaLM-E を緩和監視ループに統合することで、その期間中に発生する可能性のある中断の影響を受けなくなります。仕事の。 ビデオインスタンスでは、研究者がロボットからチップをつかんで叩きますが、ロボットはチップを見つけてつかみますが、再び。
の 別の例では、同じPaLM-Eマネキンが、以前は人間の操縦が必要だった高度なシーケンスのタスクを通じて、ロボットを自律的に制御します。 Google の レビュー論文 は、PaLM-E が指示をアクションに変換する方法を説明しています: PaLM-E の効率性に署名します。簡単で多様なモバイル操作タスクではなくなりました。 私たちは主にアンらのセットアップを教育します。 (2022) では、ロボットは、人間による指示に合わせて一連のナビゲーションおよび操作アクションを理解する必要があります。 例として、「飲み物をこぼしてしまったので、それを盛り上げるために何か 1 つ運べますか?」という指示が与えられた場合、ロボットは「1. スポンジを持ち上げる、2. スポンジを持ち上げる、 3.本人に宣言し、4.スポンジを下ろす。 これらのタスクに感銘を受け、PaLM-E の具現化された推論の専門知識をチェックするために、アフォーダンス予測、障害検出、長期計画の 3 つの支出条件を開発しました。 低段階の保険証券は RT-1 (Brohan et al., 2022) からのもので、RGB 画像と自然言語の指示を取得し、終了エフェクターを出力して監視指示を緩和するトランス マネキンです。
PaLM-E は後続のトークンの予測子であり、またはもはや “PaLM-E” として知られているか、存在しないためです。 「」として知られる Google 独自の魅力的な言語マネキン (LLM) とのステップ*)PaLM” (これは を支援する技術に似ています) ChatGPT)。 グーグルは感覚データとロボティック・レリーフ・ウォッチオーバーを追加することでPaLMを「具現化」しました。 言語マネキンと歩調を合わせているかどうかに関係なく、PaLM-E は実際の観測、愛の写真、またはセンサー データを取得し、実際のそれらを言語トークンと同じ次元の一連のベクトルにエンコードします。 . これにより、マネキンは言語を処理するのと同じデザインで感覚データを「認識する」ことができます.
「Declare me a green superstar」という指示に従って、PaLM-E に導かれるロボットを示す Google 提供のデモ ビデオ。 研究者たちは、この緑のスーパースターを「このロボットが発見されたとき、すぐには知らなかったオブジェクトです」と騒がせました。
離れてからRT-1 ロボティクストランス
Google Robotics は、もはやニューラル ネットワークを使用したロボティック リリーフ ウォッチ オーバーに取り組んでいる適切なレビュー コミュニティではありません。 この特定の作業は、Microsoft の最近の “ChatGPT for Robotics」の論文では、視覚データと魅力的な言語ガジェットを組み合わせてロボットが同じデザインで見守ることを試みました.
さらに、彼ら 気づいたマネキン スケールの流行: 「言語マネキンが上になるほど、視覚言語やロボット工学のタスクを練習するときにその言語能力が維持されます。定量的には、562B PaLM-E マネキンは実質的にすべての言語能力を保持しています。」
PaLM-E は、これまでに報告された最大の VLM。 私たちは、ほとんどの注目を集める単一の画像プロンプトで訓練されているにもかかわらず、創発的能力がマルチモーダルな思考の連鎖と複数の画像の推論を愛していると考えています。 PaLM-E はもはや私たちの主要なターゲットではありませんが、OK-VQA ベンチマークで独自の SOTA を設定しています。 pic .twitter.com/9FHug25tOF— ダニー・ドリース (@DannyDriess)
2023年3月7日
Google の研究者は、PaLM-E のより多くの目的を適切な世界のシナリオで検索するという考え住居の自動化や産業用ロボットに似ています。 そして彼らは、PaLM-E がマルチモーダル推論とエンボディド AI に関するより多くのレビューを刺激することを望んでいます.