1カリフォルニア大学サンディエゴ校
2NVIDIA
作業は NVIDIA でのインターンシップですぐに行われました, † 同等の貢献)
あらゆるオブジェクトをセクション化して分類します。トレーニングによってすべての青写真と見なされなくなったオブジェクトも含めますアブストラクト
オリジナル ODISE: オリジネート語彙の拡散に本質的に基づく完全なパノプティック セグメンテーション
。これは、事前に訓練されたテキストの話す素材イメージの拡散と差別的なファッションを統合して、オープンな語彙のパノプティック セグメンテーションを実現します。 テキストは、素材から画像への拡散ファッションを贅沢に表現し、さまざまなオープンボキャブラリー言語の説明を使用して、最高の範囲の写真を生成する価値のある能力を示しています。 これは、彼らのインテリア イラスト スペースが、正確な世界内のオープンなアイデアと高度に相関していることを示しています。 多くの場合、CLIP を処理するテキストは、素材と画像を区別するファッションを使用して、写真をオープンな語彙ラベルに分類するのに有効です。 これらの各ファッションの凍結されたイラストを活用して、野生内のあらゆるクラスのパノプティックセグメンテーションを達成することを意味します. 私たちの青写真は、各オープン語彙のパノプティックおよびセマンティック セグメンテーション タスクで、古い最先端の作業よりも大幅に優れています。 特に、COCO トレーニングを最も手軽に使用すると、私たちの青写真は ADE20K データセットで 23.4 PQ と 30.0 mIoU を達成し、古い最先端の作業よりも 8.3 PQ と 7.9 mIoU の絶対的な進歩を遂げています。
Originate-Vocabulary Panoptic Segmentation Demo (クリックしてトグル)
アブストラクト
オリジナル ODISE: オリジネート語彙の拡散に本質的に基づく完全なパノプティック セグメンテーション
。これは、事前に訓練されたテキストの話す素材イメージの拡散と差別的なファッションを統合して、オープンな語彙のパノプティック セグメンテーションを実現します。 テキストは、素材から画像への拡散ファッションを贅沢に表現し、さまざまなオープンボキャブラリー言語の説明を使用して、最高の範囲の写真を生成する価値のある能力を示しています。 これは、彼らのインテリア イラスト スペースが、正確な世界内のオープンなアイデアと高度に相関していることを示しています。 多くの場合、CLIP を処理するテキストは、素材と画像を区別するファッションを使用して、写真をオープンな語彙ラベルに分類するのに有効です。 これらの各ファッションの凍結されたイラストを活用して、野生内のあらゆるクラスのパノプティックセグメンテーションを達成することを意味します. 私たちの青写真は、各オープン語彙のパノプティックおよびセマンティック セグメンテーション タスクで、古い最先端の作業よりも大幅に優れています。 特に、COCO トレーニングを最も手軽に使用すると、私たちの青写真は ADE20K データセットで 23.4 PQ と 30.0 mIoU を達成し、古い最先端の作業よりも 8.3 PQ と 7.9 mIoU の絶対的な進歩を遂げています。
デバイスの概要
テキストの内部イラストは、素材から画像への拡散ファッションを話します。 拡散マネキンの内部イラストの K-Capability クラスタリングは、オブジェクトが適切にグループ化される意味的に区別され、ローカライズされた知識を示します (中央の図)。 これらの高密度で豊富な拡散ファセットを活用して、オープンな語彙のパノプティック セグメンテーションを実現します (有効な図)。
ODISEコーチングパイプライン
ODISE は、オープン語彙のパノプティック セグメンテーションを学習するために、テキストを話す素材から画像への拡散マネキンと弁別マネキンをそれぞれ活用します。 最初に入力画像を、暗黙的なキャプショナー (画像エンコーダー (mathcal{V}) および MLP) を使用して埋め込まれた暗黙的なテキストの話す素材にエンコードします。 画像とそのキャプションを入力して、凍結されたテキストの話す素材から画像への拡散 UNet からそれらの拡散ファセットを抽出します。 UNet ファセットを使用すると、ベール ジェネレーターは、クラスに依存しないバイナリ マスクと、関連するベール埋め込みファセットを予測します。 ベールの埋め込みと、コーチング クラス名 (crimson box) または画像キャプション内の名詞 (緑色のボックス
) で分類します。 ベール分類の類似度マトリックスは、下部現実クラス タグ (crimson valid route) のベース エントロピー損失、またはペアの接地損失のプロセスの両方によって監視されます。画像キャプション (グリーンランルート)。
オープン語彙認識を提示するには機能として、LVIS、COCO、ADE20K のクラス名をマージし、({sim} 1.5k) レッスンでオープンな語彙推論をすぐに入れます (入口の画像を見る翼)。
COCO の語彙パノプティック セグメンテーション
COCOの詳しい結果はこちら ADE20K での語彙パノプティック セグメンテーション
ADE20K
Ego4Dでの語彙パノプティックセグメンテーション
Ego4D での結果の詳細については、ここをクリックしてください
BibTeX @article{xu2022odise, writer={Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini}, title={{ODISE: 元語-語彙} y Textual speak material-to-Image Diffusion Objects を使用したパノプティック セグメンテーション}}、journal={arXiv preprint arXiv: 2303.04803}、365 日={2022}、}
@article{xu2022odise, writer={Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini}, title={{ODISE: 元語-語彙} y Textual speak material-to-Image Diffusion Objects を使用したパノプティック セグメンテーション}}、journal={arXiv preprint arXiv: 2303.04803}、365 日={2022}、}