著者: 黄少漢, 李東、王文輝、ヤルハオ, サクシャムSinghal, Shming Ma )、テンチャオLv、レイ・クイ, オワイスカーン モハメッド, チャン リュー
、クリティ・アガルワル、Zewen Chi, ヨハン・ビョルク, Vishrav Chaudhary, スホジット・ソム, Xia Song, Furu Wei
PDFダウンロード
要約: 言語、マルチモーダルな知覚、行動、世界のモデル化の巨大な収束は、人工の基礎知性に向けた重要なステップです。 この作業では、基本的なモダリティを目撃し、コンテキストで教えられ (つまり、少数のショット)、指示を適用する (つまり、ゼロショット) 可能性がある Multimodal Immense Language Mannequin (MLLM) である Kosmos-1 を紹介します。 特に、任意にインターリーブされたテキストと写真、画像とキャプションのペア、およびテキストの事実を含む、Web スケールのマルチモーダル コーパスで Kosmos-1 をゼロから教育します。 勾配の更新や微調整を行わない膨大な数のタスクで、ゼロ ショット、少数ショット、マルチモーダルな一連の思考プロンプトなど、多様な設定を認識しています。 実験結果によると、Kosmos-1 は、(i) 言語認識、スキル、さらには OCR を使用しない NLP (現時点ではドキュメント画像が供給されています)、(ii) マルチモーダル ダイアログ、画像キャプション、目に見えるクイズの答え、および (iii) 説明付きの画像認識 (テキスト方向のアプローチによる分類の指定) と同様の想像力と先見の明のあるタスク。 さらに、MLLM は厄介なモーダル スイッチの利点、つまり、知識を言語からマルチモーダルに、マルチモーダルから言語に切り替えることができると考えています。 まず、MLLM の非言語的推論機能を診断する Raven IQ テストのデータセットを紹介します。