Skip to content
ℕ𝔸𝕊𝔸™ℕ𝕒𝕤𝕒𝕣𝕖™𝕊𝕡𝕒𝕔𝕖𝕏™ https://nasa.re/

Nasare™🚀

フレッシュ スペース & テクノロジー NEWS📢

  • About 𝒩𝒶𝓈𝒶𝓇𝑒™
  • SMART Tools
  • SMART AI
    • Kubeshark PCAP Export/Import
    • Coaching engineering managers to employ on organizational issues
    • Zelda: Hyperlink’s Awakening game engine documentation (2021)
    • Commercial Resupply Services-CRS
  • Show HN
    • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
    • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
    • 主な BGP 増加をレジデンス Windows デスクトップに追加する
    • ガジェットの複雑さが増し、余分な IP の再利用が促進される
    • 新しい GitHub CLI 拡張インストゥルメント
    • Kubernetes を 7,500 ノードにスケーリング (2021 年)
    • Wander アプリ用の軽量なオンザフリット構成ライブラリ
    • Ask HN
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Brand HN: Motion photographs Watchlist Chrome Extension
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Level to HN: A corpulent game of snake encoded in a url
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
    • Show HN
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Android phones will at the moment obtain iPhone-love SOS satellite texting
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Level to HN: A corpulent game of snake encoded in a url
    • Brand HN: Motion photographs Watchlist Chrome Extension
    • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
    • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
    • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
    • Tag HN: Using Key-Value Retail outlets in Serverless Codehooks.io Applications
    • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
    • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
    • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
    • Brand HN: Motion photographs Watchlist Chrome Extension
    • Level to HN: A corpulent game of snake encoded in a url
    • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
    • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
    • Speak HN: What sub $200 product improved HN readers’ 2022
    • Level to HN: An initiate source tool to generate Jet Engine compressors
    • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
    • Insist HN: Ov – characteristic smartly off terminal pager
    • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
    • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
    • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
    • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
  • A Computer virus and a Dilemma
    • OCIS – OwnCloud Countless Scale
    • A Princeton student built an app which is ready to detect if ChatGPT wrote an essay
    • GitHub Is Sued, and We Would possibly perhaps Learn Something About Creative Commons Licensing
    • Adobe’s Command material analysis can be using photos/videos to narrate AI w/o consent
    • Ultralearning a.k.a. how I learned to code
    • Automatic1111 is assist on GitHub after taking away Embedding Links
    • Where Your Sides Came From
    • What Is a Pig Butchering Rip-off?
    • Submit-processing is ruining iPhone photos
    • Clos Topologies and Centralized Retain a watch on in Google’s Datacenter Community
    • Miller Engineering DS-1 House Planetarium
    • Gimel Studio: Non-harmful, 2D image editor
  • Technology
    • Miller Engineering DS-1 House Planetarium
    • Apple Doctors: to construct it as a file it is advisable to electronic mail it to your self
    • The Air India passenger who urinated on a girl has been fired by Wells Fargo
    • The Filesystem Hierarchy Usual Comes to Guix Containers
    • Sooner than it sued Google for copying from Java, Oracle changed into as soon as copying IBM’s SQL (2020)
    • The i3-gaps mission has been merged with i3
    • Making an Alphorn from Scratch
    • Apple: Braille Individual Guides
    • MotherDuck Is a Original Thought
    • The class of CGI and simple make
    • Like a mercurial tour of DragonFly BSD 6.4?
    • computer science
    • AI
    • Artificial intelligence
    • Technology
    • Ai
    • Apple
    • digital
  • TOP HN
    • anti-Mastodon
    • TOP HN
      • Show HN
      • Ask HN
      • coding
      • ガジェットの複雑さが増し、余分な IP の再利用が促進される
      • 新しい GitHub CLI 拡張インストゥルメント
      • Kubernetes を 7,500 ノードにスケーリング (2021 年)
      • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
      • Wander アプリ用の軽量なオンザフリット構成ライブラリ
      • Artificial intelligence
      • 主な BGP 増加をレジデンス Windows デスクトップに追加する
      • Technology
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
      • Brand HN: Motion photographs Watchlist Chrome Extension
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
      • Kubernetes を 7,500 ノードにスケーリング (2021 年)
      • Level to HN: A corpulent game of snake encoded in a url
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Wander アプリ用の軽量なオンザフリット構成ライブラリ
      • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
      • ガジェットの複雑さが増し、余分な IP の再利用が促進される
      • 主な BGP 増加をレジデンス Windows デスクトップに追加する
      • 新しい GitHub CLI 拡張インストゥルメント
      • ロンドンで*ダウン*を継続的に見つめる: Pavement Oddities
      • 報酬 HN: C の 30 行でスピンロック
      • FAA の NOTAM とは何ですか? 航空専門家が機械の仕組みを説明
      • ナノGPT
      • 1 ビット LCD のグレースケール (2022)
      • The Muse (YC W12) は FP&A のシニア ディレクターを採用しています
      • Zen (YC S21) はグロース エンジニアを採用しています
      • Tall Inquire of (YC W21) が B2B 回顧録の幹部を採用
      • Actiondesk (YC S19) は、プロダクト ドレスメーカーを採用しています (4-6 か月の契約)
      • Oven (YC S19) は、Bun を作成するために C/C++ または Zig エンジニアを採用しています。
      • WInd3x, the iPod Bootrom exploit 10 years too unhurried
      • Sign HN: FASTA recordsdata を操作するための FUSE モジュール
      • HN を指します: Socketify.py: PyPy3 および Python3 用の Http/Https および WebSocket サーバー
      • Wage Development Continues to Gradual in the UK and Euro House
      • Stage Supervisor for the unimpressed: 1 Getting started
      • First public free up of Pushup: a brand unique compiler for making net apps in Trip
      • Fixing Cart-Pole Swingup with a Hierarchical Controller
      • Flight Testing the Touchdown Radar for Mars Science Laboratory 2011-06-21T17:36:36Z
      • Flightcontrol (YC W22) is hiring first Developer Recommend
      • Flying boats and other tech for cleaner shipping
      • Four Finalist Touchdown Location Candidates for Mars Science Laboratory 2008-11-19T16:21:01Z
      • France’s prized nuclear sector stalled in Europe’s hour of want
      • French startup unveils new residential thermo-acoustic warmth pump
      • FTC Cracks Down on Firms That Impose Contaminated Noncompete Restrictions
      • FTX’s Aged Prime Lawyer Aided US Authorities in Bankman-Fried Case
      • FY18 NASA lėšų šnypštimas 2017-05-22T00:00:00Z
      • G-3PO: A protocol droid for Ghidra, or GPT-3 for reverse-engineering
      • Gail.com FAQ
      • Gemini-Titan (GT)-6 – Gemini 6 of 7 – 지역 사진 – 외부 지역 1965-12-15T00:00:00Z
      • Geoffrey Hinton Publishes Original Deep Learning Algorithm
      • Germany warns: AI fingers flee already underway (2021)
      • Gimel Studio: Non-harmful, 2D image editor
      • GitHub Availability File
      • GitHub Is Sued, and We Would possibly perhaps Learn Something About Creative Commons Licensing
      • Google needs RISC-V to be a “tier-1” Android architecture
      • Google researcher, lengthy out of math, cracks devilish dispute about gadgets
      • Google start sourced CDC File Transfer from the ashes of Stadia
      • GRC-2003-C-02097 2004-05-01T00:00:00Z
      • GRC-2013-C-05246 2009-11-26T00:00:00Z
      • Hello world!
      • Highlights of Science Launching on SpaceX CRS-15 2018-06-24T00:00:00Z
      • Hilf Al-Fudul
      • HiOperator (YC S16) Is Hiring VP of Engineering
      • HN を指します: Socketify.py: PyPy3 および Python3 用の Http/Https および WebSocket サーバー
      • How kind I blueprint a pair of buttocks?
      • How will the haj switch as international temperatures upward thrust?
      • Human gene linked to bigger brains turned into as soon as born from apparently pointless DNA
      • Hundreds of scientists publish a paper every 5 days
      • In Favor of Friction and Flexibility
      • Indicate HN: Klotho – Change into straightforward code into cloud native code
      • Indoor farming isn’t exact for the smartly off
      • Iranian assault drone came across to have parts from more than a dozen US companies
      • Israeli researcher experiences leak of 235M Twitter-linked e-mail addresses
      • Jam Stations in Low Earth Orbit
      • Jazz Is Freedom
      • JPL-20171102-TECHf-0001-ドローントリップ 人間vs機械 2017-11-17T00:00:00Z
      • JPL에서 NASA의 MSI 콘도미니엄 액셀러레이터 2022-08-25T00:00:00Z
      • JPSO extinct facial recognition abilities to arrest a man. The tech modified into once defective
      • jsc2017e136097 – 12 月 4 日,俄罗斯联邦地区公司 (Roscosmos) 的远征 54-55 号机组人员 Anton Shkaplerov 在俄罗斯 Principal person City 的加加林宇航员训练中心上向整洁的祝福者挥手致意,当时他登上了前往附近的 Chkalovsky Ai 的公共汽车2017-12-04T00:00:00Z
      • Kemble’s Cascade of Stars
      • Kepler-90 マシン (アーティストの考え) 2017-12-14T00:00:00Z
      • Koichi Wakata SpaceX 코칭 2022-06-27T00:00:00Z
      • KSC and Proud to Be Heart-Wide Diversity Tournament 2019-08-20T00:00:00Z
      • KSC ir „Proud to Be Center“ įvairovės turnyras 2019-08-20T00:00:00Z
      • AI
      • Artificial intelligence
      • Auto-Generate
      • anti-Mastodon
      • Awesome
      • BioSentinel
      • CATEGORIES
      • DC
      • Dione
      • Diversity
      • drone racing
      • drones
      • Dulles
      • education
      • Event
      • filmstock
      • Goddard
      • AI
      • Ask HN
      • autonomous
      • coding
      • computer science
      • Clusters
      • Artificial intelligence
        • Ai
        • Apple
        • Tesla
        • digital
        • MESSENGER
        • Device
        • Charts
        • change
        • Shows
        • fraud
        • Former
        • fucking
        • purge
        • Works
        • entering
        • Databases
        • Review
        • Strangely
        • Instinct
        • staff
        • Salesforce
        • intern
        • Involuntary
        • promise
        • Twilio’s
        • nisv live
        • attack
        • Iranian
        • France’s
        • prized
        • infrastructure
        • Debian-based
        • nisv s02 ep03
        • siduction
        • Awesome
        • Calculate
        • Beautiful
        • Linux
        • Start
        • dollar
        • Messier
        • Daughters
        • ‘Breakthrough’
        • obesity
        • Al-Fudul
        • sixty years
        • PyTorch
        • discloses
        • Ancient
        • Stone
        • Popup
        • design
        • public
        • expanding
        • cloud
        • forest
        • startup
        • French
        • batteries
        • fleas
        • spotted
        • Petals
        • language
        • Habitual
        • checking
        • GitHub
        • Availability
        • layers
        • inconsistencies
        • Affair
        • Quasi-War
        • Sergey
        • Irate
        • bestseller
        • necessarily
        • Scientists
        • Titan
        • twitch
        • FGS/NIRISS – Fine Guidance Sensor/Near InfraRed Imager and Slitless Spectrograph
        • infrared
        • ISIM – Integrated Science Instrument Module
        • JHU – Johns Hopkins University
        • JWST – James Webb Space Telescope
        • JWST – James Webb Space Telescope
        • absolute zero
        • Big Bang
        • Peace
        • Studio
        • Making
        • project
        • -gaps
        • warns
        • Germany
        • Braille
        • MotherDuck
        • prototype
        • Challenges
        • Infinite
        • OwnCloud
        • Novel
        • Before
        • copying
        • California
        • getting
        • States
        • Criminal
        • Brother
        • Released
        • Method
        • owners
        • ‘richsession’
        • email
        • Elements
        • Where
        • passenger
        • Hierarchy
        • Filesystem
        • economic
        • Crew Dragon
        • Bridenstine
        • Scientific
        • Heaviosity
        • Patterns
        • Unexpected
        • minimalist
        • Ecode
        • Alpha
        • Wolfram
        • Tailwind
        • HiOperator
        • Klotho
        • TEAMS
        • ROBOTICS
        • Antelope
        • Sponsors
        • Ellen Gertsen
        • Transform
        • Flightcontrol
        • subscriptions
        • Internet
        • Theory-building
        • you’re
        • looking
        • Transfer
        • error’
        • Tails
        • migrate
        • Building
        • Bitmovin
        • Remote
        • PhotoRoom
        • Company
        • Taking
        • Ribbon
        • BibDesk
        • Android
        • profilers
        • phones
        • modern
        • Mastercard
        • private
        • We’ve
        • reportedly
        • Microsoft
        • Artsy
        • trades
        • skilled
        • Polygon
        • Flying
        • Princeton
        • Codemods
        • Coaching
        • UK’s
        • popping
        • sourced
        • Wikipedia
        • admin
        • Indoor
        • quick
        • Mysterious
        • Spotify
        • Fancy
        • Spotify
        • Weird
        • mail-order
        • Recipients
        • computer
        • optics
        • partnership
        • commercial
        • telemetry
        • Crisis
        • billionaire
        • Party
        • Onelab
        • Faster
        • general
        • Adobe’s
        • database
        • FinanceDatabase
        • Numerical
        • Freedom
        • concrete
        • Stacks
        • computer science
        • NASA
    • Show HN
    • Ask HN
    • Technology
    • computer science
    • coding
    • Clusters
    • AI
    • drones
    • autonomous
    • Auto-Generate
    • Ask HN
    • Show HN
    • The SMART Science™
    • google
  • CRYPTO
    • Blockchain
    • farming
    • Billionaires
    • FTX’s
    • FinanceDatabase: A database of 300.000 symbols (ETFs, Currencies, Crypto)
  • Artificial intelligence
  • Toggle search form
  • Replit を使用して Python で ChatGPT プラグインを粉砕してデプロイする (コードを含む)
    Replit を使用して Python で ChatGPT プラグインを粉砕してデプロイする (コードを含む) anti-Mastodon
  • CNET の AI ジャーナリストは、コミットされた大規模な盗作に浸っているように見えます
    CNET の AI ジャーナリストは、コミットされた大規模な盗作に浸っているように見えます anti-Mastodon
  • Quartz64 SATA でさらに早く
    Quartz64 SATA でさらに早く Again
  • Gaggle が Scholar Surveillance ソフトウェア プログラムから LGBTQ キーワードを削除
    Gaggle が Scholar Surveillance ソフトウェア プログラムから LGBTQ キーワードを削除 Artificial intelligence
  • Patterns (YC S21) は、適切な AI アプリ開発プラットフォームを取得するために採用しています
    Patterns (YC S21) は、適切な AI アプリ開発プラットフォームを取得するために採用しています hiring
  • 米国のトウモロコシ – 主に主に主にベースのエタノールは、ガソリンよりも気候に悪い、発見を探す
    米国のトウモロコシ – 主に主に主にベースのエタノールは、ガソリンよりも気候に悪い、発見を探す AI
  • 自己ホスト型 SaaS の選択
    自己ホスト型 SaaS の選択 Alternatives
  • A Computer virus and a Dilemma
    A Computer virus and a Dilemma Technology
  • მარსის სამეცნიერო ლაბორატორიის დაღმართის ეტაპი 2008-11-19T16:21:01Z
    მარსის სამეცნიერო ლაბორატორიის დაღმართის ეტაპი 2008-11-19T16:21:01Z Ask HN
  • MtG アリーナの 100 万件のビデオ ゲームでシャッフルを分析しました
    MtG アリーナの 100 万件のビデオ ゲームでシャッフルを分析しました analyzed
  • Intel および ARM Mac で The Sims 1 に参加するためのファイル
    Intel および ARM Mac で The Sims 1 に参加するためのファイル Artificial intelligence
  • 指摘 HN: DevDB を構築して、開発者に悲鳴を上げる練習をせずに出席し、パターンの知識を共有しました
    指摘 HN: DevDB を構築して、開発者に悲鳴を上げる練習をせずに出席し、パターンの知識を共有しました anti-Mastodon
  • Selfie: システム エンジニアリングを教える教育プラットフォーム
    Selfie: システム エンジニアリングを教える教育プラットフォーム Artificial intelligence
  • OpenAIのGPT APIを利用したネットサイトをスクレイピングするための実験的ライブラリ
    OpenAIのGPT APIを利用したネットサイトをスクレイピングするための実験的ライブラリ Artificial intelligence
  • AIの活力消費でビットコインの視線が緑に。
    AIの活力消費でビットコインの視線が緑に。 anti-Mastodon
Prismer: マルチモーダル エキスパートによるビジョン言語モデル

Prismer: マルチモーダル エキスパートによるビジョン言語モデル

Posted on March 9, 2023 By 📢 𝕂𝕒𝕤𝕡𝕖𝕣𝕤𝕜𝕪™

Shikun Liu、Linxi Fan、Edward Johns、Zhiding Yu、Chaowei Xiao、および Anima Anandkumar

私たちは、プリスマーを紹介します。プリズマーは、情報とパラメーターの環境を啓発する視覚言語モデルであり、多くの経験豊富なアリーナの専門家の集団を活用しています。 Prismer は、2 桁も少ない練習情報しか必要としないにもかかわらず、異常なヒス オブ アートに匹敵する、正直に調整された少数ショット学習視覚言語推論パフォーマンスを達成します。

Tech Suppose 2023

Prismer

紙面の範囲内

膨大な数のプロジェクトのコレクションを通じて、幅広いプレエキスパートのファッションが、独特の一般化能力を常に発揮しています。 あるいは、これらの機能は、実践と推論に必要な計算リソースの方法論によって多額のコストでアプローチします。 視覚と言語の学習における考慮事項は、おそらくもはや容易ではありません。 このアリーナは、言語処理の厳密な大規模な場所であり、さらに、目に見えるマルチモーダルな推論には奇妙な特別なスキルが必要です。 奇妙な解決策は、膨大な量の画像とテキストの情報を利用して、これらのモダリティ固有のスキルを最初から、同時に、そして同じ一般的な構造を介してずっと学習する、1 つの広くモノリシックなモデルを実践することです。

変更として、これらのスキルとアリーナ情報を、「エキスパート」と呼ばれる幻想的で別のサブネットワークを介して教えられる変更テクニックを調査します。 そのため、すべての専門家が特定のタスクに対してほぼ確実に個別に最適化され、単一の教育ネットワークでは実現できないアリーナ固有の情報とアーキテクチャの利用が可能になります。 これは、練習効率の向上につながります。モデルは、すべての部分をすぐに教えようとする代わりに、専門的なスキルとアリーナ情報の統合に集中できるため、マルチモーダル学習をスケールダウンするための優れた方法論になります.

これを計画するために、視覚的に調整された自己回帰テキスト技術モデルである Prismer エキスパートが、元のビジョン言語推論プロジェクトのために多数のプレエキスパート アリーナ エキスパートをより多く採用することをお勧めします。 物質を見つけるための Prismer の鍵には、i) 注目に値するビジョン – 最も効率的な Web スケール情報のための最も効率的な方法と言語 – 最も効率的な方法、および ii) モダリティ – 特定のビジョンの専門家が低段階の視覚指標を含む多くの形式の可視情報をコード化することが含まれます。補助情報の維持として、インスタンスおよびセマンティックラベルに相当する深さ、および過度の段階のビジョンインジケーターに相当します。 すべての専門家のファッションは個別に事前に専門化され、凍結されており、いくつかの軽量のトレーニング可能な物質を介してリンクされており、事実上すべての罰金がネットワークパラメーター全体の約 20% を占めています。

Prismer は、予測されたマルチモーダル インジケーターを介して多数の予備専門家の専門家を活用する情報環境教育視覚言語モデルです。 画像キャプションや VQA に匹敵する視覚言語推論プロジェクトを開発する必要があります。

Prismer は、既存のプレエキスパートのライブラリを活用するエンコーダ/デコーダ変換モデルです。専門家。 ビジョン エンコーダーと自己回帰言語デコーダーを備えています。 ビジョン エンコーダーは、RGB 画像とそれに対応するマルチモーダル ラベルを入力として受け取り (たとえば、深さ、光沢のない地面、冷凍されたプレエキスパート エキスパートから予測されたセグメンテーション ラベル)、RGB およびマルチモーダル物質のシーケンスを出力します。 次に、言語デコーダーは、不道徳な注意を介してこれらのマルチモーダル物質に条件付けられ、一連のテキスト トークンを生成します。

Prismer は、トレーニング可能なパラメーターの解像度を最小限に維持しながら、事前に専門家の専門家を十分に活用できるように設計されています。 これを機能させるために、専門家になる前の専門家のネットワークの重みの大部分を凍結して、学習した情報の完全性を維持し、壊滅的な忘却を終わらせます。 マルチモーダル ラベルを Prismer の視覚および言語サブスタンスと同じくらいスマートにハイパーリンクするために、トレーニング可能なサブスタンスを説明する 2 つの形式のパラメータ-環境を挿入します:

    専門家リサンプラー: Experts Resampler は潜在的な入力クエリの事前定義された解像度を学習し、知覚者と フラミンゴモデル。 次に、リサンプラーは、補助情報の蒸留の維持として、マルチモーダル物質を、学習された潜在クエリの解像度に等しい価値のあるより小さな解像度のトークンに圧縮します。

    アダプター: アダプターには、検出するエンコーダー/デコーダーがあります。は、最初に入力物質をより小さな次元に下方投影し、非線形性を適用した後、物質を通常の入力次元に上方投影します。 残りの接続を使用して、すべてのアダプターをリーチ ゼロの重みで初期化し、id 機能を近似します。 言語デコーダー内の弱い不道徳な注意ブロックとブレンドされたこのモデルは、アリーナ特有のビジョンの最も効率的なバックボーンと言語の最も効率的なバックボーンからビジョン言語モデルへの危険な移行なしに成功しています。画像とテキストの情報を組み合わせて練習します。

Prismer は生成モデルであり、単一の目的を持つ専門家であり、自己回帰的に次のテキスト トークンを予測します。 そのため、すべての視覚言語推論プロジェクトを言語モデリングまたはプレフィックス言語モデリングの窮状として再定式化します。 マルチモーダル トークンと接頭辞としての要求が与えられると、モデルは目に見える要求応答タスクのレトルトを生成します。 マルチモーダル トークンが与えられると、モデルは画像キャプション タスクのキャプションを生成します。 指示された接頭辞を維持すると、発信終了の雰囲気のように、出力テキストを自己回帰式でパターン化することもできます。 または、クローズドエンドの雰囲気のように、完了のビルド場所からログ確率を汚染することさえできます。

Prismer には、最も重要なトレーニング可能な 2 つの物質があります。変数のマルチモーダル インジケーターを出力のビルド解像度に変換する Experts Resampler と、視覚言語の推論のためのモデルの表現力を強化する Adapter です。 モデルを開発するために、経験豊富な専門家によってエンコードされた豊富なアリーナ固有の情報について偏りのない正しいものを使用します。ネットワークの重みの大部分は、雪の結晶のアイコンで表されるように、練習によって完全に凍結されます。

多様な、アリーナ固有のプレ-expert Experts

Prismer には、次の 2 つの形式のプレエキスパート エキスパートが含まれています:

バックボーン エキスパート: ビジョンと言語の両方で最も効率的なプレエキスパート ファッション。画像とテキストを意味のある一連のトークンにエンコードする管理を行っています。 すべてのファッションは、ほぼ完全にトランスフォーマー構造に基づいている必要があるため、同じデザインのいくつかの訓練可能な物質でそれらを結合することを考慮する必要はありません。 ネットワークパラメータ内にエンコードされた豊富なアリーナ固有の情報を消費するために、重みの大部分は、事前に練習することによってずっと凍結されています。

モダリティの専門家: タスクを見つけることができるファッション-実践的なデータセットに依存する特定のラベル。 Prismer には、ビジョン分野から 6 人ものモダリティ専門家が参加し、3 つのローステージ ビジョン インジケーター (深度、グラウンド法線、エッジ) をエンコードします。 オブジェクト ラベル、セグメンテーション ラベル、およびテキスト ラベルの 3 つの過剰ステージ ビジョン インジケーター。 これらのモダリティ エキスパートは薄暗いフィールドの予測子として扱われ、予測されたラベルは Prismer モデルの入力として淡いものになります。 その結果、モダリティ エキスパートのすべてのネットワーク ウェイトが凍結され、いずれかが見つかるように維持されます。

プリズムモデルバリアント

Prismer と同様にスマートに、我々は PrismerZ という名前のモデルバリアントをさらに導入します。これは、頑丈なバックボーンの専門家の活力に完全に依存しています。モダリティがゼロの専門家です。 PrismerZ には、通常の Prismer と同じアーキテクチャがありますが、Experts Resampler はありません。 PrismerZ は、最も効率的に RGB 画像を必要とするため、ソリューションの推論プロセスを簡素化し、より雰囲気を高め、より幅広いアプリケーションに適用できるようにします。 Prismer は、エキスパート ラベルでの情報処理の必要性に起因する情報推論の環境教育にはあまり適していませんが、これによりさらに大きなパフォーマンスが維持されます。

Prismer と PrismerZ はそれぞれ Vision Transformer プレエキスパート by CLIP フリーズビジョンエンコーダ、および RoBERTa 凍結された言語デコーダーとして。 BASE と LARGE の 2 つのモデル サイズで実験します。 BASE モデルは、ViT-B/16 と RoBERTaBASE

の上に構築されています。 、LARGE モデルは ViT-L/14 と RoBERTa の上に構築されています。 大きい。 Prismer では、同じモデルの Experts Resampler を練習して、両方のモデル サイズで約 50M のパラメーターを見つけます。 詳細な構造の詳細は、次のデスクにまとめられています。

Resamplerビジョンエンコーダ

言語デコーダー

Trainable Param. 完全なパラメータ

レイヤー 幅

背骨レイヤー幅背骨レイヤー 幅

)

プリズム

ベース

4

768 ViT-B/16

12 768

RoBERTa ベース12 768

160M

980M

PrismerLARGE

4

1024 ViT-L/14

24

768
ロベルタ大きい

24

1024 360M

1.6B PrismerZ ベース –

– ViT-B/1612 768

RoBERTaBASE

12

768105M 275M
PrismerZ 大きい –

–

ViT- L/14

24

768 RoBERTaLARGE 24

1024270M

870M

構造サイズごとに消費するバックボーンを、対応するレイヤーの解像度と幅とともに特徴付けます。 さらに、すべての構造のトレーニング可能なパラメーターと合計パラメーターの解像度を特徴付けます。 情報推論に必要な全体的なパラメーターを数えます。これには、Prismer モデルで 6 億 5400 万パラメーターの混合パラメーター サイズを持つ追加の 6 つのモダリティ エキスパートが含まれます。

きちんと調整された効率NoCaps と VQAv2 について

Prismer と PrismerZ の両方が、モデルを熟考して成功するパフォーマンスを計画できることを提示しますこれは、頑丈なバックボーンの専門家が本質的に事実の一般化を管理していることを意味します。 あるいは、モダリティの専門家は、画像キャプション プロジェクトや LARGE モデル バリアント内で、パフォーマンスをさらに強化することを提案しています。 Prismer は、 と同様の画像キャプション パフォーマンスを終了しました。 BLIP と LEMON、それぞれ 10 ケースと 20 ケースの専門家であるにもかかわらず、情報が少ない。 さらに、プリズマーはと同等のVQAv2精度を達成していますGIT, 60ケースの専門家であるにもかかわらず、情報が少ない. Prismer と異常なアートワークのヒスノイズ VLM との間に顕著なパフォーマンス ギャップがあることは認識していますが ( に匹敵) CoCa, GIT-2

と PaLI), これらのファッションは、非常に高い練習価格を必要とし、教育規模の最も深い練習情報への入り口を見つける必要があります.

それぞれの Prismer と PrismerZ は、同じモデル サイズの他の VLM を次に配置すると、NoCaps および VQAv2 データセットで正直に調整されたパフォーマンスが正常に終了しました。 Prismer は、桁違いに多くの情報に精通している VLM と同等の競争力のあるパフォーマンスを計画できます。 バブルのスケールは、マルチモーダルの事前練習を介してトレーニング可能なネットワーク パラメーターの解像度を表します。

COCO キャプションと NoCaps のゼロショット効率

私たちのジェネレーティブな事前練習方法は、ゼロショットの一般化を可能にします。そこでは、余分な正直な調整なしで、ファッションが画像キャプション プロジェクトにほぼ確実にすぐに適用されます。 次のデスクでは、Prismer が と同様のパフォーマンスを達成することを示します。 SimVLM の NoCaps データセットで、140 ケースの活用としても実践的な情報が少ない。 さらに、Prismer ファッションのゼロ ショット パフォーマンスは、OSCAR と VinVL、古い部分に示されています。

COCOキャプション

ゼロキャップ

B@4M C

S
2.6

11.5 14.6

5.5
メタル

24.522.5 82.2 15.7 VLKD 25.8 23.1 85.1

16.9

)

フラミンゴ

– –

84.3 –

CapDec26.425.1 91.8 )-

プリズム

)39.530.4 129.7 23.8

NoCaps

S

少数の VLM

8.6

)

63.6 12.8

SimVLM 大きい –

C
47.7 ) 9.1 MetalLM )58.7
VLKD
102.2
–

SimVLM 巨大
110.4
107.9

プリズム

)14.8

プリズムCOCO キャプション (Karpathy を見てください) と NoCaps (検証場所) で、160 ケース少ない情報に精通しているにもかかわらず、SimVLM と同等のアートワークのゼロショット画像キャプション結果を達成します。

以下に示すように、対応する RGB 画像とモダリティ専門家の予測とともに、Prismer によって生成されたサンプル キャプションの一覧を表示します。 結果は、両方の PrismerBASE と Prismer LARGE は、意味的に一貫性があり、目に見える悲鳴と一致するキャプションを生成するスマートな動作です。写真の素材。 特に、 PrismerLARGE

Prismer を次に配置すると、より高品質のキャプションが生成されますBASE

、正直な粒度のオブジェクト セマンティクスの深い理解を示す効果認識 (Mercedes、CK One など) や文化的アイデア (古典的な絵、タンゴなど) に匹敵し、人間が書いたキャプションと区別がつきません。

興味深いことに、ほとんどの専門家による予測は、画像キャプションには不適切であるか、もはや役に立たない可能性が高いことを考慮せずに観察できます。 これにより、Prismer が専門家のラベルを過度に当てにせず、それらを補助指標として維持することが最も効果的であることがわかりました。

想定入力

深さ

Surface Normals

エッジ

オブジェクト検出

セグメンテーション

OCR検出

ゼロショットキャプション:

PCキーボードの隣に座っているアルコールのボトル。

プリズム

大きい ゼロショット キャプション:

ck one のボトルの隣にパソコンのキーボード。

人間が書いたキャプション:

CKコロンは液体が詰まっています。

2. ケルンのボトルがキーボードの上に置かれています。

3. パソコンのキーボードの横にコロンのボトルが置かれています。

ImageNet 分類における少数ショット効率

アトマイズ内で、ほんの数ショットで ImageNet データセットの Prismer を正直に調整して評価します雰囲気。 で概説した方法に従ってください) CLIP

、分類タスクを言語モデリングの窮状に変換します。すべての奇妙なカテゴリをテンプレートのキャプションにマッピングする:「ある写真」。 in-勾配の更新がないコンテキストの例では、軽量の正直なチューニングによる少数ショット分類を開発します GIT. 考えてみれば、これは通常の線形プローブ大気に相当するものです。画像分類器としての全体的な言語デコーダ. したがって、さらに、Prismer の通常のビジョン バックボーンである ViT-B/16 および ViT-L/14 の少数ショット リニア プローブのパフォーマンスを評価します

偏りのない図内に示されている結果から、Prismer のパフォーマンスが低いことがわかります GIT および フラミンゴ, 両方ともより強い視覚のバックボーンを維持し、 より多くの情報を真剣に扱う前の専門家です。 あるいは、Prismer aloof は、特にほんの数ショットの環境では、通常のビジョン バックボーンである ViT-B および ViT-L よりも教育的なマージンで優れています。 どの能力 Prismer の一般化スキルは、マルチモーダルな実践情報と専門家のラベルによって強化されており、さらに強力なビジョン バックボーンを利用することで、そのパフォーマンスをさらに向上させることができます。

Prismerが本気で改善対応するビジョン バックボーンを次に配置すると、数ショットのパフォーマンスが得られます。 あるいは、Prismer aloof は、非常に多くの情報に精通している GIT や Flamingo よりも優れています。

私たちは実験を習慣化して、プリズマーをこまめに探り、垣間見るいくつかの注目を集めるスキル。 すべての実験は VQAv2 で評価され、練習環境が減少し、at-dev フラクチャがアップされます。

プリズム BASE

とMore Experts

Better Experts

Noisy Experts

Prismer は、モダリティ専門家の数と質の高さの中でより多くの開発を行うことで、そのパフォーマンスが向上することを示しています。 さらに、Prismer は、ノイズの多い専門家に対してその堅牢性をさらに実証しており、均一で優れた学習方法論となっています。

解説 #1: 専門家が増えれば効率が上がる。 Prismer のパフォーマンスは、より多くのモダリティ エキスパートを追加することで向上することがわかります。 これは、より多くの専門家がより多くの形式のアリーナ情報をモデルに提示したためです。 あるいは、モデルのパフォーマンスが最終的に頭打ちになることをさらに示します。これは、追加のモダリティ エキスパート機能が、特定の数を超える追加の有益な特性をもはや示さないことを意味します。

解説 #2: より良い専門家、より良い効率。 Prismer のパフォーマンスに対するエキスパートの高品質の影響を維持するために、サンプリングされたランダム ノイズを使用して予測深度ラベルの特定の解像度を変更することにより、破損した深度エキスパートを生成します。均一分布から。 深度エキスパートの高品質が向上するにつれて、Prismer のパフォーマンスも向上します。 優れた専門家がより正確なアリーナ情報を提示し、モデルがより正確に調査できるようになるため、ここは直感的です。

解説 #3: ノイズの多い専門家に対するロバスト性。 我々の結果はさらに、ノイズを予測する専門家を含めても Prismer がパフォーマンスを維持することを示しています。 興味深いことに、ノイズを追加すると、次に自分で RGB 画像を練習すると、自明ではない展開が生じる可能性があります。これは、暗黙の正則化の維持と見なされる可能性があります。 このプロパティにより、エキスパートが必ずしも有益であるとは限らない場合でも、パフォーマンスを低下させることなくモデルに多くのエキスパートを確実に含めることができます。 したがって、Prismer は、通常のマルチタスクまたは補助学習戦略よりも優れた学習アプローチを提供します。これらの戦略では、タスクの関係を調査するか、より成功する最適化手順を設計する必要があります。

この論文では、推論プロジェクト用に設計されたビジョン言語生成モデルである Prismer を現在立ち上げています。 Prismer は、パラメーター環境の啓蒙であり、トレーニング可能な物質の微視的な解像度を利用して、多数の専門家の前の専門家のアンサンブルに参加します。 これらの専門家を活用することで、Prismer は画像キャプション、VQA、および画像分類のベンチマークで競争力のあるパフォーマンスを達成しています。これは、ファッションの専門家が 2 桁も多くの情報を扱っているのと同等です。

肉厚な透明性のために、実装を通じて Prismer のいくつかの制限について説明し、この作業のおそらく将来の方向性を検出します。

マルチモーダル インコンテキスト学習: コンテキスト内でのゼロショット一般化は 緊急プロパティ 事実上すべての罰金は、非常に教化的な言葉遣いで存在します。 この作業では、学習を教育するパラメーター環境に最も必要な焦点を当てた、顕微鏡スケールの言語モデルの上に Prismer を作成します。 したがって、見つけることによって数ショットのコンテキスト内プロンプトを開発する能力を維持しません。

新しい専門家のゼロショット適応: 信じられないほどのセグメンテーションの専門家である、信じられないほどのデータセットで、経験豊富な Prismer で推論を実験します。 セマンティック ラベルをエンコードするために同じ言語モデルを実践するとしても、Prismer は、セマンティック情報の信じられないほどの場所を持つ信じられないほどの専門家に制限された適応性を示し、基本的なパフォーマンスの低下に終わります。

部分エキスパートの推論を自由に維持: 同じように、プリズマーは事前練習を通じて、私たちが含めたすべての専門家からのマルチモーダル物質を絡み合わせていることが垣間見えます。 したがって、推論を介して基本的なパフォーマンスの低下をもたらす、専門家の部分的な解決を持つことが最も効率的です。 私たちは、マスクされた自動エンコードに匹敵する信じられないほどの練習目標を採用して、専門家の任意の解決に動機付けられるように Prismer を見つけようと努力していますが、最終的には正直な調整のパフォーマンスが低下します。

エキスパートファイルのイラスト: 珍しい Prismer の発見では、すべてのエキスパート ラベルを、単純化のためにモダリティ固有のプットアップ処理を介して、画像を鑑賞する 3 次元テンソルに変換します。 オブジェクト検出をテキスト トークンのシーケンスに変更することに匹敵する、専門家の情報を叫ぶテクニックを啓発する他の雰囲気があります。 これは、将来の作品でより強力な推論パフォーマンスとより安定した練習風景につながる可能性さえあります.

この作品があなたのしがみつく比較に役立つことに気づいたら、次のことを引用して熟考してください.

@article{liu2023prismer, title={プリズム: 専門家の集団による視覚言語モデル},creator={Liu, Shikun and Fan, Linxi and Johns, Edward and Yu, Zhiding and Xiao, Chaowei and Anandkumar, Anima}, journal={arXiv preprint arXiv: 2303.02506}, year={2023} }
𝚆𝚊𝚝𝚌𝚑 𝙽𝙾𝚆 📺

anti-Mastodon, Ask HN, Auto-Generate, Billionaires, Blockchain, coding, computer science, CRYPTO, Prismer, Show HN, Technology, TOP HN, Vision-Language Tags:Blockchain, Prismer, Vision-Language

Post navigation

Previous Post: Microsoft Bing は 1 億人の活発なユーザーにヒットし、Google からパーツを購入することを繰り返しています
Next Post: Google が 20 年後にコーディング コンテストを終了したのはなぜですか?

Related Posts

  • Covidについて「すべてのアメリカ人を怖がらせる」マット・ハンコックの計画
    Covidについて「すべてのアメリカ人を怖がらせる」マット・ハンコックの計画 ‘frighten
  • クイズ HN: Lighthouse の何に置き換えますか?
    クイズ HN: Lighthouse の何に置き換えますか? anti-Mastodon
  • Cloudflare で Rust の作業はどのように進んでいますか?
    Cloudflare で Rust の作業はどのように進んでいますか? anti-Mastodon
  • Azure ホスト OS – クラウド ホスト
    Azure ホスト OS – クラウド ホスト anti-Mastodon
  • 日本の新鮮なH3ロケットは最初のフライトで失敗し、コンピューターの衛星テレビは置き忘れられました
    日本の新鮮なH3ロケットは最初のフライトで失敗し、コンピューターの衛星テレビは置き忘れられました anti-Mastodon
  • 2023 年の High JavaScript フレームワークのエリック エリオット
    2023 年の High JavaScript フレームワークのエリック エリオット anti-Mastodon
  • Stamp 最新の「コードとしてのワークフロー」実行エンジン
    Stamp 最新の「コードとしてのワークフロー」実行エンジン “Workflow
  • プレゼント HN: Forever-Time Multi-participant – 遠く離れた後、愛する人の参加者と一緒にプレイ
    プレゼント HN: Forever-Time Multi-participant – 遠く離れた後、愛する人の参加者と一緒にプレイ anti-Mastodon
  • Linux Iproute2 備考 リファレンス
    Linux Iproute2 備考 リファレンス anti-Mastodon
  • Phoenix 1.7 の新しい検証済みルート
    Phoenix 1.7 の新しい検証済みルート anti-Mastodon

Recent Posts

  • MySQL EXPLAIN を読むための提案
  • DNAの「寄生虫」は、私たちの遺伝子を断片化するだけかもしれません
  • Kraftful (YC S19) 創業エンジニアを雇い、プロダクト フォーク向けの AI 副操縦士を構築
  • Tailscale Funnel がベータ版ですぐに利用可能に
  • Laudspeaker は、配送サプライ バイヤー クリープの自動化のために Product Eng を採用しています

Recent Comments

  1. robga on Excessive Avenue コーヒーのカフェイン ステージはさまざまで、テストでは
  2. Loic on 行方不明の放射性タブレットは、必死の捜索の後、WA奥地で偶然見つけました
  3. minihat on メタは、標準的な VR e スポーツ Echo Area をシャットダウンします
  4. dafelst on フレーム ポインターの巻き戻しによる Move 実行トレーサーのオーバーヘッドの削減
  5. cloudking on GraphGPT: 構造化されていないテキストの肯定的な素材からのレコードデータ グラフの外挿
  • Three Rivers PERQ – 先駆的なワークステーション コンピューター
    Three Rivers PERQ – 先駆的なワークステーション コンピューター anti-Mastodon
  • LastPassは、DevOpsエンジニアのハッキングされたコンピューターが2022年のセキュリティ侵害につながったと言います
    LastPassは、DevOpsエンジニアのハッキングされたコンピューターが2022年のセキュリティ侵害につながったと言います Clusters
  • AirPods 純正ケースがLightningからUSB-Cに、納入元のPCBで変身
    AirPods 純正ケースがLightningからUSB-Cに、納入元のPCBで変身 AirPods
  • 大気放射下での Ultrascale+ MPSoC のシングル デザイン トーナメント評価
    大気放射下での Ultrascale+ MPSoC のシングル デザイン トーナメント評価 anti-Mastodon
  • SpaceX CRS-15 What’s on Board Briefing 2018-06-28T00:00:00Z
    SpaceX CRS-15 What’s on Board Briefing 2018-06-28T00:00:00Z Artificial intelligence
  • もはやAIではありません
    もはやAIではありません Clusters
  • GitHub の CEO が、ソース開発者が EU の AI 法から免除される理由について説明します
    GitHub の CEO が、ソース開発者が EU の AI 法から免除される理由について説明します anti-Mastodon
  • Google は ChatGPT のライバルである Bard をブロードキャストします。
    Google は ChatGPT のライバルである Bard をブロードキャストします。 Announces
MAILANON
2100 MAIL
SEO
METAVERSE
BioLINK
CRYPTO MINING
CASINO
DEFI-TRACKER
StartApp Network
RAVES-MONSTER-GAME
RAVES EXCHANGE
RAVES NFT
KVANTA TV

Copyright © 2023 Nasare™🚀.

Powered by PressBook News Dark theme