Skip to content
ℕ𝔸𝕊𝔸™ℕ𝕒𝕤𝕒𝕣𝕖™𝕊𝕡𝕒𝕔𝕖𝕏™ https://nasa.re/

Nasare™🚀

フレッシュ スペース & テクノロジー NEWS📢

  • About 𝒩𝒶𝓈𝒶𝓇𝑒™
  • SMART Tools
  • SMART AI
    • Kubeshark PCAP Export/Import
    • Coaching engineering managers to employ on organizational issues
    • Zelda: Hyperlink’s Awakening game engine documentation (2021)
    • Commercial Resupply Services-CRS
  • Show HN
    • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
    • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
    • 主な BGP 増加をレジデンス Windows デスクトップに追加する
    • ガジェットの複雑さが増し、余分な IP の再利用が促進される
    • 新しい GitHub CLI 拡張インストゥルメント
    • Kubernetes を 7,500 ノードにスケーリング (2021 年)
    • Wander アプリ用の軽量なオンザフリット構成ライブラリ
    • Ask HN
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Brand HN: Motion photographs Watchlist Chrome Extension
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Level to HN: A corpulent game of snake encoded in a url
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
    • Show HN
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Android phones will at the moment obtain iPhone-love SOS satellite texting
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Level to HN: A corpulent game of snake encoded in a url
    • Brand HN: Motion photographs Watchlist Chrome Extension
    • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
    • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
    • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
    • Tag HN: Using Key-Value Retail outlets in Serverless Codehooks.io Applications
    • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
    • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
    • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
    • Brand HN: Motion photographs Watchlist Chrome Extension
    • Level to HN: A corpulent game of snake encoded in a url
    • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
    • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
    • Speak HN: What sub $200 product improved HN readers’ 2022
    • Level to HN: An initiate source tool to generate Jet Engine compressors
    • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
    • Insist HN: Ov – characteristic smartly off terminal pager
    • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
    • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
    • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
    • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
  • A Computer virus and a Dilemma
    • OCIS – OwnCloud Countless Scale
    • A Princeton student built an app which is ready to detect if ChatGPT wrote an essay
    • GitHub Is Sued, and We Would possibly perhaps Learn Something About Creative Commons Licensing
    • Adobe’s Command material analysis can be using photos/videos to narrate AI w/o consent
    • Ultralearning a.k.a. how I learned to code
    • Automatic1111 is assist on GitHub after taking away Embedding Links
    • Where Your Sides Came From
    • What Is a Pig Butchering Rip-off?
    • Submit-processing is ruining iPhone photos
    • Clos Topologies and Centralized Retain a watch on in Google’s Datacenter Community
    • Miller Engineering DS-1 House Planetarium
    • Gimel Studio: Non-harmful, 2D image editor
  • Technology
    • Miller Engineering DS-1 House Planetarium
    • Apple Doctors: to construct it as a file it is advisable to electronic mail it to your self
    • The Air India passenger who urinated on a girl has been fired by Wells Fargo
    • The Filesystem Hierarchy Usual Comes to Guix Containers
    • Sooner than it sued Google for copying from Java, Oracle changed into as soon as copying IBM’s SQL (2020)
    • The i3-gaps mission has been merged with i3
    • Making an Alphorn from Scratch
    • Apple: Braille Individual Guides
    • MotherDuck Is a Original Thought
    • The class of CGI and simple make
    • Like a mercurial tour of DragonFly BSD 6.4?
    • computer science
    • AI
    • Artificial intelligence
    • Technology
    • Ai
    • Apple
    • digital
  • TOP HN
    • anti-Mastodon
    • TOP HN
      • Show HN
      • Ask HN
      • coding
      • ガジェットの複雑さが増し、余分な IP の再利用が促進される
      • 新しい GitHub CLI 拡張インストゥルメント
      • Kubernetes を 7,500 ノードにスケーリング (2021 年)
      • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
      • Wander アプリ用の軽量なオンザフリット構成ライブラリ
      • Artificial intelligence
      • 主な BGP 増加をレジデンス Windows デスクトップに追加する
      • Technology
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
      • Brand HN: Motion photographs Watchlist Chrome Extension
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
      • Kubernetes を 7,500 ノードにスケーリング (2021 年)
      • Level to HN: A corpulent game of snake encoded in a url
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Wander アプリ用の軽量なオンザフリット構成ライブラリ
      • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
      • ガジェットの複雑さが増し、余分な IP の再利用が促進される
      • 主な BGP 増加をレジデンス Windows デスクトップに追加する
      • 新しい GitHub CLI 拡張インストゥルメント
      • ロンドンで*ダウン*を継続的に見つめる: Pavement Oddities
      • 報酬 HN: C の 30 行でスピンロック
      • FAA の NOTAM とは何ですか? 航空専門家が機械の仕組みを説明
      • ナノGPT
      • 1 ビット LCD のグレースケール (2022)
      • The Muse (YC W12) は FP&A のシニア ディレクターを採用しています
      • Zen (YC S21) はグロース エンジニアを採用しています
      • Tall Inquire of (YC W21) が B2B 回顧録の幹部を採用
      • Actiondesk (YC S19) は、プロダクト ドレスメーカーを採用しています (4-6 か月の契約)
      • Oven (YC S19) は、Bun を作成するために C/C++ または Zig エンジニアを採用しています。
      • WInd3x, the iPod Bootrom exploit 10 years too unhurried
      • Sign HN: FASTA recordsdata を操作するための FUSE モジュール
      • HN を指します: Socketify.py: PyPy3 および Python3 用の Http/Https および WebSocket サーバー
      • Wage Development Continues to Gradual in the UK and Euro House
      • Stage Supervisor for the unimpressed: 1 Getting started
      • First public free up of Pushup: a brand unique compiler for making net apps in Trip
      • Fixing Cart-Pole Swingup with a Hierarchical Controller
      • Flight Testing the Touchdown Radar for Mars Science Laboratory 2011-06-21T17:36:36Z
      • Flightcontrol (YC W22) is hiring first Developer Recommend
      • Flying boats and other tech for cleaner shipping
      • Four Finalist Touchdown Location Candidates for Mars Science Laboratory 2008-11-19T16:21:01Z
      • France’s prized nuclear sector stalled in Europe’s hour of want
      • French startup unveils new residential thermo-acoustic warmth pump
      • FTC Cracks Down on Firms That Impose Contaminated Noncompete Restrictions
      • FTX’s Aged Prime Lawyer Aided US Authorities in Bankman-Fried Case
      • FY18 NASA lėšų šnypštimas 2017-05-22T00:00:00Z
      • G-3PO: A protocol droid for Ghidra, or GPT-3 for reverse-engineering
      • Gail.com FAQ
      • Gemini-Titan (GT)-6 – Gemini 6 of 7 – 지역 사진 – 외부 지역 1965-12-15T00:00:00Z
      • Geoffrey Hinton Publishes Original Deep Learning Algorithm
      • Germany warns: AI fingers flee already underway (2021)
      • Gimel Studio: Non-harmful, 2D image editor
      • GitHub Availability File
      • GitHub Is Sued, and We Would possibly perhaps Learn Something About Creative Commons Licensing
      • Google needs RISC-V to be a “tier-1” Android architecture
      • Google researcher, lengthy out of math, cracks devilish dispute about gadgets
      • Google start sourced CDC File Transfer from the ashes of Stadia
      • GRC-2003-C-02097 2004-05-01T00:00:00Z
      • GRC-2013-C-05246 2009-11-26T00:00:00Z
      • Hello world!
      • Highlights of Science Launching on SpaceX CRS-15 2018-06-24T00:00:00Z
      • Hilf Al-Fudul
      • HiOperator (YC S16) Is Hiring VP of Engineering
      • HN を指します: Socketify.py: PyPy3 および Python3 用の Http/Https および WebSocket サーバー
      • How kind I blueprint a pair of buttocks?
      • How will the haj switch as international temperatures upward thrust?
      • Human gene linked to bigger brains turned into as soon as born from apparently pointless DNA
      • Hundreds of scientists publish a paper every 5 days
      • In Favor of Friction and Flexibility
      • Indicate HN: Klotho – Change into straightforward code into cloud native code
      • Indoor farming isn’t exact for the smartly off
      • Iranian assault drone came across to have parts from more than a dozen US companies
      • Israeli researcher experiences leak of 235M Twitter-linked e-mail addresses
      • Jam Stations in Low Earth Orbit
      • Jazz Is Freedom
      • JPL-20171102-TECHf-0001-ドローントリップ 人間vs機械 2017-11-17T00:00:00Z
      • JPL에서 NASA의 MSI 콘도미니엄 액셀러레이터 2022-08-25T00:00:00Z
      • JPSO extinct facial recognition abilities to arrest a man. The tech modified into once defective
      • jsc2017e136097 – 12 月 4 日,俄罗斯联邦地区公司 (Roscosmos) 的远征 54-55 号机组人员 Anton Shkaplerov 在俄罗斯 Principal person City 的加加林宇航员训练中心上向整洁的祝福者挥手致意,当时他登上了前往附近的 Chkalovsky Ai 的公共汽车2017-12-04T00:00:00Z
      • Kemble’s Cascade of Stars
      • Kepler-90 マシン (アーティストの考え) 2017-12-14T00:00:00Z
      • Koichi Wakata SpaceX 코칭 2022-06-27T00:00:00Z
      • KSC and Proud to Be Heart-Wide Diversity Tournament 2019-08-20T00:00:00Z
      • KSC ir „Proud to Be Center“ įvairovės turnyras 2019-08-20T00:00:00Z
      • AI
      • Artificial intelligence
      • Auto-Generate
      • anti-Mastodon
      • Awesome
      • BioSentinel
      • CATEGORIES
      • DC
      • Dione
      • Diversity
      • drone racing
      • drones
      • Dulles
      • education
      • Event
      • filmstock
      • Goddard
      • AI
      • Ask HN
      • autonomous
      • coding
      • computer science
      • Clusters
      • Artificial intelligence
        • Ai
        • Apple
        • Tesla
        • digital
        • MESSENGER
        • Device
        • Charts
        • change
        • Shows
        • fraud
        • Former
        • fucking
        • purge
        • Works
        • entering
        • Databases
        • Review
        • Strangely
        • Instinct
        • staff
        • Salesforce
        • intern
        • Involuntary
        • promise
        • Twilio’s
        • nisv live
        • attack
        • Iranian
        • France’s
        • prized
        • infrastructure
        • Debian-based
        • nisv s02 ep03
        • siduction
        • Awesome
        • Calculate
        • Beautiful
        • Linux
        • Start
        • dollar
        • Messier
        • Daughters
        • ‘Breakthrough’
        • obesity
        • Al-Fudul
        • sixty years
        • PyTorch
        • discloses
        • Ancient
        • Stone
        • Popup
        • design
        • public
        • expanding
        • cloud
        • forest
        • startup
        • French
        • batteries
        • fleas
        • spotted
        • Petals
        • language
        • Habitual
        • checking
        • GitHub
        • Availability
        • layers
        • inconsistencies
        • Affair
        • Quasi-War
        • Sergey
        • Irate
        • bestseller
        • necessarily
        • Scientists
        • Titan
        • twitch
        • FGS/NIRISS – Fine Guidance Sensor/Near InfraRed Imager and Slitless Spectrograph
        • infrared
        • ISIM – Integrated Science Instrument Module
        • JHU – Johns Hopkins University
        • JWST – James Webb Space Telescope
        • JWST – James Webb Space Telescope
        • absolute zero
        • Big Bang
        • Peace
        • Studio
        • Making
        • project
        • -gaps
        • warns
        • Germany
        • Braille
        • MotherDuck
        • prototype
        • Challenges
        • Infinite
        • OwnCloud
        • Novel
        • Before
        • copying
        • California
        • getting
        • States
        • Criminal
        • Brother
        • Released
        • Method
        • owners
        • ‘richsession’
        • email
        • Elements
        • Where
        • passenger
        • Hierarchy
        • Filesystem
        • economic
        • Crew Dragon
        • Bridenstine
        • Scientific
        • Heaviosity
        • Patterns
        • Unexpected
        • minimalist
        • Ecode
        • Alpha
        • Wolfram
        • Tailwind
        • HiOperator
        • Klotho
        • TEAMS
        • ROBOTICS
        • Antelope
        • Sponsors
        • Ellen Gertsen
        • Transform
        • Flightcontrol
        • subscriptions
        • Internet
        • Theory-building
        • you’re
        • looking
        • Transfer
        • error’
        • Tails
        • migrate
        • Building
        • Bitmovin
        • Remote
        • PhotoRoom
        • Company
        • Taking
        • Ribbon
        • BibDesk
        • Android
        • profilers
        • phones
        • modern
        • Mastercard
        • private
        • We’ve
        • reportedly
        • Microsoft
        • Artsy
        • trades
        • skilled
        • Polygon
        • Flying
        • Princeton
        • Codemods
        • Coaching
        • UK’s
        • popping
        • sourced
        • Wikipedia
        • admin
        • Indoor
        • quick
        • Mysterious
        • Spotify
        • Fancy
        • Spotify
        • Weird
        • mail-order
        • Recipients
        • computer
        • optics
        • partnership
        • commercial
        • telemetry
        • Crisis
        • billionaire
        • Party
        • Onelab
        • Faster
        • general
        • Adobe’s
        • database
        • FinanceDatabase
        • Numerical
        • Freedom
        • concrete
        • Stacks
        • computer science
        • NASA
    • Show HN
    • Ask HN
    • Technology
    • computer science
    • coding
    • Clusters
    • AI
    • drones
    • autonomous
    • Auto-Generate
    • Ask HN
    • Show HN
    • The SMART Science™
    • google
  • CRYPTO
    • Blockchain
    • farming
    • Billionaires
    • FTX’s
    • FinanceDatabase: A database of 300.000 symbols (ETFs, Currencies, Crypto)
  • Artificial intelligence
  • Toggle search form
  • नासा टाउन कॉरिडोर 2021-09-21T00:00:00Z
    नासा टाउन कॉरिडोर 2021-09-21T00:00:00Z Ask HN
  • ハッスル ブラザーズは AI の時流に乗っています
    ハッスル ブラザーズは AI の時流に乗っています anti-Mastodon
  • Scumm Diary: これまでに作られた最も注目を集めるゲーム エンジンの 1 つ (2013 年) の助けを借りての経験
    Scumm Diary: これまでに作られた最も注目を集めるゲーム エンジンの 1 つ (2013 年) の助けを借りての経験 anti-Mastodon
  • CDC は、10 代の少女たちが悲しみと暴力の粗い波に巻き込まれていると述べています。
    CDC は、10 代の少女たちが悲しみと暴力の粗い波に巻き込まれていると述べています。 Artificial intelligence
  • DevOps は不十分に実行されたぼったくりです
    DevOps は不十分に実行されたぼったくりです anti-Mastodon
  • Originate-source files マルチツール – VisiData
    Originate-source files マルチツール – VisiData anti-Mastodon
  • Covidが中国語研究所から漏洩したという知識を評価する
    Covidが中国語研究所から漏洩したという知識を評価する anti-Mastodon
  • AIとフォークのつながり
    AIとフォークのつながり anti-Mastodon
  • 最近 – シーメンス AG の会長が 10 億人に「肉の摂取をやめる」よう呼びかける
    最近 – シーメンス AG の会長が 10 億人に「肉の摂取をやめる」よう呼びかける anti-Mastodon
  • DragonFlyBSD の HAMMER2 ファイルシステムが NetBSD に移植される
    DragonFlyBSD の HAMMER2 ファイルシステムが NetBSD に移植される anti-Mastodon
  • AIロボットの法律専門家は、法廷で議論するために生きていました。 正確な弁護士はそれをシャットダウンします
    AIロボットの法律専門家は、法廷で議論するために生きていました。 正確な弁護士はそれをシャットダウンします Artificial intelligence
  • JDK Flight Recorder と少しの SQL を使用して Java スレッド リークを見つける
    JDK Flight Recorder と少しの SQL を使用して Java スレッド リークを見つける Artificial intelligence
  • MEPは、山岳技術による「怪しげなロビー活動」を賢くするためのEU役員向けのインターネットページを開始します
    MEPは、山岳技術による「怪しげなロビー活動」を賢くするためのEU役員向けのインターネットページを開始します anti-Mastodon
  • Moon O’Clock 2022
    Moon O’Clock 2022 NASA
  • Ventura は、ブランドの現代的な xattr でアプリの検疫を変更しました
    Ventura は、ブランドの現代的な xattr でアプリの検疫を変更しました Artificial intelligence
単一の GPU で ChatGPT が大好きな優れた言語の実行

単一の GPU で ChatGPT が大好きな優れた言語の実行

Posted on February 20, 2023 By 📢 ℂ𝕠𝕚𝕟𝕥𝕖𝕝𝕖𝕘𝕣𝕒𝕡𝕙™

FlexGen は、大量の GPU メモリで優れた言語ファッションを実行するための過剰スループット生成エンジンです。

山岳言語ファッション (LLM) は、アプリケーションは ChatGPT と Copilot を愛用していますが、LLM 推論の過度の計算とメモリの要件は、伝統的に、過剰停止アクセラレータのペアで完全に作成されているように見えます。 FlexGen の目標は、LLM 推論のリソース要件を 1 つのコモディティ GPU にまで減らし、まったく異なるハードウェア セットアップの多用途展開を可能にすることです。

FlexGen の重要な側面は次のとおりです。

⚡ ライトニング急いでオフロード. 単一の GPU で 175B のファッションを実行するための他のオフロード – 主にベースの完全なプログラムよりも 100 倍高速です。

📦 下品な圧縮.
パラメータとOPT-175B を彷彿とさせるファッションのフォーカス キャッシュを 4 ビットに減らし、精度の損失はほとんどありません。

🚀 スケーラビリティ. より多くの GPU が与えられた場合にスケーリングを可能にする分散パイプライン並列処理ランタイムに近い.

| 論文を読む | | Discordの半分になってください |

コマンド素材 ベンチマーク結果 設定 単一の GPU で開始した取得 シングル GPU で ChatOPT を高速化 分散 GPU へのスケーリング ロードマップ

ベンチマーク結果

技術スループット (トークン/秒)

システム

OPT-6.7B OPT-30B OPT-175B

)

25.12 0.62 0.01

9.28

0.01

ハグフェイススピード DeepSpeed ゼロ推論0.60
花びら* – – 0.05FlexGen

FlexGen with Compression 29.12

25.26 7.32 0.69

8.38

1.12 ハードウェア: 208 GB の DRAM と 1.5 TB の SSD を備えた GCP 上の NVIIDA T4 (16 GB) インスタンス。 ワークロード: 入力シーケンス サイズ=512、出力シーケンスサイズ=32。バッチ サイズは、すべてのシステムの生成スループットを最大化するラベルに調整されます。 メトリック: 生成スループット (トークン/秒)=生成されたトークンの確率 / (プロンプトの処理時間 + 生成時間).

方法

再現. レイテンシスループット代替オフ

以下の設定は、OPT-175B (左) と OPT-30B (正確) の 3 つのオフロード – 主に完全にベースの完全なプログラムのレイテンシとスループットのトレードオフを示しています。 FlexGen は、OPT-175B の 100 倍優れた最大スループットで、独特のパレート最適フロンティアを達成します。 他のプログラムは、メモリ不足のため、スループットをさらに向上させることができません。 「(c)」は、圧縮された FlexGen を示します。

仕組み

FlexGenはGPU、CPU、およびディスクからメモリと計算を集約することにより、まったく異なるハードウェア リソースの制約の下で柔軟に構成することもできます。 線形計画法オプティマイザーの戦略により、サイド ウェイト、アクティベーション、およびフォーカス キー/価格 (KV) キャッシュと共に、小売業者への安定したパターンを検索し、テンソルを入力します。 FlexGen エクストラは、重みと KV キャッシュの両方を 4 ビットに圧縮し、精度の損失はほとんどありません。

FlexGen の重要な信念の 1 つは、レイテンシとスループットのトレードオフを果たすことです。 低レイテンシに到達することは、オフロード方法にとって本質的に優れていますが、オフロードの有効性は、スループット指向の不測の事態に対しても大幅に向上します (上記の確立に関して発見してください)。 FlexGen は、以下の確立 (b) で確認されているように、ブロック アジェンダを使用して重みを再利用し、I/O と計算をオーバーラップさせますが、他のベースライン プログラムは、以下の確立 (a) で確認されているように、非効率的な行ごとのアジェンダを使用します。

より重要な側面は、 私たちの論文でつまずくことさえあります.

セットアップ

必需品:

手順:

git clone https://github. com/Ying1123/FlexGen.git cd FlexGen pip3 セットアップ -e 。 # (もはや必須ではありません) マルチ GPU 実行用に openmpi をセットアップします # sudo dazzling setup openmpi-bin 単一の GPU で開始した取得

    OPT-1.3B

    始めるには、最初に OPT-1.3B を愛するエビのモデルを試してみてください。 単一の GPU に収まるため、オフロードは必要ありません。 FlexGen は、huggingface から機械的にウェイトを受け取ります。

    python3 -m flexgen.flex_opt --model facebook/opt-1.3b

    OPT -30B

    にぎわうグッドファッションラブOPT -30B では、CPU オフロードを利用したいと思うかもしれません。 以下の手順に従ってください。 - パーセント 引数は、パラメータ、アテンション キャッシュ、非表示状態のオフロード手法を個別に指定します。

    python3 -m flexgen.flex_opt --model facebook/opt-30b --percent 0 100 100 0 100 0 OPT-175B

    OPT-175Bを賑わすためには、受信することが重要です からの重みmetaseq を実行し、重みを Alpa

    に変換します。 レイアウト。 次に、

    によって CPU/ディスクのオフロードを試みます。

    python3 -m flexgen.flex_opt --model facebook/opt-175b --percent 0 0 0 0 0 0 --offload-dir YOUR_SSD_FOLDER

    オフロード技術の構築方法は?

    後で自動保護オプティマイザーのロックを解除できますが、今はそれが重要です一対の方法を手動で試す。 過剰なスループット生成の目的は、パラメーターとフォーカス キャッシュを一見 CPU とディスクにオフロードすることです。 ベンチマークのリファレンス スターテジーについては、一見よくわかるかもしれません

    ここ.

    分散型 GPU へのスケーリング

    より多くの GPU を信頼しているように見える場合でも、FlexGen はオフロードとスケーリングを可能にするパイプライン並列処理。 たとえば、2 つの GPU を使用しているように見えても、集約された GPU メモリがモデルのサイズよりも少ない場合は、オフロードが必要になります。 FlexGen は、これら 2 つの GPU を使用してパイプラインの並列処理を行い、世代を混乱させます。 例を見る ここ。

    シングル GPU で ChatOPT を高速化

    chatbot.py の展示では、FlexGen と OPT ファッションでチャットボットを製造する方法を学びます。 FlexGen は主にスループット指向のイベンチュアリティラブ データセット評価とレコードデータ抽出用に最適化されていますが、FlexGen は他のオフロード ベースの完全なプログラムよりも優れたパフォーマンスを備えた対話型アプリケーションラブ チャットボット向けに熟成されます。 この単一バッチのケースでは、FlexGen が最大のスループットを実現できないというチケットです。

    コマンド # OPT-6.7B とチャット python3 chatbot.py --model facebook/opt-6.7b # OPT-30B python3 チャットボットとチャット。 py --model facebook/opt-30b --percent 0 100 100 0 100 0

    出力例

       間のチャット珍しい人間と教育を受けた人工知能アシスタント。 人間: こんにちは! 何を製造できますか? アシスタント:AIアシスタントとして、質問に答えたりチャットしたりします。 人間: アリーナ内で最も高い山の名前は? アシスタント: エベレスト。 人間: 私たちの記念日の外出を計画しています. どのような問題を製造しますか? アシスタント: 実際には、記念日のために一見うまく作成されているように見える問題が発生する可能性があります。 まず、あなたは一見上手にトランプをするかもしれません。  2d、あなたはハイキングに出発するのがよいように見えるかもしれません。 第三に、あなたは博物館に出発するように見えるかもしれません。     
      ロードマップ

      私たちは、次の側面に取り組むことを考えています。 コミュニティへの貢献は大歓迎です.

        AppleシリコンM1/M2展開強化 コラボ展開強化 チャットボットアプリケーションの遅延を最適化します テキスト要約アプリを追加 より多くのファッションを強化 (BLOOM、CodeGen、OPT-IML) 価格モデルとプロテクションオプティマイザを開く
      • pip インストール可能なパッケージを開きます 𝚆𝚊𝚝𝚌𝚑 𝙽𝙾𝚆 📺

      Artificial intelligence, Ask HN, Large, Running, Show HN, Technology, TOP HN Tags:Large, Running, Show NH:

      Post navigation

      Previous Post: HN のデモンストレーション: Pandas データフレームを Tableau に似た UI に変換して視覚的な診断を行う
      Next Post: レーベル HN: Voice.cpp と YAKE によるリカウント リフレクションの分析 [iOS]

      Related Posts

      • Wasavi – 任意の Web ページ用の Vi エディター Show HN
      • テクニカル インタビューの TypeScript
        テクニカル インタビューの TypeScript Artificial intelligence
      • オープン アシスタント – 主に LLM に基づいた最もメインのチャットにすべての人のフェッチ エントリを提示することを目的としたプロジェクト
        オープン アシスタント – 主に LLM に基づいた最もメインのチャットにすべての人のフェッチ エントリを提示することを目的としたプロジェクト Artificial intelligence
      • タフなドライブが素直かどうかを Xbox 360 が認識する方法
        タフなドライブが素直かどうかを Xbox 360 が認識する方法 Artificial intelligence
      • Allege HN: Clamshell – 実験的な Python ベースのほとんどがシェル
        Allege HN: Clamshell – 実験的な Python ベースのほとんどがシェル Artificial intelligence
      • Nintendo DSi ブラウザのハッキング
        Nintendo DSi ブラウザのハッキング Artificial intelligence
      • Apple ID のセキュリティ キーについて
        Apple ID のセキュリティ キーについて About
      • Gentoo Linux 2022 レトロスペクティブ
        Gentoo Linux 2022 レトロスペクティブ Artificial intelligence
      • BSなしでエンジニアリングの才能を借りる方法
        BSなしでエンジニアリングの才能を借りる方法 Artificial intelligence
      • OpenXLA は現在市場に出回っている
        OpenXLA は現在市場に出回っている Artificial intelligence

      Recent Posts

      • Webフィンガープリンティングは私が思っていたよりも悪い
      • 幕の内:燃料と核のロビーがEUの分類法を再形成するとき
      • OpenAI は、自分自身であることを拒否した後、その決定のために荒らされています
      • ヤマハ NS10 エピック (2008)
      • Awesome-completely-open-ChatGPT: ChatGPT のオープン ピックのリスト

      Recent Comments

      1. robga on Excessive Avenue コーヒーのカフェイン ステージはさまざまで、テストでは
      2. Loic on 行方不明の放射性タブレットは、必死の捜索の後、WA奥地で偶然見つけました
      3. minihat on メタは、標準的な VR e スポーツ Echo Area をシャットダウンします
      4. dafelst on フレーム ポインターの巻き戻しによる Move 実行トレーサーのオーバーヘッドの削減
      5. cloudking on GraphGPT: 構造化されていないテキストの肯定的な素材からのレコードデータ グラフの外挿
      • nox と pyenv を使用して Python バージョンのペアを整理する
        nox と pyenv を使用して Python バージョンのペアを整理する Clusters
      • GPT-3 と 3 つの Python トレースを使用して、完全に機能する CRUD API を開発する
        GPT-3 と 3 つの Python トレースを使用して、完全に機能する CRUD API を開発する anti-Mastodon
      • NASA 확인: 얼마나 멋진가요?  2018-02-13T00:00:00Z
        NASA 확인: 얼마나 멋진가요? 2018-02-13T00:00:00Z Ask HN
      • ESP32 購入者向けマニュアル: 各種チップ、ファームウェア、センサー
        ESP32 購入者向けマニュアル: 各種チップ、ファームウェア、センサー Artificial intelligence
      • ブラウザ拡張機能 Glarity の提供の開始 – ChatGPT を使用した Google/YouTube の概要
        ブラウザ拡張機能 Glarity の提供の開始 – ChatGPT を使用した Google/YouTube の概要 anti-Mastodon
      • DevSecOP について暴言を吐く
        DevSecOP について暴言を吐く anti-Mastodon
      • DetectGPT: Zero-Shot Machine-Generated Textual Assess Material Detection
        DetectGPT: Zero-Shot Machine-Generated Textual Assess Material Detection Artificial intelligence
      • Total Electronics の内なる素晴らしいこと
        Total Electronics の内なる素晴らしいこと Artificial intelligence
      MAILANON
      2100 MAIL
      SEO
      METAVERSE
      BioLINK
      CRYPTO MINING
      CASINO
      DEFI-TRACKER
      StartApp Network
      RAVES-MONSTER-GAME
      RAVES EXCHANGE
      RAVES NFT
      KVANTA TV

      Copyright © 2023 Nasare™🚀.

      Powered by PressBook News Dark theme