Skip to content
ℕ𝔸𝕊𝔸™ℕ𝕒𝕤𝕒𝕣𝕖™𝕊𝕡𝕒𝕔𝕖𝕏™ https://nasa.re/

Nasare™🚀

フレッシュ スペース & テクノロジー NEWS📢

  • About 𝒩𝒶𝓈𝒶𝓇𝑒™
  • SMART Tools
  • SMART AI
    • Kubeshark PCAP Export/Import
    • Coaching engineering managers to employ on organizational issues
    • Zelda: Hyperlink’s Awakening game engine documentation (2021)
    • Commercial Resupply Services-CRS
  • Show HN
    • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
    • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
    • 主な BGP 増加をレジデンス Windows デスクトップに追加する
    • ガジェットの複雑さが増し、余分な IP の再利用が促進される
    • 新しい GitHub CLI 拡張インストゥルメント
    • Kubernetes を 7,500 ノードにスケーリング (2021 年)
    • Wander アプリ用の軽量なオンザフリット構成ライブラリ
    • Ask HN
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Brand HN: Motion photographs Watchlist Chrome Extension
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Level to HN: A corpulent game of snake encoded in a url
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
    • Show HN
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Android phones will at the moment obtain iPhone-love SOS satellite texting
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Level to HN: A corpulent game of snake encoded in a url
    • Brand HN: Motion photographs Watchlist Chrome Extension
    • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
    • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
    • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
    • Tag HN: Using Key-Value Retail outlets in Serverless Codehooks.io Applications
    • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
    • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
    • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
    • Brand HN: Motion photographs Watchlist Chrome Extension
    • Level to HN: A corpulent game of snake encoded in a url
    • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
    • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
    • Speak HN: What sub $200 product improved HN readers’ 2022
    • Level to HN: An initiate source tool to generate Jet Engine compressors
    • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
    • Insist HN: Ov – characteristic smartly off terminal pager
    • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
    • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
    • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
    • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
  • A Computer virus and a Dilemma
    • OCIS – OwnCloud Countless Scale
    • A Princeton student built an app which is ready to detect if ChatGPT wrote an essay
    • GitHub Is Sued, and We Would possibly perhaps Learn Something About Creative Commons Licensing
    • Adobe’s Command material analysis can be using photos/videos to narrate AI w/o consent
    • Ultralearning a.k.a. how I learned to code
    • Automatic1111 is assist on GitHub after taking away Embedding Links
    • Where Your Sides Came From
    • What Is a Pig Butchering Rip-off?
    • Submit-processing is ruining iPhone photos
    • Clos Topologies and Centralized Retain a watch on in Google’s Datacenter Community
    • Miller Engineering DS-1 House Planetarium
    • Gimel Studio: Non-harmful, 2D image editor
  • Technology
    • Miller Engineering DS-1 House Planetarium
    • Apple Doctors: to construct it as a file it is advisable to electronic mail it to your self
    • The Air India passenger who urinated on a girl has been fired by Wells Fargo
    • The Filesystem Hierarchy Usual Comes to Guix Containers
    • Sooner than it sued Google for copying from Java, Oracle changed into as soon as copying IBM’s SQL (2020)
    • The i3-gaps mission has been merged with i3
    • Making an Alphorn from Scratch
    • Apple: Braille Individual Guides
    • MotherDuck Is a Original Thought
    • The class of CGI and simple make
    • Like a mercurial tour of DragonFly BSD 6.4?
    • computer science
    • AI
    • Artificial intelligence
    • Technology
    • Ai
    • Apple
    • digital
  • TOP HN
    • anti-Mastodon
    • TOP HN
      • Show HN
      • Ask HN
      • coding
      • ガジェットの複雑さが増し、余分な IP の再利用が促進される
      • 新しい GitHub CLI 拡張インストゥルメント
      • Kubernetes を 7,500 ノードにスケーリング (2021 年)
      • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
      • Wander アプリ用の軽量なオンザフリット構成ライブラリ
      • Artificial intelligence
      • 主な BGP 増加をレジデンス Windows デスクトップに追加する
      • Technology
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Advise HN: Daft Art – an album veil maker powered by AI and curated aesthetics
      • Brand HN: Motion photographs Watchlist Chrome Extension
      • Declare HN: I wrote a WebAssembly Interpreter and Toolkit in C
      • Demonstrate HN: ClickHouse-local – a runt instrument for serverless files analytics
      • Describe HN: Kandria, an action RPG made in Frequent Voice, is now out
      • Existing HN: Connmap – Desktop widget that reveals your TCP company on an international diagram
      • Insist HN: Ov – characteristic smartly off terminal pager
      • Just by Notでプログラミングするシステム オブジェクト指向プログラミングの活用
      • Kubernetes を 7,500 ノードにスケーリング (2021 年)
      • Level to HN: A corpulent game of snake encoded in a url
      • Level to HN: An initiate source tool to generate Jet Engine compressors
      • Level to HN: Graphic-Walker – A special kind of originate-offer different to Tableau
      • Point out HN: Kweb: A a ways away interface to the earn browser’s DOM
      • Present HN: Nanelo DNS – Privacy-Kindly, European Nameservers
      • Reward HN: Vim on-line editor the exercise of WebAssembly, storing files the exercise of IndexedDB
      • Show HN: AREnets – TensorFlow-basically based mostly Relation Extraction equipment for work in Colab
      • Speak HN: What sub $200 product improved HN readers’ 2022
      • Uncover HN: Easy internet app for teenagers to management a single Philips Hue light
      • Wander アプリ用の軽量なオンザフリット構成ライブラリ
      • WINd3x、iPod Bootrom エクスプロイトは 10 年遅かった
      • ガジェットの複雑さが増し、余分な IP の再利用が促進される
      • 主な BGP 増加をレジデンス Windows デスクトップに追加する
      • 新しい GitHub CLI 拡張インストゥルメント
      • ロンドンで*ダウン*を継続的に見つめる: Pavement Oddities
      • 報酬 HN: C の 30 行でスピンロック
      • FAA の NOTAM とは何ですか? 航空専門家が機械の仕組みを説明
      • ナノGPT
      • 1 ビット LCD のグレースケール (2022)
      • The Muse (YC W12) は FP&A のシニア ディレクターを採用しています
      • Zen (YC S21) はグロース エンジニアを採用しています
      • Tall Inquire of (YC W21) が B2B 回顧録の幹部を採用
      • Actiondesk (YC S19) は、プロダクト ドレスメーカーを採用しています (4-6 か月の契約)
      • Oven (YC S19) は、Bun を作成するために C/C++ または Zig エンジニアを採用しています。
      • WInd3x, the iPod Bootrom exploit 10 years too unhurried
      • Sign HN: FASTA recordsdata を操作するための FUSE モジュール
      • HN を指します: Socketify.py: PyPy3 および Python3 用の Http/Https および WebSocket サーバー
      • Wage Development Continues to Gradual in the UK and Euro House
      • Stage Supervisor for the unimpressed: 1 Getting started
      • First public free up of Pushup: a brand unique compiler for making net apps in Trip
      • Fixing Cart-Pole Swingup with a Hierarchical Controller
      • Flight Testing the Touchdown Radar for Mars Science Laboratory 2011-06-21T17:36:36Z
      • Flightcontrol (YC W22) is hiring first Developer Recommend
      • Flying boats and other tech for cleaner shipping
      • Four Finalist Touchdown Location Candidates for Mars Science Laboratory 2008-11-19T16:21:01Z
      • France’s prized nuclear sector stalled in Europe’s hour of want
      • French startup unveils new residential thermo-acoustic warmth pump
      • FTC Cracks Down on Firms That Impose Contaminated Noncompete Restrictions
      • FTX’s Aged Prime Lawyer Aided US Authorities in Bankman-Fried Case
      • FY18 NASA lėšų šnypštimas 2017-05-22T00:00:00Z
      • G-3PO: A protocol droid for Ghidra, or GPT-3 for reverse-engineering
      • Gail.com FAQ
      • Gemini-Titan (GT)-6 – Gemini 6 of 7 – 지역 사진 – 외부 지역 1965-12-15T00:00:00Z
      • Geoffrey Hinton Publishes Original Deep Learning Algorithm
      • Germany warns: AI fingers flee already underway (2021)
      • Gimel Studio: Non-harmful, 2D image editor
      • GitHub Availability File
      • GitHub Is Sued, and We Would possibly perhaps Learn Something About Creative Commons Licensing
      • Google needs RISC-V to be a “tier-1” Android architecture
      • Google researcher, lengthy out of math, cracks devilish dispute about gadgets
      • Google start sourced CDC File Transfer from the ashes of Stadia
      • GRC-2003-C-02097 2004-05-01T00:00:00Z
      • GRC-2013-C-05246 2009-11-26T00:00:00Z
      • Hello world!
      • Highlights of Science Launching on SpaceX CRS-15 2018-06-24T00:00:00Z
      • Hilf Al-Fudul
      • HiOperator (YC S16) Is Hiring VP of Engineering
      • HN を指します: Socketify.py: PyPy3 および Python3 用の Http/Https および WebSocket サーバー
      • How kind I blueprint a pair of buttocks?
      • How will the haj switch as international temperatures upward thrust?
      • Human gene linked to bigger brains turned into as soon as born from apparently pointless DNA
      • Hundreds of scientists publish a paper every 5 days
      • In Favor of Friction and Flexibility
      • Indicate HN: Klotho – Change into straightforward code into cloud native code
      • Indoor farming isn’t exact for the smartly off
      • Iranian assault drone came across to have parts from more than a dozen US companies
      • Israeli researcher experiences leak of 235M Twitter-linked e-mail addresses
      • Jam Stations in Low Earth Orbit
      • Jazz Is Freedom
      • JPL-20171102-TECHf-0001-ドローントリップ 人間vs機械 2017-11-17T00:00:00Z
      • JPL에서 NASA의 MSI 콘도미니엄 액셀러레이터 2022-08-25T00:00:00Z
      • JPSO extinct facial recognition abilities to arrest a man. The tech modified into once defective
      • jsc2017e136097 – 12 月 4 日,俄罗斯联邦地区公司 (Roscosmos) 的远征 54-55 号机组人员 Anton Shkaplerov 在俄罗斯 Principal person City 的加加林宇航员训练中心上向整洁的祝福者挥手致意,当时他登上了前往附近的 Chkalovsky Ai 的公共汽车2017-12-04T00:00:00Z
      • Kemble’s Cascade of Stars
      • Kepler-90 マシン (アーティストの考え) 2017-12-14T00:00:00Z
      • Koichi Wakata SpaceX 코칭 2022-06-27T00:00:00Z
      • KSC and Proud to Be Heart-Wide Diversity Tournament 2019-08-20T00:00:00Z
      • KSC ir „Proud to Be Center“ įvairovės turnyras 2019-08-20T00:00:00Z
      • AI
      • Artificial intelligence
      • Auto-Generate
      • anti-Mastodon
      • Awesome
      • BioSentinel
      • CATEGORIES
      • DC
      • Dione
      • Diversity
      • drone racing
      • drones
      • Dulles
      • education
      • Event
      • filmstock
      • Goddard
      • AI
      • Ask HN
      • autonomous
      • coding
      • computer science
      • Clusters
      • Artificial intelligence
        • Ai
        • Apple
        • Tesla
        • digital
        • MESSENGER
        • Device
        • Charts
        • change
        • Shows
        • fraud
        • Former
        • fucking
        • purge
        • Works
        • entering
        • Databases
        • Review
        • Strangely
        • Instinct
        • staff
        • Salesforce
        • intern
        • Involuntary
        • promise
        • Twilio’s
        • nisv live
        • attack
        • Iranian
        • France’s
        • prized
        • infrastructure
        • Debian-based
        • nisv s02 ep03
        • siduction
        • Awesome
        • Calculate
        • Beautiful
        • Linux
        • Start
        • dollar
        • Messier
        • Daughters
        • ‘Breakthrough’
        • obesity
        • Al-Fudul
        • sixty years
        • PyTorch
        • discloses
        • Ancient
        • Stone
        • Popup
        • design
        • public
        • expanding
        • cloud
        • forest
        • startup
        • French
        • batteries
        • fleas
        • spotted
        • Petals
        • language
        • Habitual
        • checking
        • GitHub
        • Availability
        • layers
        • inconsistencies
        • Affair
        • Quasi-War
        • Sergey
        • Irate
        • bestseller
        • necessarily
        • Scientists
        • Titan
        • twitch
        • FGS/NIRISS – Fine Guidance Sensor/Near InfraRed Imager and Slitless Spectrograph
        • infrared
        • ISIM – Integrated Science Instrument Module
        • JHU – Johns Hopkins University
        • JWST – James Webb Space Telescope
        • JWST – James Webb Space Telescope
        • absolute zero
        • Big Bang
        • Peace
        • Studio
        • Making
        • project
        • -gaps
        • warns
        • Germany
        • Braille
        • MotherDuck
        • prototype
        • Challenges
        • Infinite
        • OwnCloud
        • Novel
        • Before
        • copying
        • California
        • getting
        • States
        • Criminal
        • Brother
        • Released
        • Method
        • owners
        • ‘richsession’
        • email
        • Elements
        • Where
        • passenger
        • Hierarchy
        • Filesystem
        • economic
        • Crew Dragon
        • Bridenstine
        • Scientific
        • Heaviosity
        • Patterns
        • Unexpected
        • minimalist
        • Ecode
        • Alpha
        • Wolfram
        • Tailwind
        • HiOperator
        • Klotho
        • TEAMS
        • ROBOTICS
        • Antelope
        • Sponsors
        • Ellen Gertsen
        • Transform
        • Flightcontrol
        • subscriptions
        • Internet
        • Theory-building
        • you’re
        • looking
        • Transfer
        • error’
        • Tails
        • migrate
        • Building
        • Bitmovin
        • Remote
        • PhotoRoom
        • Company
        • Taking
        • Ribbon
        • BibDesk
        • Android
        • profilers
        • phones
        • modern
        • Mastercard
        • private
        • We’ve
        • reportedly
        • Microsoft
        • Artsy
        • trades
        • skilled
        • Polygon
        • Flying
        • Princeton
        • Codemods
        • Coaching
        • UK’s
        • popping
        • sourced
        • Wikipedia
        • admin
        • Indoor
        • quick
        • Mysterious
        • Spotify
        • Fancy
        • Spotify
        • Weird
        • mail-order
        • Recipients
        • computer
        • optics
        • partnership
        • commercial
        • telemetry
        • Crisis
        • billionaire
        • Party
        • Onelab
        • Faster
        • general
        • Adobe’s
        • database
        • FinanceDatabase
        • Numerical
        • Freedom
        • concrete
        • Stacks
        • computer science
        • NASA
    • Show HN
    • Ask HN
    • Technology
    • computer science
    • coding
    • Clusters
    • AI
    • drones
    • autonomous
    • Auto-Generate
    • Ask HN
    • Show HN
    • The SMART Science™
    • google
  • CRYPTO
    • Blockchain
    • farming
    • Billionaires
    • FTX’s
    • FinanceDatabase: A database of 300.000 symbols (ETFs, Currencies, Crypto)
  • Artificial intelligence
  • Toggle search form
  • Glimpse Meta のエンジニアが大規模ネットワークの最適化について語る
    Glimpse Meta のエンジニアが大規模ネットワークの最適化について語る anti-Mastodon
  • Bing チャットボットの失敗: Apple が実際にチャットワゴンに飛び乗らなくなった理由
    Bing チャットボットの失敗: Apple が実際にチャットワゴンに飛び乗らなくなった理由 anti-Mastodon
  • Replit は、元の年の元のハッカー計画を公表します
    Replit は、元の年の元のハッカー計画を公表します Announces
  • PC をカスタマイズする方法と理由
    PC をカスタマイズする方法と理由 anti-Mastodon
  • Carpalx – キーボード レイアウト オプティマイザー
    Carpalx – キーボード レイアウト オプティマイザー anti-Mastodon
  • ビデオ ディスプレイ HN: Chainloop、Chain Attestation ソリューションを提供するインストゥルメント
    ビデオ ディスプレイ HN: Chainloop、Chain Attestation ソリューションを提供するインストゥルメント Awesome
  • Alonzo Church の 1936 年の論文から直接利用されたラムダ計算
    Alonzo Church の 1936 年の論文から直接利用されたラムダ計算 anti-Mastodon
  • Stripe が Amazon とのパートナーシップを延長
    Stripe が Amazon とのパートナーシップを延長 Artificial intelligence
  • United States, South Korea to partner on stepped forward air mobility model
    United States, South Korea to partner on stepped forward air mobility model Technology
  • Netflixが「人手不足」でAIを活用したアニメを制作、フォロワーが激怒
    Netflixが「人手不足」でAIを活用したアニメを制作、フォロワーが激怒 Anime
  • Converse.ai が Originate-Provide コードを盗み、これを知らせた開発者を禁止
    Converse.ai が Originate-Provide コードを盗み、これを知らせた開発者を禁止 Artificial intelligence
  • Alibaba、Tencent、Baidu が ChatGPT の賑わいに加わる
    Alibaba、Tencent、Baidu が ChatGPT の賑わいに加わる Alibaba
  • Google の DeepMind は、より成熟した ChatGPT ライバルを間もなく立ち上げると述べています
    Google の DeepMind は、より成熟した ChatGPT ライバルを間もなく立ち上げると述べています anti-Mastodon
  • Clojure からの JavaScript ライブラリの利用
    Clojure からの JavaScript ライブラリの利用 anti-Mastodon
  • 私のswiftly 6502コードジェネレーターの説明
    私のswiftly 6502コードジェネレーターの説明 Artificial intelligence
Kubernetes を 7,500 ノードにスケーリング (2021 年)

Kubernetes を 7,500 ノードにスケーリング (2021 年)

私たちは現在、7,500 ノードにスケーリングされた Kubernetes クラスターを所有しており、GPT のような巨大なオブジェクトのためのスケーラブルなインフラストラクチャを生み出しています。 -3、CLIP、および DALL・E 、それにもかかわらず、ニューラル言語ユニットのスケーリング規則などのフリートの小規模な反復検査についても同様です。 単一の Kubernetes クラスターをこの次元にスケーリングすることは、もはや着実に実行されるわけではなく、特別な注意が必要ですが、利点は、コードを変更せずにグループを調査してスケールアップするマシンを見つけることを可能にする簡単なインフラストラクチャです.

閉鎖以来、

2,500ノードへのスケーリングが行われ、現在私たちは成長を続けています多くの余分なクラスを見つけるプロセスの中で、研究者の欲求を満たすための私たちのインフラストラクチャ。 この投稿は、これらのクラスを要約して、Kubernetes コミュニティ内の他のユーザーがそれらから喜びを得ることができるようにし、その後に取り組むことができる穏やかな面での考察で終わります。
私たちのワークロード

あまりにも遠くにフェッチする前に、ワークロードを説明することはよく知られています。 Kubernetes で衰退するアプリケーションとハードウェアは、従来の企業で簡単に利用できるものとは少し異なります。 私たちの考慮事項とそれに対応する解決策は、場合によっては単純に、または場合によっては、セットアップであなたの贅沢に正しく一致しない可能性もあります!

ジョブを見つけるマシンは多くのノードにまたがり、各ノードのすべてのハードウェア リソースへのフェッチ エントリがある場合に最も効率的に実行されます。 これにより、GPU は、NVLink のトレイン、または GPU がNICとの対応を取り次第GPUDirectの列車。 したがって、何百ものワークロードに対して、単一のポッドがノード全体を占有します。 NUMA、CPU、または PCIE に役立つリソースの競合は、スケジューリングのコンポーネントではなくなりました。 ビンパッキングまたは断片化は、もはや同じ古い領域ではありません。 私たちの最新のクラスターはずんぐりした二分帯域幅を所有しているため、ラックやネットワーク トポロジの問題も解決しません。 これはすべて、現在私たちが多くのノードを所有しているのに対し、スケジューラーへのストレスはかなり低いことを意味しています.

とはいえ、kube-scheduler へのストレスは急激です。 . 最新のジョブは、可能性として、すべてがすぐに作成される多数のポッド全体で構成されている可能性があり、その後、かなり低いチャーン率に戻ります.

私たちの最大のジョブは MPI をフェードし、すべてのポッドはあるレベルのジョブは、単一の MPI コミュニケーターに参加しています。 参加しているポッドのいずれかが停止すると、ジョブ全体が停止し、再開する必要があります。 ジョブは従来の基盤上でチェックポイントを実行し、再開すると最終チェックポイントから再開されます。 したがって、ポッドが セミステートフル であることを念頭に置いています。 – 強制終了された Pod は変更される可能性があり、作業を続行できます。 それほど強力な Kubernetes 負荷分散には依存していません。 私たちは非常に小さな HTTPS トラフィックを所有しており、A/B 試行、ブルー/グリーン、またはカナリアの必要性を使用していません。 Pod は、プロバイダー エンドポイントではなく、SSH 経由で MPI を使用して Pod IP アドレスで相互に通信を維持します。 プロバイダーの「発見」は禁止されています。 ジョブの起動時にどのポッドが MPI に参加しているかの 1 回限りの検索を合法的に中止します。 全体として、データセットまたはチェックポイントのいくつかのシャードを BLOB ストレージからすぐにストリーミングするか、迅速にローカルのエフェメラル ディスクにキャッシュします。 POSIX セマンティクスが非常に重要な場合に備えて、PersistentVolume のペアを所有していますが、ブロブ ストレージははるかにスケーラブルであり、slack detach/keep 操作を必要としません。

最後に、私たちの仕事の特徴は、ワークロード自体がどのように変化しているかを主に調べることです。 スーパーコンピューティング ワーカーは、コンピューティング インフラストラクチャの「実稼働」という途方もない段階で、私たちが念頭に置いているものを取得しようと努力しますが、そのクラスターで衰退するアプリケーションは急速に存続し、その開発者はフリートを反復します。 現代の使用パターンは、特性と適切なトレードオフに関する私たちの仮定を環境に与える可能性があります。 私たちは、問題の取引時にフリートに応答できる持続可能なマシンを望んでいます.

ネットワーキング 

クラスター内のノードとポッドの品揃えが増えるにつれて、Flannel がスループットをスケールアップするのに苦労していることがわかりました。必要。 Azure VMSS の IP 構成と関連する CNI プラグインのために、科学を応用したネイティブ ポッド ネットワーキングのトレインに切り替えました。 これにより、ポッドでホスト ステージのネットワーク スループットを取得することができました。私たちの最大のクラスターでは、いつでも列車で約 200,000 の IP アドレスを所有していると思われます。 ルートベースのポッド ネットワーキングを調査した後、効果的にトレーニングを行うには、さまざまなルート内によく知られている障害があることがわかりました

カプセル化の増加を抑える基盤となる SDN またはルーティング エンジンに対する要求を満たしますが、ネットワークのセットアップは簡単です。 VPN やトンネリングを追加すると、余分なアダプターが排除される可能性さえあります。 低い MTU を持つネットワークのペア フラグメントの結果としてのパケット フラグメンテーションについて悩む必要はありません。 コミュニティ ポリシーとトラフィックの監視は簡単です。 パケットの送信元と休暇スペースに関する曖昧さはなくなりました。ポッド。 これにより、研究者はネットワークの使用パターンを視覚化できます。 特に、私たちの実験の多くは明らかな Web およびポッド内通信パターンを所有しているため、ボトルネックがどこで発生するかを調査することは非常に貴重です.

iptables mangle 原則は、特定の基準に一致するパケットを恣意的に印象付ける伝統的なものでさえある可能性があります。 ここに、トラフィックが内部または Web シュアであるかどうかを検出するための私たちの原則があります。 FORWARD

原則は Pod からのトラフィックをマスクします。vs INPUT

および OUTPUT ホストからのトラフィック:

iptables -t mangle -A INPUT ! -s 10.0.0.0/8 -m コメント –comment “iptables-exporter openai traffic=web-in” iptables -t mangle -A FORWARD ! -s 10.0.0.0/8 -m コメント –comment “iptables-exporter openai traffic=web-in” iptables -t mangle -A OUTPUT ! -d 10.0.0.0/8 -m コメント –comment “iptables-exporter openai traffic=web-out” iptables -t mangle -A FORWARD ! -d 10.0.0.0/8 -m コメント –comment “iptables-exporter openai traffic=web-out”

マークが付けられるとすぐに、iptables はカウンターを生成して、バイトの組み合わせを調べます。およびこのルールに一致するパケット。 iptables 自体:

% iptables -t mangle -L -v Chain FORWARD (ポリシー ACCEPT 50M パケット、334G バイト) ) pkts バイト ゴール プロト オプトイン ソース バケーション スペース .... 1253K 555M all -- any any any where !10.0.0.0/8 /iptables-exporter openai traffic=web-out */ 1161K 7937M all -- any any !10.0 .0.0/8 where /iptables-exporter openai traffic=web-in */ 

として知られる出生元プロメテウス エクスポーターを育成します。 iptables-exporter を使用して、追跡されたこれらを監視マシンにフェッチします。 これは、さまざまな種類の前提条件に一致するパケットを調べるための簡単なアプローチです.

私たちのネットワーク モデルのちょっと変わった側面の 1 つは、ノード、ポッド、ネットワーク CIDR 範囲を研究者に復元します。 ハブ アンド スポーク ネットワーク モデルを所有し、ネイティブ ノードとポッドの CIDR 範囲をトレーニングして、そのトラフィックをルーティングします。 研究者はハブに参加し、そこから実際の特定の人物クラスター (スポーク) のいずれかへの独自のフェッチ エントリを取得します。 それにもかかわらず、クラスター自体は互いに会話することはできません。 これにより、クラスターがリモート化されたままになり、障害の分離をクラッシュさせる可能性のある甘やかされて育ったクラスターの依存関係を使用しないことが保証されます。

「NAT」ホストをトレーニングしてプロバイダー ネットワークを変換します。 CIDR は、クラスターの外部からのトラフィックとは異なります。 この設定により、研究者は、実験のためにどのようなネットワーク構成をどのように、どのような形式から取得できるかを柔軟に選択できます。

API サーバー

Kubernetes API サーバーおよび etcd は、正常に機能するクラスターのよく知られた公式であるため、これらのシステムへのストレスに特に注意を払っています。

kube-prometheus によって提供される Grafana ダッシュボードをトレーニングします。 、追加の居住用ダッシュボードに加えて。 API サーバーでの HTTP Tell 429 (Too Many Requests) および 5xx (Server Error) のレートを考慮すべきハイステージ シグナルとして警告することは非常に重要です。

他の人々は API サーバーの内部 kube をフェードアウトさせますが、私たちはクラスター自体の外部でそれらを継続的にフェードさせてきました。 すべての etcd および API サーバーは、専用ノードで非常に贅沢に衰退します。 私たちの最大のクラスターは、5 つの API サーバーと 5 つの etcd ノードをフェードさせて重みを分散し、もし誰かが乗り降りしたとしても大きな影響を与えないようにします。 私たちの

閉鎖ウェブログ投稿 で Kubernetes の機会を非常に豪華な etcd クラスターに分割して以来、etcd で重大な問題は発生していません。 API サーバーはステートレスであり、通常、自己治療機会のワーカーまたはスケールセットで簡単に操作できます。 インシデントの寓話では、etcd クラスターの自己治療的な自動化をまだ実行しようとはしていません。これは、クラスター内のノードの品揃えに比例してスケーリングする傾向があります。 7,500 ノードのクラスターでは、API サーバーごとに最大 70 GB のヒープが従来からあることがわかります。したがって、幸いなことに、これは将来にわたって実質的に内部ハードウェア機能であり続けるはずです.

API サーバーに対する巨大なストレスの 1 つが、エンドポイントの WATCH になりました。 「kubelet」や「node-exporter」などのサービスのペアがあり、クラスター内のすべてのノードがメンバーになります。 ノードがクラスターに追加またはクラスターから削除される可能性がある場合、この WATCH が起動します。 そして、慣習的にそれぞれのノード自体が kubelet

を監視するようになりました kube-proxy 経由のプロバイダーの場合、これらの応答に必要な # と帯域幅は、$N^2$ と非常に大きくなる可能性があり、まれに 1GB/秒以上になることもあります。 EndpointSlices、Kubernetes 1.17 で起動、この負荷を 1000 分の 1 に減らした大きな利益でした。

同じように、私たちは、集まる。 私たちは、DaemonSet が API サーバーと相互作用することを明確にするよう努めています。 各ノードを調整する必要がなくなった場合は、 などの中間キャッシング プロバイダーを導入します。 Datadog Cluster Agent は、クラスタの巨大なボトルネックを解消するための正しいサンプルのようです。

)

私たちのクラスターが成長するにつれて、私たちはクラスターの断固たる自動スケーリングを大幅に中止します。 それにもかかわらず、自動スケーリングがあまりにも強力すぎると、まれに問題が発生することがあります。 最近のノードがクラスターに参加したときに多くのリクエストが生成され、すぐにノードの束全体を追加すると、API サーバーの容量が過負荷になる可能性があります。 この o を平滑化します。 ut は、たとえ 2 秒でも合法であったとしても、機能停止を回避するのに役立ちました.

Prometheus と Grafana による時系列メトリクス

We Prometheus をトレーニングして時系列メトリックを収集し、グラフ、ダッシュボード、シグナルの Grafana を収集します。

kube-prometheus のデプロイから始めました。大量のメトリクスを収集し、視覚化のためにダッシュボードを修正します。 時間の経過とともに、ダッシュボード、メトリクス、およびシグナルに何百もの豪華なものを追加しました.

ノードをますます追加するにつれて、メトリクスの膨大な量に苦労しました.プロメテウスによってよそよそしい。 kube-prometheus は非常に貴重な記録を大量に公開していますが、そのうちの 2 つは実際に調べたことはありませんでした。 . 私たちは訓練します プロメテウスの原理

しばらくの間、遅かれ早かれクラッシュするまで、Prometheus がますますメモリの中で贅沢になる領域に苦労しました。メモリ不足エラー (OOM) のコンテナ。 これにより、アプリケーションに大量のメモリ容量を投入した後でも、影響が発生しました。 さらに悪いことに、破裂すると、再び使用可能になる前に、起動時に write-forward-log レコードのデータを再生するのに何時間もかかることになりました

これらの OOM のソースを突き止めました Grafana と Prometheus の間の相互作用であり、Grafana は /api/v1/series をトレーニングします。 API on Prometheus にスポットを当てて質問する {le!=””} (最も着実に、「与えるヒストグラム メトリクスの合計」)。 /api/v1/seriesの実装 時間と居住地の両方で制限がなくなりました。多くの結果が得られる場所の場合、これはおそらく、これまで以上に多くの記憶と時間の中で贅沢になり続けるでしょう. また、リクエスタがあきらめて接続を閉じた後も、成長し続けます。 私たちにとって、十分な記憶は決してなく、プロメテウスは遅かれ早かれ破裂するでしょう. 私たちは パッチを適用しました Prometheus がこの API の内部に Context を作成し、タイムアウトをタグに配置することで、完全に固定されました.インスタンスを再起動する必要がありましたが、WAL リプレイはリージョンのままでした。 Prometheus が最新のメトリクスを収集してクエリを処理する前に、すべての WAL ログを再生するのに何時間もかかる可能性があります。 Sturdy Perception、GOMAXPROCS=24 を適用することに遭遇しました。 は巨大な後押しをしました。 Prometheus は、あるレベルの WAL リプレイですべてのコアをトレーニングしようとします。コアの数が多いサーバーでは、競合によってすべてのパフォーマンスが失われます。

We 「 ***********************************************************・************* ヘルスチェック

これほど巨大なクラスターでは、間違いなく自動化に依存して、クラスターから不正な動作をしているノードを検出して取り除きます。 時間をかけて、さまざまなヘルスチェック システムを構築してきました。 パッシブヘルスチェック

一部のヘルスチェックは受動的で、すべてのノードで継続的に動作します。 これらのビデオには、ネットワークの到達可能性、欠陥のあるディスクや太いディスク、GPU エラーなど、従来のマシン リソースが表示されます。 GPU はさまざまな方法で検討を繰り返しますが、単純な同じ古いものは「修正不可能な ECC エラー」です。 Nvidia の Knowledge Heart GPU Manager (DCGM) ツールを使用すると、この問題やその他のさまざまな「Xid」エラーに対する質問を簡単に配置できます。 これらのエラーを観察する 1 つのアプローチは、dcgm-exporter を使用して、メトリックを監視マシンである Prometheus に取り込みます。 これは、DCGM_FI_DEV_XID_ERRORS として表示される場合があります。 メトリクスは、最近発生した直近のエラー コードのみに限定されます。 また、 NVML Instrument Ask API は、GPU の有効な存在と動作に関するより詳細な記録を公開します。

エラーを検出した場合場合によっては、物理的に変更されることを熱望している基礎となる GPU 内で結果をもたらす場合でも、GPU またはマシンをリセットすることによって全体的に固定できます。

ヘルスチェックをもう 1 回実行すると、上流のクラウド プロバイダーからの修復イベントが追跡されます。 有名なクラウド サプライヤはいずれも、現在の VM が遅かれ早かれ混乱を引き起こす次の修理時期に備えている場合に対処するためのアプローチをトレーニングしています。 VM を再起動する必要がある可能性があるため、基盤となるハイパーバイザー パッチを使用したり、物理ノードを他のハードウェアに交換したりする可能性があります

これらのパッシブ ヘルスチェックすべてのノードのバックグラウンド内で繰り返しフェードします。 ヘルスチェックが失敗し始めると、ノードは自動的に閉鎖されるため、ノードで最新のポッドがスケジュールされることはありません。 より深刻なヘルスチェックの失敗については、ポッドの立ち退きを試みて、当分の間、すべての作業ポッドを調査して、まっすぐに終了することもできます。 Pod Disruption Budget を介して構成可能で、このエビクションを可能にするかどうかを仲介するのは、Pod 自体まで穏やかです。 最後に、最終的に Pod 自体が終了するか、7 日が経過すると (SLA の割り当て)、VM を強制的に終了することができます。

難しいGPU評価

残念ながら、すべての GPU がサポートされなくなりました。考慮事項は、DCGM を介して表示されるエラー コードとして明らかになります。 GPU をトレーニングして追加の考慮事項を選択し、ハードウェアとドライバーが期待どおりに動作していることを明確にする評価ライブラリを構築しました。 これらの評価は、バックグラウンドでフェードすることはできません。操作するには、GPU の元のトレインが数秒または数分間必要です。

まず、これらの評価をノードは、起動時に「プリフライト」と名付けられたマシンで使用されます。 すべてのノードは、「プリフライト」テイントとタグを使用してクラスターに参加します。 このテイントにより、同じ古いポッドがノードでスケジュールされなくなります。 DaemonSet は、このタグを持つすべてのノードでプリフライト テスト ポッドを操作するように構成されています。 テストが正常に完了すると、テスト自体によってテイントとタグが削除され、ノードは同じ古いトレインに使用できるようになります

その後、フェードも行います。これらの評価は、ノードの寿命のあるレベルで定期的に行われます。 これを CronJob としてフェードし、クラスター内の任意のノードに着陸できるようにします。 これは、どのノードのフェッチが検査されるかについては、少しランダムであり、制御されていません。 クォータとリソース使用量

クラスターをスケールアップするにつれて、研究者は自分たちに支払われたすべての容量をリージョンに確保し始めました。 以前のジョブ スケジューリング システムは、Kubernetes が所有していない、競合するグループ間の作業をわずかにフェードアウトするために、多数の多様な公式を手元に所有していました。 時間の経過とともに、これらのジョブ スケジューリング システムから着想を得て、Kubernetes ネイティブのアプローチでいくつかの機能を確立しました 人的汚染

私たちはそれぞれのクラスタにプロバイダーを所有しています。たくさんの機能を備えた「workers-helpful resource-supervisor」。 そのレコード ソースは、特定のクラスターで容量を所有するすべての検査グループのタプル (ノード セレクター、適用するワーカー タグ、割り当て量) を指定する ConfigMap です。 これをクラスター内の最新のノードと調整し、ノードの適切な組み合わせを openai.com/workers=teamname で汚染します。 :NoSchedule.

「労働者-また、それぞれのジョブが送信されると、送信者のワーカー メンバーシップに応じて対応する容認が利用されるように、アドミッション Webhook プロバイダーも備えています。 taint を利用することで、Kubernetes ポッド スケジューラを柔軟に制限できます。たとえば、優先順位の低いポッドに対して「任意の」許容を許可するなどです。 )

CPU & GPU バルーン

VM ベースのクラスターを動的にスケーリングするためのクラスター オートスケーラーのトレーニングと同様に効果的に、クラスターのあるレベルで異常なコントリビューターを修復 (削除して再追加) するようにトレーニングします。 クラスタの「最小ディメンション」をゼロに、クラスタの「最大ディメンション」を手持ちの容量に環境によってこれを中止します。 それにもかかわらず、クラスター オートスケーラーは、怠惰なノードを検出した場合、絶対的な最大の必須容量までスケールダウンしようとします。 さまざまな原因 (VM トレッキングの遅延、事前に支払われたコスト、上記の API サーバーの影響) のために、この遅延スケーリングは常に最高ではありません.

そのため、CPU 絶対トップと GPU ホストの両方に対してバルーン展開を開始しました。 この展開は、優先度の低いポッドの「最大ディメンション」の品揃えを持つ ReplicaSet で構成されます。 これらのポッドはノード内のリソースを優先するため、オートスケーラーはそれらを遅延として所有していません。 それにもかかわらず、それらは優先順位が低いため、スケジューラーはそれらを直接追い出し、確固たる作業の余地を与えることができます。 (ノード上で怠惰なワークロードと見なされる DaemonSet を回避するために、DaemonSet のキープ内で Deployment のトレインを作成することを選択しました。)

繰り返しの一部として、ポッドの非親和性をトレーニングして、ポッドがノード全体に均等に分散されるようにします。 Kubernetes スケジューラの以前のバリエーションには、ポッドのアンチアフィニティを備えた $O(N^2)$ パフォーマンス リージョンがありました。 これは Kubernetes 1.18 以降で修正されています。

ギャングスケジューリング

私たちの合計の実験には、1 つ以上の StatefulSet が含まれ、それぞれがコーチング作業の特定の断片を処理します。 オプティマイザーの場合、研究者は StatefulSet のすべてのコントリビューターをスケジュールする必要があります。これは、あらゆるコーチングが実行される可能性があるよりも早く行われる必要があります (従来の基盤では、オプティマイザーのコントリビューター間で調整するように MPI をトレーニングしており、MPI はワーカーのメンバーシップの調整に弱いためです)。

それにもかかわらず、デフォルトでは、Kubernetes は、1 つの StatefulSet からのエレガントなすべてのリクエストを他のものより優先する可能性がなくなりました。 例として、2 つの実験がそれぞれクラスターの容量の 100% を要求した場合、1 つの実験または別の実験のすべてをスケジュールする際に、Kubernetes が各実験のポッドの絶対的な上位半分をスケジュールする可能性があり、デッドロックが発生します。

パーソナライズされたスケジューラーが必要な問題を 2 つ試しましたが、同じ古いポッドと競合するエッジ ケースに遭遇しました。予定されています。 Kubernetes 1.18 では、コア Kubernetes スケジューラのプラグイン構造が導入されました。これにより、このような数式をネイティブに追加できるように、より強力になりました。 私たちは近い過去にのみ上陸しましたこの領域を解決するための正しいアプローチとして、Coscheduling プラグイン。

未解決問題

Kubernetes クラスターをスケールアップする際には、対処すべき多くの考慮事項があります。 それらのほんの一部を以下に示します:

メトリクス

私たちの規模では、Prometheus のビルトイン TSDB ストレージ エンジンがコンパクトにならないために多くの問題がありました。また、再起動するたびに WAL (Write-Forward-Log) を再生するために長いインスタンスを必須にする必要があります。 クエリは、「質問を配置する」という結果になる傾向もあります。 n to processing will load too many samples” エラー。 特定の Prometheus と効果的に一致するストレージに移行する過程にあり、エンジンに質問します。 それがどうなるかについて立てられた将来のウェブログに潜入エージェントフォワード!

ポッド コミュニティ ビジター シェイピング

クラスターをスケールアップすると、それぞれのポッドが手元に特定の量の Web 帯域幅を所有するように計算されます。 特定の個人ごとの総 Web 帯域幅要件は大きく変化し、私たちの研究者は現在、担当者のデータセットや設定するアプリケーション パッケージなど、Web 上の他の領域によく知られている有用なリソース ストレスを意図せずに配置する柔軟性を所有しています。

結論

私たちはKubernetesに出会いました私たちの調査のニーズに対応する非常に柔軟なプラットフォームになることです。 スケールアップする柔軟性があり、私たちが配置した最も不安なワークロードを満たすことができます。 後押しが必要な分野はまだたくさんありますが、OpenAI のスーパーコンピューティング担当者は、Kubernetes がどのようにスケーリングできるかを探求し続けます。 このラフな作業が夢中に思える場合は、覚えておく必要があります

OpenAIで申請中!

𝚆𝚊𝚝𝚌𝚑 𝙽𝙾𝚆 📺

  • Steam デッキ: 1 周年記念
    Steam デッキ: 1 周年記念 AI
  • Sunny Computers、セクション 3
    Sunny Computers、セクション 3 anti-Mastodon
  • Yahoo が再び注目を集める
    Yahoo が再び注目を集める Artificial intelligence
  • 報酬 HN: C の 30 行でスピンロック
    報酬 HN: C の 30 行でスピンロック anti-Mastodon
  • OkCupid は ChatGPT を使用して顧客にクイズを出します
    OkCupid は ChatGPT を使用して顧客にクイズを出します anti-Mastodon
  • 米国がSVB危機に介入する中、コンサルタントは正直な危険の脅威にフラグを立てます
    米国がSVB危機に介入する中、コンサルタントは正直な危険の脅威にフラグを立てます anti-Mastodon
  • VW Tag 1 Rabbit/Golf (2021) の直前の歴史的モデル
    VW Tag 1 Rabbit/Golf (2021) の直前の歴史的モデル Julian Assange
  • ByteGraph: TikTok 用のグラフ データベース
    ByteGraph: TikTok 用のグラフ データベース anti-Mastodon
MAILANON
2100 MAIL
SEO
METAVERSE
BioLINK
CRYPTO MINING
CASINO
DEFI-TRACKER
StartApp Network
RAVES-MONSTER-GAME
RAVES EXCHANGE
RAVES NFT
KVANTA TV

Copyright © 2023 Nasare™🚀.

Powered by PressBook News Dark theme