ビデオは以下にあります
いくつかのフィードバックをいただいたので、実際に以下のスクリプトを編集しました。 「CPU と GPU は通常、エッジ AI の代替案として受け入れられるハードウェアの選択肢とは見なされていません」に関するセクションを削除します。 CPU は一般的に 100 ドル未満の小さなアイテムで色あせているため、ここでは教育的ではありません。 また、プログラミングが容易なため、GPU は一般に FPGA に取って代わられています。
私がゲストホストしているポッドキャストから、肌寒い最近のエピソードを紹介したいと思います。 私は、基本的に台南の始まりという私の家族の役割に基づいて、携帯アプリ会社 Kdan Cell の共同設立者と話をしました。 それを見てください。
最新のディープ ファインド アウト AI アイテムのほとんどは、驚異的な効率の段階に近づいています。
正確にフェードアウトすると、インストゥルメントは GitHub Copilot、GPT-3、および Dall-E 2 を称賛し、ときどきスウィッシュな結果を生み出すことができます。
私たちにとっては事実です。 しかし、私は実際には検索結果を占めています。
山岳マネキンが最も重要なセットであると断言できない場合、どのような発言がありますか? クライアントとの自己規律を賞賛してください。
このビデオでは、AI の動作に関連する課題を見ていきます。
まず、説明したいと思います。はしっこ。 エッジ デバイスは Web に接続されていますが、ファクト ハート デバイスよりも揺るぎない顧客に近い場所にあります。
ロボット工学、無人飛行機、遠く離れたセンシング衛星、Amazon Echo を賞賛するホーム エンターテイメント デバイス、または尋問を賞賛するウェアラブルをカバーするのは、実際には膨大な時間です。 また、スマートフォンも実装しますが、ラップトップは除外します。
これらのデバイスはすべて、バイタリティ管理、処理クロール、およびメモリを中心に異なる制約を占めています。 たとえば、自動運転車のエッジ AI チップは、レイテンシーを優先する可能性があります。AI マネキンがどれだけ機敏に結果を出すことができるかということです。
多様化された手の小さな産業用空中ドローンは、20 ~ 30 分間の飛行に十分な活力を持っています。 したがって、コンピューティングとファクト処理に全体の活力予算の 5% 未満を割り当てるのが最も簡単です。
そして、これらのエッジ AI デバイスは全体でどのような仕事をしているのでしょうか? 圧倒的多数の時間、ラップトップ ビジョンまたはオーディオ処理ジョブ。 説明すると、自然言語処理、顔認識、交通予測、またはそれに相当するものです。
これらのアイテムの占有率は年々大きくなっています。 2012 年に、AlexNet はラップトップ ビジョン マネキンの物語のようになり、6,100 万個のウェイトがありました。
非互換性により、2021 年に優勝した ImageNet マネキン – CoCa – は現在 21 億の重みを持っています。
ニューラル ネットワークは本質的に、実行可能な選択肢を見つける多様化された非深層よりも活力に優れています。 オブジェクト検出ニューラル ネットワーク マネキンには、方向付けられた勾配のヒストグラムよりも最大 13,500 イベント多くの活力が必要です。 非常に多くのウェイトとレイヤーがあると、その負担が最も簡単に悪化します。
メモリの制約も占有します。 重要な時間内に推論を高速化するために、いくつかの値をランク付けして機器メモリに格納します。 これには、マネキンの重み、入力などが含まれます。 これは、チップが勝つことができる最もバイタリティを集中的に使用するアクションの 1 つです。トレンディな乗算ランキング操作よりも最大 200 倍のバイタリティを使用できます。
したがって、エッジ AI コンテキストにマネキンを詰め込むには、トレードオフが必要です。 マネキンはより小さくなければならず、必要な計算も少なくて済みますが、これは方法論の効率を低下させます。 さまざまな要因を当てにすると、どれだけ悪いことになりますが、これはおそらくもっと悪いことかもしれません.
初期のテクノロジー企業のほとんどは、すべての要素をクラウドにオフロードすることで、これらの手ごわいポイントを段階的に処理しようとしました。Siri や Amazon Echo を賞賛してください。 この機器は、特定の人物とサーバーの間で事実を中継するシン クライアントに変わるだけです。
この方法論には良い面もありますが、確かに最近のポイントでも終わります。 説明するために、事実の送信遅延、接続の安定性、および方向のプライバシーに触れているポイント。
また、すべてのしきい値とサーバーが計算負荷を分割するハート ハイブリッド方法論もあります。 しきい値の AI ハードウェアが生の事実の最初のシャッフルを行い、その後、最終確認のためにその結果をクラウドにアップロードすることを考えてみてください。
これも合ってるかも。 しかし、このハイブリッドな方法論は、すべてのシン クライアントとオンボード処理の欠点を共有していると感じています。 各エッジおよびサーバー環境でアイテムを処理することが重要です。
よろしいので、エッジ ハードウェアで AI マネキンの速度を上げないように、私はそれを明確にしました。 しかし、その AI マネキンをエッジ環境でより啓発するアプリケーション面で勝ち取ることができる問題はありますか?
まさに、ニューラル ネットワーク マネキンとして不断に知られている自律神経です。最適化され、実際には灼熱の Web サイトになりました。
コンパクトなマネキンをゼロから練習するという意見に基づいたアプローチの最初のマップ。 SqueezeNet または MobileNet を具体化するこの種のニューラル ネットワークの例を開示します。
彼らは全体的な変更について、ニューラル ネットワークの構築に新しいものを使用して、マネキンの重量を減らすのに役立ちます。 マネキンの重量が少ないほど、全体のサイズとメモリ フットプリントが小さくなります。
彼らの論文の中で、Squeezenet の著者は 50 分の 1 の重みで Alexnet レベルの精度を主張し、半分のメガバイトに圧縮されています。
ニューラル ネットワークのアイテムが、必要以上に大きくなる可能性があることをほのめかしているという、示唆に富むレポートがいくつかあります。 したがって、これはアプローチの 2 番目のマップにつながります。すでに熟練したマネキンを組み立てます。
ニューラル ネットワークはすべて行列乗算の最終的なトレーニング ルーチンです。 したがって、たまたまテクニックで熟練したマネキンのマトリックスを縮小できますが、メモリの消費量は少なくなります. . ここで、熟練したマネキンのウェイトをメモリに格納して Web サイトを設定する方法を交換します – おそらく 32 ビット フローティング現在の 8 ビット マウント ポイントから変更します。
もう 1 つの方法は、刈り込みによってマネキンの複雑さを改善することです。 説明のために、冗長な重みを排除します。 ある論文によると、ニューラル ネットワークの重みの 95% はペア キーの重みと非常に相関しています。 概念的には、おそらくそれらを避けたいと思うかもしれませんが、それでも多くの精度を保持しています.
何が当たるかというと話題にならない、今はお弁当にこういう食材がない。 精度とメモリ/活力の使用率との間のトレードオフを占めています。 前述の 32 ビット フローティングから 8 ビット マウント ポイントへのトリックは、奇妙なことに 12% 以上の精度損失に終わります。
そして残念なことに、いくつかの最適化プログラムの揺るぎない結果を賞賛しているように見えます. また、マネキンの効率とリソース使用率に対する最適化の制定を予測することも複雑です。 多様化されたものはそうではありませんが、おそらく仕様を満たしている可能性があります。
エッジ AI ソリューションのサプライヤーは、明確なソリューションを説明するハードウェアをランク付けしたいと考えています。 CPU、GPU、FPGA、および ASIC の 4 つの広くアクセス可能なハードウェア形式が、エッジ AI ピースであるという正当な理由があります。 多くの場合、啓発的なものは何もありません。 それらはすべて、用途と欠点に非常に満足しています。
1 つ目は CPU で、マイクロコントローラや MCU も含まれるカテゴリです。 これらは微視的な導入が必要です。 Raspberry Pi を称賛する CPU は、プログラミングが簡単で、用途が広く、活力が低く、価値の低い製品の中で最も魅力的です。
反対に、基本的に CPU の最も重大な欠点は、コアのペアを備えたスマートに好まれるものでさえ、配置が非常に並列に見えないことです。 また、スタイリッシュなニューラル ネットワーク アイテムには、大量の並列操作が必要です。
それで、マネキンがそのメモリに比べて十分ではない場合、100 キロバイトの RAM を賞賛する 1 つの小さな MCU でさえ、それを高速化できます。
TensorFlow Lite for Microcontrollers を称賛するいくつかの刺激的なイニシアチブがあります。
楽しい問題を有効にしたサイクリスト向けの直接対応のフリップ コントローラーに感心します。
マイクロコントローラは、半導体の世界で前例のない山のような部分であり、約 2,500 億個がすでに自己規律に展開されています。
したがって、これらの非常に制約のあるハードウェア環境で、やや洗練された機械の発見を脇に寄せようとする AI の分野は、TinyML が実行可能なほんの一部を占めていることに感心します。
2番目はGPUです。 最初はゲーム用に設計されていましたが、Nvidia の CUDA を称賛する一般的に色あせたプログラミング プラットフォームが原因で、非常に並列で危険なプログラムはありません。 これにより、新しい AI アイテムを練習するための山ができます。
それにもかかわらず、それらの並列性は、非常に活力に飢えたものになる危険性もあり、これは、前述したように、エッジ AI の推論ジョブにはあまり適していません。
エッジ GPU の一例は Nvidia Jetson です。 Jetson Nano は、Raspberry Pi を賞賛するための小型でやや低価格 (99 ドル) の組み込みラップトップです。
FPGA と ASIC という 2 つの多様なエッジ AI ハードウェアの代替提案があり、非常に魅力的です。
話題のプログラマブル ゲート アレイまたは FPGA は、実行可能なほんの一部を占めています。 これらの組み込み回路は、プログラマブル ロジック ブロックとルーティング相互接続で構成されています。 GPU は本質的に並列です。
ハードウェア記述言語は VHDL や Verilog を崇拝しているので、当然の論理演算をシミュレートする論理ブロックを作成することは間違いないでしょう。 そのため、おそらくそれらを重要なものとして構成および再構成することができます.
彼らの柔軟性は、自動運転車の取引を称賛する明らかな AI 分野で非常に貴重です。
FPGA の活用のもう 1 つの出席は、活力の有効性で勝たなければなりません。 先ほどお話ししたように、推論中、ニューラル ネットワーク マネキンは、チップの外部のメモリにアクセスするときに最も活力を費やします。
最もスマートに好まれる FPGA は、ブロック RAM (組み込みメモリ ブロックのマップ) として知られる 1 つを占有して、遅延と活力の消費を抑えます。 これらのデバイスに適合する可能性のあるモデルは、より多くの活力をもたらします。
FPGA の大きな欠点は、GPU よりもアクセス可能なメモリ、帯域幅、コンピューティング プロパティが少ないことです。 測定器に依存する範囲ですが、場合によっては、10メガバイトのオンチップメモリと同じくらい微視的です。
さらに、それらを利用するには明らかな発明能力が必要です。
CUDA は、C および C++ を称賛する標準的なプログラミング言語で動作します。
VHDL と Verilog に精通しているメンバーはもはや多くありません。
そして最後に、ASIC を占有します。 これらは、実際の明示的なプロセス用に設計されたパーソナライズされたプロセッサです。 たとえば、AI チップまたは AI アクセラレータは、ASIC のクラスとしてよく知られています。
私は以前のビデオで AI アクセラレーターについて話しました。
ASIC の最大の欠点は明確です。 チップを発明して作るためには、莫大な前払い金と人的財産を推測することが重要です。 ノードの最もスマートな最前線の方向性を備えた半導体チップの設計と製造は、数千ドルの価値があります。
さらに、FPGA と同じように、製造後に明らかなアーキテクチャを交換することはおそらくないでしょう。 ほとんどの ASIC メーカーは、より一般的な効率性を構築することで、これを回避しようと努力します。
## ベンダー
もはや多くの企業が、エッジ AI チップの設計の選択を考慮に入れたいとは思わなくなります。傷。 幸いなことに、ディストリビューターからアクセスできる刺激的なエッジ AI アクセラレーター製品が多数あります。
技術の巨人の面では、2020 年にリリースされたばかりの Intel の Movidius Myriad X VPU を使用していることは間違いありません。VPU は Imaginative and prescient Processing Unit の略です。
また、ドローン、ロボット工学、楽しいカメラなどでもフェードされます。 Movidius は、2016 年に Intel に買収されるよりも早く、しきい値での可視処理を専門とするアイルランドのスタートアップ企業でした。
Google は Edge TPU に非常に満足していると述べています。しきい値で推論を行うために動機付けられています。
製品のさまざまなイテレーション (USB スティックと開発者ボード) は、Coral として知られるイニシアチブによって装備されています。
Nvidia のセクションには、一連のマシン オン チップである Tegra があります。 エッジ AI アクセラレータとして知られているわけではありませんが、セルであることは間違いありません。
テクノロジーの巨人には、さまざまな中小企業が参加しています。 それらすべてに焦点を当てるには方法論が長すぎることを望みますが、ここに私ののぞき見を捉えた他のいくつかのサンプルがあります.
Rockchip は本質的に中国のファブレス半導体メーカーです。基本的に福建省の福州に拠点を置いています。 彼らの特殊な AI チップ製品の 1 つは、スタンドアロンのニューラル プロセッシング ユニット (NPU) である Rockchip RK1808 です。
RK1808はチップですが、Toybrickと呼ばれるUSB機器としてもよく搭載されています。 これにより、小さなイニシアチブとそうでないイニシアチブを簡単に組み合わせることができるようになると思います。
カリフォルニア州ミルピタスにある Gyrfalcon Skills は、ほとんど、活力がなく、価値の低いチップを生産しています。
彼らのニューラル アクセラレータは、もう 1 つのプロセッサと組み合わせて、高度な画像認識や物体検出の仕事に対処することを目的としています。
私が存在することを好むもう 1 つの小さな子は、新竹にいる Kneron です。
それらは 2015 年から使用されています。さまざまな AI チップを提供しており、音声や体の動きの認識のためにさらにフェードアウトすることもできます。
エッジ AI の代替案を引き渡す際の山積みの課題の 1 つは、ハードウェアとモデルのバランスを取りたいということです。
とてつもなくぎっしりとくっついています。 1 つを微調整すると、多様化したものが台無しになり、イテレーションと開発のクロールが大幅に遅くなります。
これについては、より早く導出することをお勧めします。 では、それを支援するためにニューラル ネットワークに言及してみませんか? 少し前に、ハードウェア対応のニューラル アーキテクチャ検索と呼ばれるものについて、刺激的な比較が行われました。
ここに、明らかなハードウェア変数をニューラル ネットワーク マネキン自体に組み込むセットを示します。これにより、明示的なハードウェア (合計で GPU または FPGA) で最適な速度が得られます。
ASIC の場合、ハードウェア自体が広くパーソナライズされている可能性があるため、この検索はうまく機能しません。 しかし、ASIC は、ハードウェアとアルゴリズムを同時に共同設計する魅力的な可能性を開きます。
ここでは、ブループリント スキルの共同最適化、各チップの製造方法、ノードとチップの方向性、共有された成功の方向性をのぞき見で作成します。 しきい値 AI ハードウェアの Web サイトでも実行可能なものはわずかです。
大量のアイテムはこれまで以上に非常に効率的です。 私たちは、彼らが何を正当化するかを理解することができます。 しかし、エッジ AI ハードウェア メーカーは、これらのアイテムに対応する上で、厳しい財政的およびおそらく物理的な制限に直面しています。
20 世紀後半のある日、ラップトップ プログラムは貿易と商取引において前例のない利点を解放するのに役立ちました。 AI には、同一のものに勝つ適性があります。
しかし、ハードウェアのしきい値がどの方法でも満足できるレベルに達すると、AI の強力な実行可能機能が一時的なクラウドに閉じ込められてしまうのではないかと心配になります。 貿易が引き続き順応し、前進することを願っています。