は、AI によって生成されたアートワークを使用して、バーチャル トゥルースとバーチャル プロダクションのための適格な没入型ボリューメトリック ビデオのためのツールを作成します。 私たちは、LDI3 構造という大きな一歩を踏み出すことに意気消沈しています。 今日はその意味を解き明かし、いくつかのデモを展示し、技術情報に入ります.
ここにデモがあります。 さらに、ブラウザーや電話の 2D 画面でそれらを視聴したり、Quest 2/Quest Pro の VR インターネット ブラウザーからこれらの URL を入力して VR でトリップしたりすることもできます (ツールのセットアップは必要ありません):
info@lifecastvr.com
までご連絡ください。 私たちは、手動で作成することなく、私たちのツールから前進するときの最も現代的な結果をここに示します (たとえあなたが想像しているだけで、結果をさらに改善できると仮定しても)
Lifecast のビデオ参加者は、MIT ライセンスの下で繰り返しソースを開始しています。 以下に示すユニークな LDI3 構造の参加者の WebXR および Unreal Engine 5 のバリエーションは、Lifecast のパブリック GitHub リポジトリ
6のイラストです自由度 (6DOF)。
デジタル制作は、2D 映画制作の主要な独自の手段です。 前提は、俳優の助力で巨大な LED ウォールにレンダリングされた 3D の雰囲気を所有することです。 3D の雰囲気は、ほとんどの場合、Unreal Engine またはチーム精神でモデル化されています。 ムービー デジカメが動くと、LED ウォールの画像はそれに応じて応答しようとします。これは、VR 用に 6DOF をレンダリングするのとまったく同じ危険です。 Unreal とチーム スピリットで写真のようにリアルな環境を作成するには、取り込みに時間がかかり、コストがかかります。 Lifecast はバーチャル トゥルースのためのツールを作成することから始めましたが、映画業界の専門家と話をした結果、6DOF ビデオ用の同じテクノロジーが、バーチャル プロダクション用の写真のようにリアルな 3D 環境を増やすための価格効率の高い効率的なアプローチであることに気付きました。 フォトグラメトリも同様ですが、静的なシーンにのみ適用できますが、ビデオは仮想環境をより生き生きと感じさせることができます。 ここにリストされているのは、VR の成長を主に選別することです。 同じボリュメトリック ビデオ テクノロジーをバーチャル プロダクションに導入することに成功しました.
「The Mandolorian」の仮想製品用の LED ウォール フィーブル」。 [source]
Lifecast では、時間枠の「ボリューメトリック」と 6DOF を同じ意味で使用しています。 この用語は気分を害する人もいれば、仮説を明確に伝える人もいます。 約に関する私たちの焦点では、時間フレームのボリュームの最も正確な言い方は、ボクセルまたは神経放射場 (NeRF) に相当する、3D 住居のすべてのポイントにいくらかの価値を割り当てる 3D シーン表現に対するものです。 それにもかかわらず、RGBD (陰影 + 深度計画) の写真とビデオを「ボリューメトリック」として参照し、ボリューメトリック ビデオ ツールが RGBD ビデオのかなり多くのストリームで動作するようにすることも標準に変わりました。 ここでの最も重要な要素は、RGBD が 6DOF レンダリングを許可することです。 現在発表しているのは、強化された宝の RGBD です。 生徒にとっては「膨張した等角層深度画像」です.
没入型とはどういう意味ですか? 一部の VR ビデオは、約 (球の半分) に焦点を合わせた 180 度の自己規律を所有していますが、他のものはふっくらした球を覆い隠しています。 私たちは半球で没入感を得るのに十分であると判断しますが、他の人はふっくらとした 360 球を求めます. 現在、180 度の轟音キーンに特化しているのは、ビデオを撮影するカメラから、処理と圧縮、リアルタイム再生まで、全体の意図を真剣に考えた場合のトレードオフの確実な役割を提示するためです。
成功すると、6DOFもさらにユーザーが通過できるという理由で 3DOF よりも没入型であり、実際の 3D レンダリングは立体的な疑似 3D よりも没入型です。 とはいえ、6DOF には、没入感を減らす多くの目に見えるアーティファクトが追加で含まれている可能性があります。 ビデオのすべてのフレームの写真のようにリアルな 3D モデルを増やすことでこれらのアーティファクトを克服し、制限されたハードウェアでリアルタイムにレンダリングする柔軟性を持つことは、PC の想像力と先見の明とグラフィックスにおける危険の始まりです.
ビデオは写真より魅力的です。 写真測量と NeRF に相当する新しい方法は、焦点の多くの機能からの写真の高い欲求から静的シーンの 6DOF 3D 表現を作成できます。 それにもかかわらず、全体的な定式化は、通過するシーンのコンポーネントに対しては機能せず、ビデオへの拡張は自明ではなく、実用性とのトレードオフを伴います。 実例として、イマーシブ ボリューム ビデオに関する Meta と Google の以前の研究では、24 台または 46 台のカメラを備えたカスタマイズされたデジカム アレイについて言及されており、シーンの多くの写真をすべて同時に所有することができます。 残念ながら、これだけの数のカメラを扱うのはあまり資格がありません.
Facebook- (現Meta’s) プロトタイプ Surround360 x24 、24台のカメラを搭載。
ボリュメトリックビデオも、Adobe Premiere と同等の既存のビデオ改善ツールを使用して編集されます。
参加者はアンリアルとチーム精神のイニシアチブにも混ざっています.
Lifecast のツールは、これらすべてのターゲットを念頭に置いて設計されています。 私たちの方法は、現代のほとんどのハードウェアの障壁の中で作業し、より多くの機械学習を行うことです.
最近では、デュアル魚眼レンズを搭載した Canon EOS R5 が、8K 解像度で映画のような品質の VR180 フッテージにさらに妥協する可能性のある、カテゴリーを再定義する VR デジカムとして登場しました。 私たちは、このデジカムまたは VR180 デジカムの任意のロットで動作するボリューメトリック ビデオを処理するためのブランド独自のパイプラインを開発しました (認定された VR180 カメラの一部のロットは、FXG の FM Duo と Z-Cam の K2 Pro で構成されています)。
デスクトップ GPU でも、ビデオの最高の解像度で、おそらくさらに公平にデコードすることもできます。 Quest 2 または Quest Pro では、制限は 5760×5760 (1 秒あたり 30 または 60 フレームで 1 フレームあたり 3300 万ピクセル) であり、最も主要なデスクトップ GPU でも制限はそれほど高くありません。 ボリューメトリック ビデオの場合、常にピクセルを賢く使う必要があります。
2D の場合でも、球体または球体の半分をマスクするためにピクセルの制限された欲求を拡張する必要があるため、VR ビデオや写真を作成することは繰り返し行われてきました。 トリップするのに十分なピクセルがありません。 「プロジェクション」は、長方形の画像を球体の周りにラップするための特定のシステムです。 例として、ほとんどの場合、VR ビデオと写真の微弱な投影は正距円筒図法です (これは、地球の地図を作成するのにも微弱です)。
VR180 の VR ビデオと写真の構造は、それが提供するため、今ではトレンディに変わる前に、それほど長くはありませんでした。解像度におけるトレードオフの正確な役割、約に関する焦点の自己規律、およびスティッチングの容易さ。 VR180 には、正距円筒図法で、左時計用の画像と鋭角時計用の画像が 1 つずつ含まれていますが、すべての時計は球全体の代わりに 180 レベル (球の半分) を取得します。
VR180 キャラクタライズには、左の時計と、約 180 度の焦点の自己規律を正距円筒図法で、熱心な人のための 1 つ。 写真提供 Thomas Hübner.
LifecastのツールはVR180の動画や写真を入力し、機械学習とPCの想像力と先見の明を使用して、それらをボリューム表現に拡張します。 この変換の一部として、投影も調整するため、ビデオ ピクセルに相当する範囲内で作業しながら、より高い可視品質を提供できます。
VR 業界は VR180 の正距円筒図法を標準化していますが、残念ながら、正距円筒図法はしきい値に多くのピクセルを配置し、シーンの内臓にピクセルを配置しません。これは、必要なものとは逆です。 VR180 が実際の 3D を生成するのは、ユーザーが今この瞬間を通り過ぎて地平線を見つめているときだけです。 ユーザーが周囲をより遠くに見るため、立体レンダリングが不適切になるため、シーンのその部分に多くのピクセルを費やすのは非常に残念です.
正距円筒図法の代わりに、Lifecast の LDI3 構造は正距円筒図法 (別名 f-シータ図法) を使用し、等角図法を「膨らませて」、より多くの成分を配置します。根性。 下の写真は、さまざまな投影を示しています。 Lifecast 構造を使用すると、等角投影にズームインすることで、ピクセル密度の FOV を商取引するために追加でつかむことができる可能性があります.
「膨らませた」等角図法の画像。 腸が拡大され、周囲がつぶれているのを見てください.
8800×4400 の特徴的な等角 VR180 画像からの 512×512 ピクセルの心臓 (つまり、「8K」解像度をかなり上回る) .
上の 2 枚の写真はほぼ同じように見えます。 よりスマートなプロジェクションを使用することで、内部で効率的な 8K ピクセル密度を (周囲ではなく) 圧縮し、約 180 度の焦点の自己規律を 1920×1920 ピクセルに縮小します。 これらの実際の 9 つを 5760×5760 のビデオ ファイルに一致させることができるため、ここが最も重要です。
Neural radiance fields (NeRF) 自身のフェアはそれほど長くはありませんでした。 2 枚の写真から 3D シーンを再構築し、元のビューのフォトリアリスティックなレンダリングを提供する際の芸術作品のユニークなうねり。 それにもかかわらず、独特の NeRF フォーメーションには多くの障壁があり、ビデオで資格のある発言をすることはできません。 一部の障壁は次のように構成されます:
のんびりNeRF推定処理一般的なビデオコーデックを使用して圧縮できなくなりました実時間でレンダリングするのはもはや自明ではありません
それらは衝動的に再集計のままです。 私たちは多くのシステムで NeRF からインスピレーションを得ていますが、現時点で展開するキャンディーに焦点を当てています.
ユニークなライフキャスト LDI3 構造は、3 層の LDI であり、膨張した等角投影にあります。 より多くのレイヤーが高度なシーンをより適切に象徴し、すべてのレイヤー内で適切なインペインティングを可能にするため、レイヤーの必要性を 2 から 3 に引き上げました。 解像度が 5760×5760 に制限されている場合、4 つのレイヤーを使用すると、画質が低下する可能性があります。 1 年前に Quest 2 で 3 つのレイヤーをテストしましたが、それはリアルタイムではありませんでしたが、それ以来、Meta はいくつかの最適化 (特に WebXR 用) を出荷しており、想像できるかもしれない 3 つのレイヤー レンダリングを作成します。 特に、固定中心窩レンダリングは、この時点で最も重要な最適化です (ユーザーの周辺の想像力と先見の明にピクセレーション アーティファクトが生じる可能性があると仮定しても)。 私たちはこれらの取り組みを高く評価し、Meta の WebXR スタックの最適化をさらに進めて、Lifecast の VR ビデオ参加者のユーザーの旅行を改善します。
以前、
Lifecast は 2 層 6DOF 構造 を開始しました。これは真に 2 層の LDI であり、等角投影 (膨張していません) ですが、アルファ チャネルはありません。ビデオに明示的に保存されています。 その代わりに、ビデオを解凍するときに GPU でリアルタイムに計算されます。 アルファ チャネルを明示的に保存しないことの最大の利点は、そのためにピクセルを費やすことに決めていないことです。これらのピクセルは、写真をその場所でより鮮明に見せるためのものであると言えます。 欠点は、アルファ チャネルを計算するためにセル GPU がリアルタイムで実行できる負荷がほとんどない可能性があることです。 LDI3 では、ビデオのアルファ チャネルを小売りしています。つまり、オフラインでより多くの時間を費やしてより良いアルファ チャネルを計算し、安価にリアルタイムでレンダリングできます。
Lifecast の 2 層構造。 先端の行が前景レイヤーで、 裏側の行は背景レイヤーです。 左の列がイメージで、キーンの列が奥行き図です。
Lifecast の 2 層構造は、6DOF のビデオと写真で主要な再集計を処理するように設計されていました。 もしあなたがたまたまユーザーにパスする柔軟性を与えたなら、彼らはデジカメが決して見たことのない場所へのオブジェクトの賭けを見て、何かもっともらしいものを探すためにクエリを割り当てます.
この危険に直面している最も総合的なレベルこれは、VR 用の RGBD ビデオに関する以前の研究で採用された戦略です。 (オブジェクトのしきい値で) 奥行きの高い不連続性が発生する場所はどこでも、前景と背景が「縞模様の三角形」で接続されているため、この種のことは、記事の目的で見られる可能性としては決してないかもしれません。 このアーティファクトは多くのユーザーにとって気が散り、没入感を低下させます。
2 層構造で、クエスト 2 を追跡するための主要なボリューメトリック ビデオのペアを作成しました。 背景レイヤーとその深度プランをインペイントすることにより、オブジェクトの横にあるものを想像するために勉強する機械は弱いです。 LDI3 構造と、パイプラインへの非常に多くの機能強化により、AI は不足しているデータを埋めるためのより良い仕事をするようになりました.
ここにユニークなフレームがありますライフキャスト LDI3 構造:
Lifecast の LDI3 構造。 上段:前景レイヤー。 ハートロウ:センターレイヤー。 下段:背景レイヤー。 左列:写真。 ハートの列: 12 ビットのエラー訂正コードを使用した深度マップ。 正しい列: アルファ チャネル。
各行の小売店には、1 つのレイヤーのシェード (RGB)、深度図 (D)、およびアルファ チャネル (A) が含まれます。 ハートコラムは通常のデプスプランよりも洗練された印象。 これは、LDI3 でデプス プランの一貫性を向上させるために多くのエンコードを行っているためです。
オンライン上のほとんどのビデオは 8 ビット圧縮と言っています。ほとんどの 256 は、グレーの色合いを想像してください。 LDI の深度マップを格納する場合、ここに危険があります。明らかな深度値は 256 しかないため、穏やかなサーフェスがギザギザの階段を宝物として見る原因となります。 この危険に打ち勝つために、8 ビット以上の精度を持つデプス マップを販売店に提供しています。
8 ビットの深度マップは、なだらかな表面で階段状のアーティファクトが発生します。
10 ビット ビデオは、極端に動的に変動する (HDR) シェードには弱いです。 私たちが必要としているのは、深度マップ用の宝の HDR です。 より多くのビットを備えたビデオ コーデックがありますが、すべてのブラウザとデバイスに対応しているようには見えません。 私たちの評価では、Quest 2 は、WebXR で 5760×5760 の解像度で 10 ビットのビデオをリアルタイムでデコードできない可能性があります。 10 ビットは陰影に対して正確ですが、理想的には深度に対してより多くのビットが必要です.
今ならできるデジカメが決して見たことのないシーンの構成要素に物体が横たわっているのを見たときに、もっともらしい画像をレンダリングする可能性に戻ります。 LDI3 構造の事前計算されたアルファ チャネルは、解像度の一部です。 もう 1 つの部分は、VR180 入力を処理して LDI3 出力を作成するためのパイプラインにあります。 ここで、NeRF と Stable Diffusion からのいくつかのヒントを組み合わせます。
ニューラル多重解像度ハッシュ プランを使用して、シーンを 3 つのレイヤーに分解します。 深紅=背景、緑=中央、青=前景。
Lifecast 2 レイヤーでの AoT Gan によるインペインティングパイプライン.
Lifecast LDI3 パイプラインでの Stable Diffusion によるインペインティング。 タイルの地面のもっともらしいテクスチャと、ランプが完全に根絶されたことを確認してください。
圧縮主エラー訂正コードを使用した 12 ビット深度マップ。Stable Diffusion を使用したインペインティング ニューラル多重解像度ハッシュプランを用いてシーンを3層に分解する方法.
VR およびバーチャル プロダクション向けの適格な没入型ボリューメトリック ビデオの進め方は白熱です。 VR180 カメラを使用して LDI3 構造で轟音を鳴らすには、
info@lifecastvr.com
.
(Lifecast の VR180 から 6DOF へのコンバーター (lifecastvr.com でアクセス可能) が 2 層構造を生成するという小説; 増加する LDI3 ビデオは、Lifecast を使用して今この瞬間に作業することによってのみ、暗示的にアクセスできます.