修正されたノイズに対するゴージャスなチューニングにより、実際の拡散は問題なく非常に暗いまたは穏やかな写真を生成できます.
Denoising Diffusion Probabilistic Fashions は、生成ニューラル ネットワーク マネキンのかなり新しい形式であり、データから発見された高次元確率分布からサンプルを生成するファッションです。 同じクラスの痛みに対するさまざまなアプローチには、Generative Adversarial Networks、Normalizing Flows、およびディメンションを 1 つずつまたはブロック単位でパターン化するさまざまな種類の自己回帰ファッションが含まれます。 このエクストラまたはレス モデリングの多くの主なアプリケーションの 1 つは間違いなく画像合成であり、最近の拡散ファッションは、画質に関しては非常に競争力があり、特に画像全体でグローバルに一貫した構成を生成する場合に非常に競争力があります。
Actual Diffusion は、事前に訓練された一般に公開されているマネキンであり、このテクニックを使っていくつかのまばゆい光を生み出すことができます。結果。 一方で、ほとんど気づかれずにぶら下がっているように見えるグリップ制限があります。 常に特に暗いまたは穏やかな写真を生成するためにクエリを実行しようとしている間、ほとんどの場合、価格が 0.5 にかなり近い写真が生成されます (完全に暗い画像は 0、完全に白い画像は 1)。 . 例えば:
ほとんどのセグメントでは、これらの写真はまだもっともらしい. それにもかかわらず、価格ラウンド 0.5 のような人生をぶら下げるためのずさんな制約の形は、色あせた問題、さまざまな暗い領域を打ち消すためのカラフルな霧の領域、空の領域に不利な (エンブレム内の) 高周波テクスチャ、不利な灰色の背景につながる可能性があります。白またはくすんだ色などに。 これらはすべてアップ プロセッシングを使用して手動で修正または調整できますが、ここでは、シーンの全体的なパレットが、拡散マネキンができる 1 つの配置でプレゼンテーションおよび構成のさまざまな側面と相関できるという点で、さらに大きな制限があります。
それにもかかわらず、なぜこれを行っているのでしょうか? 私は達成を想像するのは正しいですか、そしてこれらの結果は「楽しい」ですか? コーチングデータの件、構造の件、それとも、独特の拡散ファッションの件、どちらが正しいですか? (以前はファイナルでした).
まず、私の想像が間違っていたことを保証するために、素敵なチューニングを試みました.単一の安定した暗い画像に対する実際の拡散。 一般的に、素敵なチューニングの実際の拡散 (SD) は非常に適切に機能します。Dreambooth と呼ばれる、SD を教育するための新しい特定のアイデアが、露骨な個人の顔や露骨な猫をむさぼり食い、数十の写真と数千のグラデーションの更新がマネキンに十分その明示的な規律がむさぼり食うように見えるものを研究してください。 それを 10,000 ステップまで延ばすと、特定の写真を記憶するために開きます。これは「安定した暗いイメージ」の場合:
瞬間の使い方:「安定した濁ったイメージ」
だから、SDは過度に暗いまたは優しいものを生み出す柔軟性をぶら下げていないので、むさぼるように見える箱から出してすぐに写真を撮ることができますが、その上 それを実行するための勉強さえできません
成功しましたが、1 つのことを変更せずにはいられませんでした.
何が起こっているのか把握するために、具体的にどのような分岐点があるかを示すことが役立ちます。マネキンは逆に見つけています。 定式化された規則的な配置の拡散様式は、「独立して同一に分散された」(iid) ガウス ノイズのミニチュア部分の繰り返し加算の明示的な前方確率方向の逆として表されます。 つまり、潜在空間内のすべてのピクセルは、すべてのステップでキャッチランダムパターンを受け取ります。 拡散マネキンは、これらのさまざまなステップが実行された後の画像を望み、話し、その軌跡をまとめて真の画像に手を貸すために向かう方向を決定することを学びます。 「信頼できるイメージの方向に後退する」ことができるこのマネキンを考えると、純粋なノイズで開き、ノイズの方向を逆にして新鮮なイメージを袋に入れます.
惨めさはある段階で本当のイメージを 完全に 消さないことの順方向で、したがって、純粋なノイズから始まる逆マネキンを裏返して、写真の完全な最大の配布に手を貸すことはできません。 さまざまな問題として、ノイズが 最終 を破壊する問題は、最も反転しています 弱い の逆方向に変更された – これらの問題は、からさまざまに継承されています。の方向に開くために消滅する潜在的なノイズパターン。
一見するとわかりませんが、正面から見ると画像が乱れる配置になっているため、波長の長い側面ほど、ノイズが途切れるまでの時間が長くなります:
だから、同一の潜在ノイズシードの利用について話しましょうが、さまざまなプロンプトは、全体的な構成の範囲であらゆる種類に接続されがちな写真を提供する傾向がありますが、実際にはそうではありません。個々のテクスチャまたはミニチュアスケールのパターンの範囲。 の拡散方向は、それらの長波長の側面を交換する配置を知りません。 そして最長波長機能はコンプリートとしての画像の日常価格で、これが
しかも
潜在ノイズの偏りのないサンプル間で最も変動しにくい関数。
この痛みは、対象オブジェクトの次元が大きくなるほど悪化します。これは、偏りのないノイズ サンプル スケールのスポットの特異な偏差が 1/N を消費するためです。 したがって、4d ベクトルを生成するときはいつでも、これはそれほど悲惨なことではありません。最も低い周波数の音声をバッグに入れるには、理想的な周波数の音声の 2 倍のサンプルが必要です。 それにもかかわらず、512×512 専用の実際の拡散では、3 x 64^2=12288 次元のオブジェクトを生成しています。 したがって、最長の波長は、最短のものよりも 100 の要素についてゆっくりと交換されます。これは、デフォルトが約 50 である場合 (または一部の高度なサンプラー、最低 20).
サンプリングステップの数を増やすとむさぼり食うように見えます SD は余分なわいせつな写真を達成しますが、私たちはできます
トリックは、分岐マネキンを逆に教育するノイズの構造で実行する必要があります。 私たちが iid サンプルを利用しているという話では、この 1/N があります。 それにもかかわらず、さまざまな画像全体にわたって同一である単一の iid パターンに追加されたピクセルごとの iid パターンをむさぼり食うように見えるノイズを行使するとどうなるでしょうか?
コード用語で言えば、最新のコーチング ループは、むさぼるように見えるノイズを使用します:
ノイズ=torch.randn_like(latents)
それにもかかわらず、私はおそらくこれをむさぼり食う1つのことを実行します:
ノイズ=torch.randn_like(latents) + 0.1 torch.randn(latents.shape 、latents.shape[1]、1、1)
これは、マネキンが発言のゼロ周波数を自由に交換することを学習することを通知することで、おそらくそれを達成する可能性があります.私の制限されたデータとトレーニング時間を考えると、そこにある 0.1 の多くは適切に機能しました – 滑らかにしすぎると、マネキンの報酬の習慣を支配しすぎる傾向がありますが、非常に小さく、エンチャンクメントを精査しません。 .
ノイズを伴うゴージャスなチューニングは、これを1000ステップほどむさぼり食う 正しい40の手でラベル付けされた写真は、実際の拡散の習慣を著しく交換するのに十分です。さらに悪いことに、それはおそらく事前に生成されるでしょう。 比較のために記事の上部にある 4 つのプロンプトの結果を以下に示します:
ハイプリティ: 暴風雨の暗い路地 (0.032); 左上: 白地にモノクロの線画作品スタンプ (0.974)。 左下: 晴れた日の雪に覆われたスキー場 (0.858)。 下のきれいな: たいまつに最も単純に照らされた街の広場。 (0.031)
早く星空をオフセットノイズ後
植物モンスターと戦うスーパーヒーローオフセットノイズの直後の居心地の悪い路地で
の利用と同様に、拡散ファッションのノイズ除去のノイズ アジェンダを変更することについて話しているさまざまな論文があります。 ガウス分布よりもさまざまな分布、さらには ノイズを完全に除去し、さまざまなネガティブ操作をさまざまに利用して、ぼやけや覆いをむさぼり食います。 一方、好奇心の目的の多くは、推論の方向性を加速することにあるようです – 基本的に、より少ないステップを実行する準備ができています. ノイズ (または画像破壊操作) に関する選択肢の蓄積が、問題なく合成できる写真の種類をどのように制限する可能性があるかについては、あまり注目されていないようです。 一方、それらのファッションの壮大で独創的な用途にはほとんど関係がありません.
これらのファッションをカスタマイズし、魅力的なチューニングを行うことにかろうじて取り組んでいる個々のアーティストにとって、このオフセット ノイズを 1 つのミッションまたは別のミッションで実行するように調整することは、それほど複雑ではありません。 あなたはおそらく正しい運動 私たちのチェックポイント をいつでもさらに言えば、むさぼり食う。 それにもかかわらず、さまざまな写真がこれをむさぼり食うミニチュアでの素敵な調整では、結果は、スムーズなプロジェクトが達成する可能性があるほど奇妙でもきれいでもありません.
だからこれらのスムーズなファッションをコーチングすることを考えている人へのクイズでこれをまとめたいと思います.次回役立つ衝動を達成するときのコーチング方向に、これを食い尽くす小さなオフセットノイズを少し組み込んでください. ファッションの表現力を大幅に向上させ、エンブレムをむさぼり食う問題、フィギュアを減らす、自然にカラフルで暗いシーン、強い色の照明があるシーンなどで、大幅に優れた結果をもたらします。 間違いなく簡単な裏技です!