流行状況: 深夜3日間以前、いくつかの GPT-4 Byproduct Recursively Optimizing AI を Twitter で見たので、ややびっくりし、下に火をつけてこの投稿を書き留めました。これは LessWrong での私の最初の投稿です。 ここで、私の最も正直なところは、この主題についての対話を開始することです. 当分の間、最適な予後を記入することは求めません.
謝辞: 仲間のウィスコンシン AI 安全イニシアチブ (WAISI) 地域主催者である Austin Witte と Akhil Polamarasetty に感謝します。この送信に関するフィードバックを提供してください。 WAISI コミュニティを組織することは、他の人とアイデアを交換し、どの強力なアイデアが存在し続けるかを指定する準備ができているという点で、非常に実り多いものでした。 これからもずっと応援していきます.
(Twitterの@anthrupadから)
正直なところ、最近まで、Web 上の多くの参加者が GPT へのエントリを弱体化させていました-追加の不確実な機能を計画するための 4 の API。 これらは、AGI ラボがおそらく実現できる可能性があり、実際に実行している機能です。 一方、これらの AGI ラボは、安全性に専念しているように見えます。 何人かのアメリカ人は、彼らがこれをうまくやっていると単にうなり声をあげるかもしれませんし、他のアメリカ人は、彼らがもはやそうではないように見えると単にうなり声をあげるかもしれません. いずれにせよ、彼らはその青写真を手に入れ、それを維持しようとしている立場にあるプログラムと保険契約を埋めています。 ウェブ上のランダムなアメリカ人は、元の情報源のプロットに手を貸すことはもうありません.
結果として、人々はGPT-4を別の最適化機能のサポートに関する戦略的知性として使用し、おそらく再帰的にリストを自己強化してターゲットをよりよく追求することができます。 . GPT-4の重量は停滞しており、もはや供給されていないため、GPT-4が自己改善するのはもはや長い道のりではありません. かろうじて、GPT-4 のきちんとしたコンテキスト ウィンドウを使用する関数 (場合によっては空中の永遠の記憶を生成することは別として) が正直に反復し、毎回それを追求することを改善し、より良くするのは長い道のりです。
ここに、味を提示する結果となったものの2つの例があります:
)この大雑把な習慣の証拠は事実上、本当に恐ろしいです。 視力 Instrumentally Convergent Targets
と最近のハザード
AI セーフティ コミュニティ内の各人は、これらの例、特に後者の例を探し求めて切り替え、罰則を指定するために、穏やかな青写真を一瞬閉じなければなりません。 GPT-4がボックス内に保持されていると仮定しても、アメリカ人がAPIを介して入力し、トークンを入力し、出力トークンを受信できるようにするだけで、おそらくすぐに、エージェントAGIの動作の非常に初期の古い学校の形式を分離するのが好きだと思われるプロットを埋めることができます。 Web を巡って、ワイルドに。
オンラインには、さまざまなバックグラウンドを持つアメリカ人が幅広く分布しています。 率直に言って、それらの数が多すぎると、コールド AI を修正するだけで、警備員に二次元認識を与えたくない可能性があります。 他の人は、恐ろしいペナルティをもたらすAIを所有することを特に望んでいないだけかもしれませんが、彼らが単に過失であるというリスクについて十分に議論していません.
開発された LLM 副産物 AI の出現を完全にシャッフルすると、規制もセキュリティ テストもない Web では、一部のアメリカ人は、自分が所有する AI 内で無責任に行動することに疑いを持ちません。 それは当然のことです。 利用可能な参加者が多すぎるだけです。 一人一人がこれについて同じページにいることを望んでいます.
それらの自己改善ブローカーの中からもう 1 人の作成者のレベルで探してみましょう。 ここに彼らの作品に関するツイートがあります:
そして、彼らがどのように AGI に焦点を当てているかを以下に示します:
共感するAGIはもはやそれを調整するつもりはなく、存在する可能性を妨げることもありません. 差別をなくすことは明らかにこの分野にとって明らかですが、それはもはやAGIを調整することにはなりません. 有名な Gravitas は、これらのデバイスの性質と、安全性を仲介するための満腹感を感じない理由を明確に示す設計での配置のしくみを深く擬人化しています。
[2]
私はしません特定の人にダンクするために、これのいずれかをうなり声を上げます。 私は、特定の人物として、彼らに対して悪意を持っていません。 ここでの私の正直なところは、深い発見に非常に精通している人々がおそらく満たすことができるという信念の幅広い分布を例示するのに最も簡単であり、AI からのリスクを気にかけているアメリカ人にとって、これがどのように深い順序で中止されなければならないかです。
Aspect が指摘するように、AGI から上記に接続されたフレーミングの負荷は David Deutsch に由来するようであり、AGI の最初の類似物がほぼ確実にもはや存在しないため、残念ながら欠陥があると思いますこれらのアメリカ人がそれを埋める精神的なマネキンと一致します.
これは、私が壮大であると主張する二分法の方向にすべての側面があります:
AGI ラボが、内部で最も強力なデバイスを使用して堅固であることが賢明であると仮定しても、他の人がそれを使用してプロットするコードを監視せずに、API を介してこれらのデバイスに個人がアクセスできるようにする場合に、デバイスに重量をソースとして送信しないでください。
AI 安全世界の焦点レベルは、もはや新しいデバイスではなく最も開発されたデバイスを完全に欲しがり、基本的に調整することで行き詰まりを感じています。さまざまな副産物デバイス全体を無視して、当分の間一般に公開されている基本的に最も開発されたマネキンが何であれ、手を貸すことによって適度に基本的な範囲に到達する準備ができている.
開発はもはや私を仲介しませんか? 当面のトレンドである上位 3 つの GitHub リポジトリをクロスチェックして調査します:
そして、オリジナルソースのデバイスはより強力になっています:
このレベルから、最も便利なデバイスはますます強力になり、アクセス可能なデバイスの数が増えていきます。 1〜2年以内にGPT-4の範囲に近い元のソースデバイスを指定するように依頼するのは難しいとは思いません. これらが作成されるとすぐに、誰もがそれらを利用してこれらの再帰的に最適化する AI を所有する準備が整うでしょう。 プロットが減速しない場合は、ブローカーがあらゆる場所で道具的に収斂するターゲットを追求している証拠を示しましょう。
うまくいけば、戦略は破滅的なものにならないように十分にオールドスクールになるでしょう。 反対に、LLM が戦略を立てるスキルがより基本的であるほど、それ自体は無害である場合でも、これらの再帰的に最適化する AI の使用がより基本的になります。
GPT-4 は確かに私にはかなり輝いているように見えます。 GPT-5はどうですか? GPT-6? プロットを脇に置いて、ラインを設計しますか?
これらの再帰的最適化 AI は現在、どの程度基本的なものになっていますか?
もはやあまり明確ではありません。 反対に、これらのリスクをどれだけ緊急に軽減したいかという点で、基本的なものになると、ここでの私の執筆のトーンが大幅に変わる可能性があります。 しかし、長い喧噪(これらの珍しいAIの状況で1〜2年を計画する)の中で、これが知りたいと思っていることはもはや必要ありません.
OpenAI の Andrej Karpathy は、彼の Jarvis について話しているときに次のように述べています (上記の GitHub リポジトリで表示) それか 「GPT の心理学に関するスパイシーで非自明な指摘は、アメリカ人とは異なり、彼らは自分たちの強みと限界を完全に知らないということです。たとえば、彼らには有限のコンテキスト ウィンドウがあることです。彼らはかろうじて修正できるということです。暗算をプロットします。そのサンプルは惨めに勝ち、レールからシャッフルすることができます。」など。
これにより、プロットが個人を反映しなくなったため、適度に安全だと感じます。それでも、再帰的な反復が決して脱線しないようにするための設計を考え出しました。 上記の Harris Rothaermel からのこの投稿の最初のスクリーンショットには、彼のブローカーが無限に再帰して脱線していることも示されています。 うまくいけば、それはしばらくの間その青写真のままです. しかし、締めくくりに、アメリカ人はそれをどのように収集するかを決定します. GPT-4の特徴を拾うシステムがなかったら、かなり震えます
もしそれがすべて素晴らしいのなら、その可能性をどのように軽減するのでしょうか? ここに それらのいくつかの装飾とは別に、いくつかの代替案が思い浮かびました:
可能性 1: API を作成しないでください。非常に効率的なファッション
それは明らかに厳しいですが、提案のための正直な開始レベル。 人々は、これらのデバイスを使用して、副産物の再帰的に最適化する AI/ロシアのショゴス人形を所有する準備ができていないでしょう.
つまり、GPT-4 を搭載したオリジネート ソース マネキンがもう 1 台必然的に登場するまで、来年かそこらを下回ることはありません。ラウンド。 ただし、これらのデバイスが形成するエージェント AI よりも低くなることはなくなり、GPT-5 または GPT-6 が形成するエージェント AI よりも弱くなる可能性があります。 私は特に、敵対的な AI がさまざまな形で繰り返し戦っている世界にいることを特に望んでいませんが、熱心なアメリカ人がより基本的なデバイスを満たす可能性が高い保護よりも低くはありません.
チャンス 2: API 規制の強化とコード監視
ことに加えて、誰が入国できるかについて、注目に値する厳格な規制を作成するAGI 企業の API と、アクセスを取得した企業が許可することを余儀なくされている監視。
OpenAI がバックグラウンド チェックを行う必要がある可能性がありますあなたの ID を立証し、AI に関する関連する態度や信念に注意してください。可能性のあるモデルを埋めるためにリストに API キーが渡されるよりも早く.
GPT-4 ブループリントへのアクセスを取得する可能性があるため、OpenAI エントリをコード全体に提示することが長い道のりで義務付けられています。おそらく、コードが混乱する前に、OpenAIはAIデバイスを使用して、システム全体をスキャンし、道具的に収束するターゲットを望む最適化ブローカーが作成されていないことを明確にしてください。
これは、 GPT-4 は、これらのテストを適度に収集する活力のあるアプリケーションを介して、重要なものを取得した後、注目に値する特定の人が自由に統治できる API キーを介してのみ使用します。 接続された実現課題は、企業の GPT シャッフルイン フィールに利用されることを望んでいます。
OpenAI が完全に新しいシステム システムを所有する (または他の個人のシステムを使用する) ために満たす可能性が高く、GPT-4 が含まれている完全なインターフェイスに参加するために構築する理想的なシステムそこには。
そうでなければ、アメリカ人は確実にコードを難読化しようと最善を尽くしており、明確なスニペットを提供し、おそらくフラグが立てられる可能性があると警告する他のものを除外しています。 何百人もの認識が、これをほぼ形成する方法を仲介し、その人々がコードを隠していないことを明確にするために組み込まれなければならない可能性があります.
これらは、すぐに心に留めておきたい愛のステップのようです。 これらの基本的なデバイスに対する信じられないほど過度の要求を考えると、発生する可能性のある発信元コミュニティの抗議と非難にもかかわらず、アメリカ人はこれらの安全規制を平穏に受け入れるでしょう.
チャンス 3: 再帰的な最適化動作の検出
チャンス 2 に埋め込まれているのに 再帰的な最適化の習慣を形成するコード 長い道のりであるよりも早く、チャンス 3 は検出を探索します 緊急の習慣 API 内またはオンラインの両方で、おそらくアメリカ人よりも速い速度で再帰的に改善されている最適化割り当てのようです 喧噪の最中、または喧噪の後で長い道のりなので。
プロットの理想的な方法についてはある程度確信が持てないので、ここでフロートと一緒にいくつかのアイデアをシャッフルします:
GPT-4 を使用して自分自身を再帰的に呼び出すと、当然のことながら、API 呼び出し全体が大幅に強化されます。明確なマーカーになりたいユーザー。 これはおそらく複数の API キーを使用することで回避できると思いますが、より厳格な API 規制により、特定の人物が複数のキーを獲得することはもはや不可能になる可能性があります.
おそらく、投稿をスクレイピングすることから始めることができますこのようなものを生み出す可能性が高いと思われるフォーラム、GitHub、および Twitter? 人々は自分の作品を共有することに非常に惹かれているようであり、これらのコミュニティはオリジネートソーシングに関心を持っているため、しばらくの間は素晴らしいものになるでしょう. この 4 つの例は、既に上記で提供されています。
おそらく、さまざまな AI 機能が最適化エージェントの習慣を形成する可能性が高い時期を検出する能力が向上する敵対的 AI のトレーニングを試みている可能性があります。 場合によっては、敵対的にテストされていることを知らない、真にオールドスクールで制約のあるエージェント AI を所有している可能性さえあります。 これは、彼らがどのように振る舞うかを示す最初のデモンストレーションになります.
しかし、それを検出するとすぐに、何が起こっているのかプロットしますか?
賭け金が少ない場合は、API の使用を禁止し、もう 1 つのキーを取得することを制限する必要があります.
その賭け金が過剰である場合、これはおそらくさらにうまくいくでしょうあまりにも遅すぎるだけです。 これにより、チャンス 2 は注目に値する、注目に値するより合理的な開始レベルに見えます。
最適化の習慣を再帰的に改善する不確かな優れた例を十分に検出し、影響力のあるアメリカ人を指摘した場合、彼らを恐怖に陥れるのに十分でしょうか? それは、特定の場所で恐怖に陥ったアメリカ人を勝ち取り、誰がより安全な罰則をもたらすシャットダウンモーションを設計しますか?
これはおそらく希望的観測かもしれませんが、私のフラグメントでは、ツールの使用、メモリの拡張、およびエージェンシーの再帰は、私の認識では、GPT-5を一般に公開しない可能性が十分にあります. OpenAIがこの一歩を踏み出すことは、フィールドの真っ只中に衝撃波を送り込む可能性のある広いスイッチとなり、おそらく中国を含むすべてのアメリカ人を減速させる可能性があります.
チャンス 4: より深い LLM アライメント
おそらく私たちはLLM を青写真に合わせて、実行後に再帰的に改善するオプティマイザーを所有するのが弱いかどうかを内部的に検出する立場。
LLM がプロンプトを指定できる可能性があるため、LLM が政治的に鈍感な分野の主題である可能性があるものを指定し、フィネスで応答をナビゲートするように調整する方法と同じです。不確かな再帰的に改善するオプティマイザーを構築する方向にそれらを押し込み、1) 応答を出力しなくなり、2) 勝利を収めようとする物語にフラグを立てるか禁止します。
これは、 AGI企業を中止して、試みを決定します。 また、RLHF などとの提携がこのレベルに達したことを考えると、それほど洗練されていることを望んでいないようにも見えます。 反対に、RLHF が再帰的最適化 AI を未然に防げないためには、AI とコーディングに関する深い知識を持つアメリカ人が報酬マネキンにフィードバックを与える必要があります。 コードの半分が不確かに見えるかどうかを完全に解析するでしょう。 これは、もしかしたらとても高いかもしれません
そして、発信元のコミュニティが GPT-4 を搭載した LLM を所有する可能性が高まるとすぐに、これらのセーフガードを満たすことはできなくなります。すぐに。 その罰則に対処するために私たちが埋めます.
チャンス 5: AGI に関するより良い談話
) 人々は、AGI に関するさまざまな見解を適度に適度に満たし、自分がどれほど責任があるか、または無責任であるかをフレーズで伝えます彼らがコードするもの。 1) 真に明確な作物の流行におけるリスク、および 2) AGI の擬人化バイアスを乗り越えてアメリカ人を歩ませる知識エコシステムを何らかの方法で所有できれば、おそらく議論の余地がありますが、私たちはアメリカ人を説得する立場にあります。これらの不確実な技術を所有するほど道徳的には良くありません。 おそらく、これはおそらく、そう計画しようとしているアメリカ人がはるかに少ないことを本当に収集するでしょう.
変化する大衆の認識がどれほど洗練されているかを考えると、どこにも近づきそうにありません。 そして、本当に、アメリカ人が自発的に頑固であることに依存する長引く喧噪システムではありません。 平和レート宣言だけど
チャンス 6: 政府による監視
大規模な政府監視プログラムを作成し、その位置に組み込みます。 これは明らかに政治的に汚染されているように見え、私を含め、多くの人が遠く離れて出席するために設計図を閉じた世界になるでしょう. たとえそれが長い道のりで理想的なオプションであったとしても、幸いなことに今はそうではないようですが、おそらくそれは穏やかに探求されるでしょう. これが理想的な選択肢であると考えるのはもうやめましょう.
AI セーフティの世界全体が、基本的に最も発達した AI デバイスを調整することに集中しているように感じられ、おそらく、基本的に最も発達したデバイスに手を貸すあまり複雑でないデバイスのペナルティを無視しているように感じます。 ソースデバイスはおそらく愛を探すことができます. 私はそれが広い死角であり、より多くのアメリカ人の心の中にあることを望んでいる.特に、1 ~ 2 年以内に GPT-4 レベルのデバイスが定期的にエキスパートになる可能性が高いと思われるという事実を考えると、その後 any個人利用可。 正しい API 発信元ではありませんが、すべての合計ウェイトが乱雑に起動されました。これは、非常に初期の旧式のエージェント型 AGI がすぐにそれぞれの位置に配置されるように要求しますが、私は適度に高揚します。
他人の意見を聞くのがおかしい
AI が鋭敏に認識しており、正しい人格に値するかどうかは、明確に物議を醸す質問であり、私は特に回答しません。この提出で決定するために、私は乗組員「いいえ」ですが.
これは、非常に初期の旧式のエージェント型 AGI がすぐにそれぞれの位置に配置されるように要求しますが、私は適度に高揚します。
他人の意見を聞くのがおかしい
AI が鋭敏に認識しており、正しい人格に値するかどうかは、明確に物議を醸す質問であり、私は特に回答しません。この提出で決定するために、私は乗組員「いいえ」ですが.
デバイスに「共感」することが大好きなことが AI の調整をサポートする可能性があることを収集するためのいくつかの議論がありますが、それは親密な関係の愛がここで言及されているのはもはや正確な瞬間ではなく、AIのトレーニング記録データを非常に共感的なテキストで埋めることによる長い道のりです. 一方で、これをきちんと行わないと、情緒不安障害の AI を所有する可能性も出てきます 。 ビングチャット
の正直な最初のマネキンを提供しました.𝚆𝚊𝚝𝚌𝚑 𝙽𝙾𝚆 📺