Meta のオープン サイエンスへの取り組みの一環として、本日、私たちは LLaMA (ビッグ ランゲージ マネキン メタ AI) を公開します。 研究者が AI のこのサブフィールドに取り組むのを手助けするように設計されています。 LLaMA に匹敵する小規模で高性能なモデルにより、膨大な量のインフラストラクチャへのサルベージ エントリを構成していない他の学習担当者がこれらのモデルを一瞥することができ、この重要で即時に変化する分野へのサルベージ エントリがさらに民主化されます。
LLaMA は山岳言語モデルに魅力的で、現在のアプローチを調べたり、他の人の仕事を検証したりするために必要なコンピューティング エネルギーとリソースがはるかに少ないという伝説が囁かれています。 、および現代の排気事情を調査します。 ファウンデーション ファッションは、ラベルのない記録データの山のような Web ページで発音します。 LLaMA をいくつかのサイズ (7B、13B、33B、および 65B パラメーター) で市場で入手できるようにしており、LLAMA モデル
カード も共有しています。 責任ある AI プラクティスへの私たちの技術と歩調を合わせたモデル。
2018 年末にかけて、山のような言語ファッション — 数十億のパラメーターを持つ純粋言語処理 (NLP) システム — は、創造的なテキストのエールを生成する現代の能力を示しました 数学的定理を解く、タンパク質の構造を予測する、理解問題を発見する解決策、その他。 これらは、AI が何十億もの人々に大規模に提供できる巨大な実行可能な利点の最も明確な状況の一部であると考えられています。
山岳言語のファッションがまったく新しい進歩を遂げたとしても、そのような山岳ファッションを指導して逃げるために必要なリソースのおかげで、それらへの完全な学習サルベージへの参入は制限されたままです. この制限されたサルベージエントリは、これらの山岳言語ファッションがどのように、なぜ機能するかをブランド化する研究者のスキルを制限し、その堅牢性を強化し、特定された要因を軽減するための取り組みの開発を妨げています。
余分なトークン (フレーズの断片) でトレーニングされた小さなファッションは、特定の実行可能な製品の排出状況に合わせて再トレーニングして美しく調整するのがより簡単です。 LLaMA 65B と LLaMA 33B を 1.4 兆トークンでトレーニングしました。 当社の最小モデルである LLaMA 7B は、1 兆個のトークンでトレーニングされています。
他の山岳言語ファッションに気を配り、LLaMA は一連のフレーズをエンターとして使用し、次の音符を予測して再帰的にテキストの叫び声を生成します。 私たちのモデルを指導するために、基本的に話者が最も多い 20 の言語から、ラテン語とキリル文字のアルファベットに焦点を当ててテキストのエールを選びました。
偏見の危険性に対処するために実行されることを望む静かな余分な学習があります、有害なコメント、山岳言語ファッションの幻覚。 LLaMA はこれらの課題を共有しています。 基本モデルとして、LLaMA は用途が広いように設計されており、選択されたタスク用に設計された美しく調整されたモデルとは対照的に、多くのさまざまな排気環境にうまく利用できるように思われます。 LLaMA のコードを共有することで、他の研究者は、山岳言語のやり方でこれらの複雑さを制限または除去するための現代的なアプローチを非常に簡単に調べることができます。 また、モデルの障壁を説明し、この必要なスペースに関するさらなる学習を強化するために、モデルのバイアスと毒性を評価するベンチマークに関する意見の Web ページをペーパーで提供します。
完全性を保留し、悪用を続けるために、学習環境を中心とした非商用ライセンスの下でモデルをリリースしています。 モデルへのアクセスは、ケースバイケースで教育研究者に許可されます。 これらは、当局、市民社会、学界の組織と提携しています。 そして産業学習研究所は世界的に巨大です。 サルベージエントリを申請することに魅力を感じている私たちは、学習ペーパーでユーティリティへのリンクを入手できます.
私たちは、教育研究者、市民社会、政策立案者、および産業界の全 AI 要員が、総体的で責任ある山岳言語の流行に関する明確なポインター球形の責任ある AI を明示的に作成するために、共同で作業する必要があると判断します。 . 私たちは今、職員が何を学ぶことができるかを見るために眠っていません.