Evals は、OpenAI アイテムを評価するためのフレームワークであり、ベンチマークの開始提供レジストリです。
Evals を使用して、次のような評価を提供およびダッシュすることもできます。
- データセットを使用してプロンプトを生成し、
- によって提供される通常の補完を測定します。 OpenAI モデル、および
さまざまなデータセットとアイテム全体のパフォーマンスを評価します。
Evals では、想像できる限り少ないコードを記述しながら、eval を提供することを想像できるほど簡単に作成することを目指しています。 開始するには、次のステップ を繰り返すこと を発見することをお勧めします:
このドキュメントで学習し、 の下にある セットアップ手順を見つけてください。 . 既存の eval をダッシュできる青写真を教えてください: ダッシュ-evals.md. 新しい評価テンプレートに慣れてください: eval-templates.md.
あなたがおそらく関連する評価を維持するのを見たときはいつでも、あなたの貢献とともにPRを始めてください. OpenAI ワーカーは、今後のアイテムの機能強化について知りたいときに、これらの評価を積極的に概観します。
への Web エントリは、認定された評価に関連付けられた電子メール ハンドルに付与されます。 大量の結果、プルクイズ用にぼろぼろのメール以外のメールに参加を許可することはできません.
eval をダッシュするには、リージョンを上げて OpenAI API キーを指定することをお勧めします。 また、https://platform.openai.com/fable/ で生成することもできます。 API キー 。 API キーを組み立てたら、OPENAI_API_KEY 大気変数。 の提案はご容赦ください*)evals を操作する際に API を使用することに関連するコスト
評価のダウンロード
Evals レジストリは Git-LFS 。 ダウンロードしてインストールした LFS を維持する場合は、次のように eval をスコア付けすることもできます:
テイク評価のために情報を採点したいという欲求も正しいでしょう。 また、これを次のように組み立てます:
git lfsスコア --consist of=evals/registry/information/𝚆𝚊𝚝𝚌𝚑 𝙽𝙾𝚆 📺