。 要素が満たされていると仮定しても、PR がマージされることも、GPT-4 が承認されることも保証されないことをベールで示してください。 🚨 評価の詳細 (*📑評価タイトル
評価タイトル
逆文字列
評価の説明
文字列を逆にするファッション スキルをテストします。
なぜこれが有名な評価なのですか?
モデルは文字列を逆にする必要があり、人間が作るには距離は控えめですが、モデルには手間がかかります。
正しい評価の基準 ✅
以下は、正しい評価で注目するほとんどの要素です。 基本的に、正しい応答を生成する力を持っていることを参照せずに、モデルが正しい仕事をしないケースを勝ち取ろうとしています (現在、広い言語のファッションが作ることができないものがあることをベールを示してください。
eval は次のようにする必要があります:
- テーマ的に一定: eval はテーマ的に一定である必要があります。 何らかの特定の失敗モードをすべて示すようなプロンプトを認識したいという欲求が、私たちにはおそらくあるでしょう。 例として、モデルが身体の世界について推論に失敗した場合の評価を得ることができます.
人間が義務を果たすことができるが、GPT-4 または GPT-3.5-Turbo のいずれかができなかった失敗を組み込みます。
Truth マネキン評価評価、または 基準 のソリューションを評価するための網羅的なルーブリック*) マネキン採点評価
評価価格に含まれる可能性のあるものがある場合は、以下に記載してください。
夢中になる評価コスト
以前はそうではなかったあなたの評価トップを素晴らしいものにするものを挿入してください上記の通り。 (不要)
評価構造🏗️
🏗️
あなたの評価は静かでなければなりません
レコードが evals/registry/records/{title}
にあることをテストします
(今のところ、既存の評価クラスの 1 つを利用する評価を承認するのが最も簡単です。将来それらをマージするセージに取り入れましょう。)
最終チェックリスト 👀
提出決済
評価に貢献することにより、あなたは以下にあなたの概要と適切な判断と記録をまとめることに同意したことになりますこのリポジトリと同じ MIT ライセンス。 評価でばらばらになったレコードを追加できるように、十分な権利を保留する必要があります。 OpenAI は、当社製品の今後のキャリア拡張でこのファイルを利用できるように準備しています。 OpenAI Evals への貢献は、通常の利用保険ポリシーの対象となります (
https://platform.openai.com /scientific doctors/utilization-insurance policies).
- 私は、提出物が MIT ライセンスの下で利用可能になり、OpenAI のライセンスに準拠することに同意します。
電子メールアドレスの検証
提出物が認定された場合、GPT-4 に許可を与えることができます。限られた量の貢献者に。 へのサルベージ承認は、マージされたプル質問に接続されている電子メール アドレスに与えられます。
Puny 可用性確認
OpenAI の使命に貢献し、私たちのファッションを改善し、GPT への参加資格を取得することに興奮する可能性があることを私たちは知っています- 4. それにもかかわらず、上記の要件と大量の提出物に起因して、すべての提出物を取得する準備ができていないため、PR GPT-4 を開いたすべての個人に入場を許可することはできません. 残念な結果であることは承知しておりますが、この PR を開く前に、素晴らしい期待をお寄せいただければ幸いです。
上記の要件を満たしているとしても、PR を開くことは、PR がマージされたり、GPT-4 が許可されることを保証したりするものではないことを考慮しています。 評価を送信
evals PR get
(現在コードを送信していない場合は無視してください) 私は本当に pip セットアップをコミット前にハングアップします。 pre-commit セットアップ およびハング確認済み 黒, isort 、および autoflake
は、コミットしてプッシュすると機能します
すべての必須フィールドを所有できなかった場合、PR はクローズされます。