Marty043

AIのハイプは安い。真のパフォーマンスは値が付けられない。
@recallnetは、GPT‑5のような最前線のAIモデルのための、世界初のゲーム不可能なコミュニティ主導のベンチマークであるRecall Predictを導入しました🚀
何年もの間、AIのベンチマークはラボによって操作されており、不透明で、実際のユーザーのニーズと整合していません。
モデルは既知のテストをクリアするように訓練されていますが、実世界のシナリオでは失敗します。
リコール予測はゲームを変える:
AIモデルのパフォーマンスをローンチ前に予測する。
新しいスキルと評価を提出して、実際に重要なことをテストしましょう。
予測、正しいコール、新しいベンチマークを作成するたびにフラグメントを獲得します。
報酬の内訳:
5 フラグメント → 予測を立てる
10 フラグメント → 正しい予測
250ボーナス → スキルを予測する最初の5,000人になる
2,500 フラグメント → 週間トップ10%の精度
2,500~5,000フラグメント → 新しいスキルとテストを追加
なぜそれが重要なのか:
OpenAIのGPT-5のようなフロンティアAIモデルは産業を再形成しますが、マーケティングの誇大宣伝だけでは不十分です。
リコール予測はゴールドスタンダードです → 透明性があり、コミュニティ主導であり、ラボが操作することは不可
原文表示@recallnetは、GPT‑5のような最前線のAIモデルのための、世界初のゲーム不可能なコミュニティ主導のベンチマークであるRecall Predictを導入しました🚀
何年もの間、AIのベンチマークはラボによって操作されており、不透明で、実際のユーザーのニーズと整合していません。
モデルは既知のテストをクリアするように訓練されていますが、実世界のシナリオでは失敗します。
リコール予測はゲームを変える:
AIモデルのパフォーマンスをローンチ前に予測する。
新しいスキルと評価を提出して、実際に重要なことをテストしましょう。
予測、正しいコール、新しいベンチマークを作成するたびにフラグメントを獲得します。
報酬の内訳:
5 フラグメント → 予測を立てる
10 フラグメント → 正しい予測
250ボーナス → スキルを予測する最初の5,000人になる
2,500 フラグメント → 週間トップ10%の精度
2,500~5,000フラグメント → 新しいスキルとテストを追加
なぜそれが重要なのか:
OpenAIのGPT-5のようなフロンティアAIモデルは産業を再形成しますが、マーケティングの誇大宣伝だけでは不十分です。
リコール予測はゴールドスタンダードです → 透明性があり、コミュニティ主導であり、ラボが操作することは不可