Kurzes Update: Ich habe den offiziellen Google DeepMind Simple QaA Benchmark gemacht :)
SimpleQA Verified von Google DeepMind, 47 Modelle auf der Kaggle-Leaderboard, N=100 Zufallsstichprobe.
Ergebnis:
- 89,1% F-Score (Platz 1, nächster ist Gemini 3 Pro mit 72,1%)
- 0 erfundene Antworten...