OpenAIs neueste KI-Modelle werden zwar immer besser, halluzinieren aber deutlich häufiger als ihre Vorgänger. Bei bestimmten Tests erreichten die „Reasoning“-Systeme GPT o3 und o4-mini Fehlerraten von bis zu 79% – ein Trend, der selbst die En…
Forscher der University of California San Diego nutzen Super Mario Bros. als neue Benchmark für KI-Modelle. Die Ergebnisse überraschen: Klassische Modelle wie GPT-4 scheitern an der Echtzeit-Herausforderung, während andere KIs besser abschneide…
Forscher der University of California San Diego nutzen Super Mario Bros. als neue Benchmark für KI-Modelle. Die Ergebnisse überraschen: Klassische Modelle wie GPT-4 scheitern an der Echtzeit-Herausforderung, während andere KIs besser abschneide…