Schlagwort: Reasoning-Modelle

ChatGPT halluziniert immer mehr und OpenAI weiß nicht, warum

OpenAIs neueste KI-Modelle werden zwar immer besser, halluzinieren aber deutlich häufiger als ihre Vorgänger. Bei bestimmten Tests erreichten die „Reasoning“-Systeme GPT o3 und o4-mini Fehlerraten von bis zu 79% – ein Trend, der selbst die En…

Super Mario Bros. wird zum neuen, aber umstrittenen KI-Benchmark

Forscher der University of California San Diego nutzen Super Mario Bros. als neue Benchmark für KI-Modelle. Die Ergebnisse überraschen: Klassische Modelle wie GPT-4 scheitern an der Echtzeit-Herausforderung, während andere KIs besser abschneide…