IBM und Artificial Analysis starten ITBench-AA: Neue SRE-Prüfung zeigt Schwächen führender KI-Modelle
IBM Research und Artificial Analysis haben am 27. Mai 2026 mit ITBench-AA einen neuen Benchmark für agentische Enterprise-IT-Aufgaben vorgestellt. Die ersten Resultate zeigen: Selbst führende Modelle bleiben bei realitätsnahen Kubernetes-Störungen deutlich unter der Hälfte der möglichen Treffer.
Wie aus dem auf Hugging Face veröffentlichten Beitrag von IBM Research und Artificial Analysis hervorgeht, überschreitet im ersten SRE-Testfeld kein Frontier-Modell die Marke von 50 Prozent. Claude Opus 4.7 führt mit 47 Prozent, knapp vor GPT-5.5 mit 46 Prozent und Qwen3.7 Max mit 42 Prozent. Grundlage sind 59 Aufgaben aus dem Bereich Site Reliability Engineering, davon 40 öffentlich verfügbare und 19 neu erstellte, zurückgehaltene Aufgaben.
Fokus auf echte IT-Abläufe in Kubernetes
ITBench-AA bewertet nicht klassische Chat-Antworten, sondern konkrete Arbeitsabläufe in Kubernetes-Umgebungen. Die Modelle müssen Alarme, Events, Traces, Metriken, Logs und Anwendungstopologien untersuchen, um die kleinste Menge unabhängiger Root-Cause-Entitäten zu identifizieren, etwa Deployments, Services oder Pods. IBM nennt unter anderem Rollout-Fehler, erschöpfte Ressourcen, Connection-Pool-Probleme und Netzwerkpartitionen als typische Störungsszenarien.
Damit zielt der Benchmark auf ein Einsatzfeld, das näher an praktischen Unternehmensumgebungen liegt als viele klassische Wissens- oder Chat-Benchmarks. Gerade für IT-Assistenzsysteme auf Basis von Copilot-, ChatGPT- oder Gemini-ähnlichen Ansätzen ist diese Art von Fehleranalyse besonders relevant.
Strenge Bewertung in abgeschotteter Testumgebung
Die Auswertung erfolgte in der offenen Referenzumgebung Stirrup mit Shell-Zugriff auf ein isoliertes Dateisystem. Pro Aufgabe waren maximal 100 Turns und 3 Wiederholungen erlaubt. Bewertet wurde streng: Wenn auch nur eine tatsächliche Ursache fehlte, erhielt der jeweilige Durchlauf 0,0 Punkte. Nur vollständig richtige Lösungen wurden anhand ihrer Präzision gewertet.
Nach Einschätzung von IBM und Artificial Analysis gehört ITBench-AA damit zu den am wenigsten gesättigten agentischen Benchmarks in ihrer Suite. Die niedrigen Resultate deuten also weniger auf kleine Unterschiede im Spitzenfeld hin als auf grundsätzliche Grenzen heutiger Modelle bei komplexer IT-Fehlersuche.
Mehr Analyse führt nicht automatisch zu besseren Ergebnissen
Auffällig ist der Abstand zwischen Aufwand und Leistung. GPT-5.5 benötigte im Durchschnitt 31 Turns pro Aufgabe und kam auf 46 Prozent. Gemini 3.1 Pro Preview brauchte im Mittel 83 Turns, erreichte jedoch nur 30 Prozent. Laut den Autoren führen längere Untersuchungswege nicht automatisch zu besseren Resultaten.
Modelle, die besonders viele Schritte ausführen, verwechseln häufiger vorgeschaltete Fault-Injection-Mechanismen oder Begleitsymptome mit den eigentlichen Ursachen. Der Benchmark belohnt damit nicht bloß Ausdauer, sondern präzise Ursachenermittlung.
Open-Weights-Modelle verkürzen den Abstand
Bei den Open-Weights-Modellen liegt GLM-5.1 Reasoning mit 40 Prozent vorn. Dahinter folgen DeepSeek V4 Pro mit 38 Prozent und Gemma 4 31B mit 37 Prozent. Mehrere offen verfügbare Modelle schneiden damit besser ab als Gemini 3.1 Pro Preview.
Nach Angaben der Partner wurde ITBench-AA über einen Zeitraum von 6 Monaten entwickelt. Nach dem Start im SRE-Bereich soll die Benchmark-Reihe künftig auch auf FinOps- und CISO-Aufgaben ausgeweitet werden.