KI-Agenten scheitern noch im Consulting

blog main image
February 19, 2026
20.02.2026
2 Minuten Lesezeit

Eine Studie des Trainingsunternehmens Mercor zeigt, dass führende KI-Modelle bei komplexen Beratungsaufgaben versagen. Die rasante Verbesserung könnte das allerdings bald ändern.

Niedrige Erfolgsquoten im Test

Die Ergebnisse ernüchtern zunächst. Mercor ließ führende KI-Modelle von OpenAI, Google und Anthropic an realen Consulting-Aufgaben arbeiten, die gemeinsam mit Beratern von McKinsey, BCG, Deloitte, Accenture und EY entwickelt wurden. Im ersten Versuch lösten die Systeme weniger als ein Viertel der gestellten Aufgaben. Selbst bei acht Anläufen blieb die Quote unter 40 Prozent.

Tempo der Verbesserung beeindruckt

Der Blick auf die Entwicklung relativiert das Bild. GPT 3 schaffte einst nur drei Prozent der Aufgaben, GPT 5.2 erreicht inzwischen 23 Prozent. Das kürzlich vorgestellte Opus 4.6 von Anthropic steigerte sich binnen Monaten von 13 auf 33 Prozent. CEO Brendan Foody erwartet bis Jahresende eine Erfolgsquote von nahezu 50 Prozent.

Schwächen bei mehrstufigen Prozessen

Die Modelle glänzen bei Recherche und punktueller Datenanalyse. Probleme entstehen, sobald Aufgaben mehrere Schritte umfassen oder verschiedene Werkzeuge kombiniert werden müssen. Die Systeme finden oft nicht die richtigen Dateien und scheitern an der Planung komplexer Abläufe. Foody vergleicht sie mit Praktikanten, deren Arbeit noch regelmäßig korrigiert werden muss.

McKinsey setzt bereits auf Agenten

Die Branche bereitet sich vor. McKinsey-Chef Bob Sternfels erklärte kürzlich, dass von 60.000 Beschäftigten bereits 25.000 KI-Agenten seien. Erstmals in der Firmengeschichte wachse das Unternehmen, ohne zusätzliche Menschen einzustellen.

Einstiegsjobs unter Druck

Foody sieht besonders Berufsanfänger gefährdet. In zwei Jahren könnten Chatbots auf dem Niveau der besten Beratungshäuser arbeiten. Die nächste Version des Benchmarks soll nicht mehr einzelne Analysten, sondern die gesamte Wertschöpfungskette einer Beratung bewerten.