Eine Studie des Trainingsunternehmens Mercor zeigt, dass führende KI-Modelle bei komplexen Beratungsaufgaben versagen. Die rasante Verbesserung könnte das allerdings bald ändern.
Die Ergebnisse ernüchtern zunächst. Mercor ließ führende KI-Modelle von OpenAI, Google und Anthropic an realen Consulting-Aufgaben arbeiten, die gemeinsam mit Beratern von McKinsey, BCG, Deloitte, Accenture und EY entwickelt wurden. Im ersten Versuch lösten die Systeme weniger als ein Viertel der gestellten Aufgaben. Selbst bei acht Anläufen blieb die Quote unter 40 Prozent.
Der Blick auf die Entwicklung relativiert das Bild. GPT 3 schaffte einst nur drei Prozent der Aufgaben, GPT 5.2 erreicht inzwischen 23 Prozent. Das kürzlich vorgestellte Opus 4.6 von Anthropic steigerte sich binnen Monaten von 13 auf 33 Prozent. CEO Brendan Foody erwartet bis Jahresende eine Erfolgsquote von nahezu 50 Prozent.
Die Modelle glänzen bei Recherche und punktueller Datenanalyse. Probleme entstehen, sobald Aufgaben mehrere Schritte umfassen oder verschiedene Werkzeuge kombiniert werden müssen. Die Systeme finden oft nicht die richtigen Dateien und scheitern an der Planung komplexer Abläufe. Foody vergleicht sie mit Praktikanten, deren Arbeit noch regelmäßig korrigiert werden muss.
Die Branche bereitet sich vor. McKinsey-Chef Bob Sternfels erklärte kürzlich, dass von 60.000 Beschäftigten bereits 25.000 KI-Agenten seien. Erstmals in der Firmengeschichte wachse das Unternehmen, ohne zusätzliche Menschen einzustellen.
Foody sieht besonders Berufsanfänger gefährdet. In zwei Jahren könnten Chatbots auf dem Niveau der besten Beratungshäuser arbeiten. Die nächste Version des Benchmarks soll nicht mehr einzelne Analysten, sondern die gesamte Wertschöpfungskette einer Beratung bewerten.




