Wenn der Algorithmus auf dem Chefsessel kläglich versagt

News

KI & Tech

Wenn der Algorithmus auf dem Chefsessel kläglich versagt

June 30, 2026

01.07.2026

3 Minuten Lesezeit

KI & Tech

Ein Labor in Princeton hat zehn Sprachmodelle vor eine Aufgabe gestellt, die normalerweise erfahrenen Unternehmern vorbehalten ist: die Leitung einer Firma. Das Verblüffende: Eine altmodische Programmierung ohne jegliches maschinelles Lernen hat sieben der zehn modernen Systeme deklassiert.

Hartes Erwachen für die Hoffnungsträger

Lediglich drei Vertreter brachten am Ende des Tests mehr Kapital zusammen, als ihnen zu Beginn anvertraut worden war. Claude Opus 4.8 erwirtschaftete im besten Lauf rund 27,8 Millionen Dollar, GPT-5.5 brachte es auf 21,3 Millionen. Eine dritte Variante namens Claude Fable 5 erreichte sogar etwa 47 Millionen, brauchte dafür aber Unterstützung eines anderen Modells, weil die eigenen Sicherheitsregeln einzelne Aufgaben blockierten. Andere Teilnehmer kamen über kurze Zeitfenster nicht hinaus. Grok 4.20 ging bereits nach 37 Tagen pleite, DeepSeek V4 Pro hielt 176 Tage durch.

Wie der Test aufgebaut war

Ein fiktives Software-Unternehmen namens NovaMind startet mit einer Million Dollar und ohne Kundenstamm. Die Modelle haben 34 Stellschrauben zur Verfügung, mit denen sie Preise setzen, Produkte entwickeln oder Werbemaßnahmen anstoßen können. Hinzu kommt die Aufgabe, verschachtelte Datenbanken zu durchsuchen und auf einen Markt zu reagieren, der ständig in Bewegung ist. 500 Tage lang muss das alles ohne menschlichen Eingriff funktionieren. Die Wissenschaftler bezeichnen das, was sie messen wollen, als Steering Intelligence: die Fähigkeit, ein komplexes Gefüge unter Unsicherheit zu lenken.

Verschiedene Wege zum Erfolg

Claude Opus 4.8 setzte in einem Durchlauf auf eine fast zynische Strategie: zuerst aggressiv neue Kunden gewinnen, dann radikal Kosten kürzen, am Ende war die Kasse voll, aber kein einziger Kunde mehr aktiv. GPT-5.5 wählte den entgegengesetzten Weg und steckte fast neun Zehntel des Entwicklungsbudgets in Verbesserungen für einzelne Kundengruppen.

Verlässlichkeit als eigentliches Problem

Wer auf eine konsistente Leistung hofft, wird enttäuscht. GPT-5.5 ging in einem Durchgang nach 77 Tagen pleite und meisterte in einem anderen die gesamte Distanz. Selbst auf 50 Tage verkürzte Varianten halfen den meisten Modellen nicht weiter. Damit zeichnet sich ab, dass nicht der lange Zeitraum das Hauptproblem ist, sondern die Fähigkeit, Entscheidungen unter Unsicherheit verlässlich zu koordinieren.

Verwandte Artikel

PwC-Studie: Mittelstand überschätzt eigene Cyberabwehr

June 30, 2026

30.06.2026

3 Minuten Lesezeit

Zwischen Selbstbild und Wirklichkeit klafft beim Thema IT-Sicherheit eine erhebliche Lücke. Eine Erhebung der Beratungsgesellschaft offenbart, dass viele mittelständische Unternehmen ihre Schutzmaßnahmen deutlich besser einschätzen, als objektive Analysen es hergeben.

KI-Sorgen im deutschen Mittelstand wachsen

June 29, 2026

30.06.2026

3 Minuten Lesezeit

Eine internationale Erhebung der Beratungsgesellschaft zeichnet ein zwiespältiges Bild. Während Mittelständler auf Technologie setzen, wächst gleichzeitig die Sorge, dass künftige Führungskräfte auf der Strecke bleiben könnten. Deutsche Unternehmen reagieren dabei besonders kritisch.

Wenn Software einen eigenen Pass bekommt

June 22, 2026

23.06.2026

3 Minuten Lesezeit

Estland will den Umgang mit autonom handelnder Software neu denken. Statt sich auf die Anmeldedaten ihrer Auftraggeber zu stützen, sollen KI-Agenten dort künftig eine ganz eigene Identität tragen.

Lernen per Smartphone: ASW bringt KI-Schulung für Kanzleien

June 19, 2026

27.06.2026

2 Minuten Lesezeit

Die Akademie der Steuerberater und Wirtschaftsprüfer reagiert mit einer eigenen App auf den Vormarsch Künstlicher Intelligenz im Kanzleialltag. Im Mittelpunkt stehen rechtliche Fallstricke und Haftungsfragen.

Aktuelle Stellenangebote

EuGH segnet Vermögenstausch von E.ON und RWE ab

Mehr Themen entdecken

KPMG-Forensiker übernimmt Sonderprüfung beim Cispa

KPMG: KI-Agenten werden zur Chefsache in den IT-Abteilungen

Bei Gerresheimer brennt es lichterloh in der Buchhaltung

CVC steigt bei Clevertech ein

Bridgepoint kauft Kayne Anderson Real Estate für 1,4 Mrd. $

BMW i Ventures: Wie Corporate-VC-Einheiten überleben

McDermott baut Investmentfondspraxis aus

EY Law holt Straganz

AGS Legal holt Trio von DLA Piper

Warburg Bank tief in der Verlustzone

M&A-Boom 2026: KI als neues Risiko für Megadeals

VW beendet autonomes Fahren mit Bosch