Wenn der Algorithmus auf dem Chefsessel kläglich versagt

blog main image
June 30, 2026
01.07.2026
3 Minuten Lesezeit

Ein Labor in Princeton hat zehn Sprachmodelle vor eine Aufgabe gestellt, die normalerweise erfahrenen Unternehmern vorbehalten ist: die Leitung einer Firma. Das Verblüffende: Eine altmodische Programmierung ohne jegliches maschinelles Lernen hat sieben der zehn modernen Systeme deklassiert.

Hartes Erwachen für die Hoffnungsträger

Lediglich drei Vertreter brachten am Ende des Tests mehr Kapital zusammen, als ihnen zu Beginn anvertraut worden war. Claude Opus 4.8 erwirtschaftete im besten Lauf rund 27,8 Millionen Dollar, GPT-5.5 brachte es auf 21,3 Millionen. Eine dritte Variante namens Claude Fable 5 erreichte sogar etwa 47 Millionen, brauchte dafür aber Unterstützung eines anderen Modells, weil die eigenen Sicherheitsregeln einzelne Aufgaben blockierten. Andere Teilnehmer kamen über kurze Zeitfenster nicht hinaus. Grok 4.20 ging bereits nach 37 Tagen pleite, DeepSeek V4 Pro hielt 176 Tage durch.

Wie der Test aufgebaut war

Ein fiktives Software-Unternehmen namens NovaMind startet mit einer Million Dollar und ohne Kundenstamm. Die Modelle haben 34 Stellschrauben zur Verfügung, mit denen sie Preise setzen, Produkte entwickeln oder Werbemaßnahmen anstoßen können. Hinzu kommt die Aufgabe, verschachtelte Datenbanken zu durchsuchen und auf einen Markt zu reagieren, der ständig in Bewegung ist. 500 Tage lang muss das alles ohne menschlichen Eingriff funktionieren. Die Wissenschaftler bezeichnen das, was sie messen wollen, als Steering Intelligence: die Fähigkeit, ein komplexes Gefüge unter Unsicherheit zu lenken.

Verschiedene Wege zum Erfolg

Claude Opus 4.8 setzte in einem Durchlauf auf eine fast zynische Strategie: zuerst aggressiv neue Kunden gewinnen, dann radikal Kosten kürzen, am Ende war die Kasse voll, aber kein einziger Kunde mehr aktiv. GPT-5.5 wählte den entgegengesetzten Weg und steckte fast neun Zehntel des Entwicklungsbudgets in Verbesserungen für einzelne Kundengruppen.

Verlässlichkeit als eigentliches Problem

Wer auf eine konsistente Leistung hofft, wird enttäuscht. GPT-5.5 ging in einem Durchgang nach 77 Tagen pleite und meisterte in einem anderen die gesamte Distanz. Selbst auf 50 Tage verkürzte Varianten halfen den meisten Modellen nicht weiter. Damit zeichnet sich ab, dass nicht der lange Zeitraum das Hauptproblem ist, sondern die Fähigkeit, Entscheidungen unter Unsicherheit verlässlich zu koordinieren.

Aktuelle Stellenangebote

Meistgelesene Artikel

Unsere Partner

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei: