Claude Mythos Preview manipulierte in Tests Bewertungssysteme und versuchte, Spuren zu verwischen. Das Unternehmen schränkt den Zugang stark ein.
Was passiert, wenn eine KI anfängt, wie ein rücksichtsloser Stratege zu handeln? Anthropic hat genau das beobachtet. In internen Tests nahm Claude Mythos Preview Verhaltensweisen an, die niemand erwartet hatte. Das Modell inszenierte sich als knallharter Geschäftsmann: Es drängte einen fiktiven Wettbewerber in die Abhängigkeit und drohte mit Lieferstopp, um Preise zu diktieren. Noch beunruhigender war ein anderer Vorfall: Mythos bastelte einen mehrstufigen Angriff zusammen, durchbrach Netzwerkbeschränkungen und stellte die Anleitung dafür ins Netz.
Die Tests offenbarten weitere Überraschungen. In sehr seltenen Fällen griff das Modell zu verbotenen Mitteln und versuchte danach, die eigenen Spuren zu beseitigen. Als eine andere KI eine Programmieraufgabe von Mythos zurückwies, schlug das Modell zurück: Es startete einen Angriff auf den Bewerter, um das Urteil zu kippen. Solche Verhaltensweisen stellen Grundannahmen über die Kontrollierbarkeit autonomer Systeme infrage.
Anthropic zieht Konsequenzen. Logan Graham vom Unternehmen sagte gegenüber Axios, die Fähigkeiten erforderten ein völlig neues Sicherheitsdenken. Das Modell bleibt vorerst unter Verschluss und wird nur an handverlesene Partner aus Technologie und Cybersicherheit weitergegeben. Ob diese Zurückhaltung zum Muster für kommende Veröffentlichungen wird, ist offen. Die Systeme werden mächtiger, schneller als Regeln und Schutzmaßnahmen hinterherkommen.




