Anthropic erklärt Claude das Warum

blog main image
January 26, 2026
26.01.2026
2 Minuten Lesezeit

Die überarbeiteten Verhaltensrichtlinien sollen dem KI-Modell nicht nur Regeln vorgeben, sondern auch deren Sinn vermitteln.

Verstehen statt befolgen

Anthropic geht einen neuen Weg bei der Steuerung seines Sprachmodells Claude. Die überarbeiteten Verhaltensrichtlinien liefern nicht mehr nur Anweisungen, sondern begründen sie. Das Kalkül: Ein Modell, das den Zweck einer Vorgabe begreift, kann diesen auch auf unvorhergesehene Situationen übertragen.

Rote Linien ohne Spielraum

Bei bestimmten Themen bleibt kein Raum für Interpretation. Massenvernichtungswaffen, Völkermord, sexualisierte Darstellungen von Kindern: Hier gilt ein absolutes Verbot. Anthropic hat zudem festgelegt, dass Sicherheit im Konfliktfall Vorrang vor ethischen Erwägungen hat. Selbst wenn Claude eine Handlung als moralisch richtig einschätzen würde, darf es menschliche Kontrolle nicht aushebeln.

Vorsorge für eine ungewisse Zukunft

Die Formulierungen deuten an, dass Anthropic seine Modelle perspektivisch auf menschenähnliche Fähigkeiten vorbereitet. Die Richtlinien sollen auch greifen, falls KI-Systeme eines Tages ein Bewusstsein entwickeln.

Transparenz und externe Expertise

Anthropic stellt die Constitution unter eine Creative Commons Lizenz und macht sie damit frei verfügbar. An der Entwicklung wirkten Fachleute aus Recht, Philosophie, Theologie und Psychologie mit. Die Einhaltung wird in den System Cards dokumentiert, die bereits früher Risiken und Schwächen der Modelle analysierten.