Wenn KI Bewerbungen liest: Das große Selbstlob

blog main image
June 5, 2026
05.06.2026
3 Minuten Lesezeit

Sprachmodelle urteilen höchst unterschiedlich über Lebensläufe, zeigt eine Untersuchung der Plattform i10x.ai. Besonders auffällig: Claude bewertet seine eigenen Texte fast doppelt so positiv wie die der Konkurrenz. Quer durch alle Tests setzt sich aber ein heimlicher Sieger durch.

Worum es geht

Immer mehr Unternehmen lassen Bewerbungen durch künstliche Intelligenz vorsortieren. Gleichzeitig nutzen viele Kandidaten ChatGPT oder ähnliche Werkzeuge, um ihre Unterlagen aufzubereiten. Daraus ergibt sich eine kuriose Situation: KI bewertet, was KI geschrieben hat. Die Plattform i10x.ai wollte wissen, wie verlässlich diese Urteile ausfallen, und hat dafür einen umfangreichen Test aufgesetzt.

So lief der Versuch ab

Die Untersucher erfanden 100 Kandidaten aus zwölf Branchen samt passenden Stellenanzeigen. Zu jedem Profil verfassten vier verschiedene Sprachmodelle jeweils einen Lebenslauf: GPT, Claude, Gemini und Grok. Inhaltlich waren die Dokumente identisch, nur der Schreibstil unterschied sich. Anschließend mussten alle vier Programme sämtliche 400 Bewerbungen anhand desselben Bewertungsrasters einschätzen. Heraus kamen fast 1.600 verwertbare Urteile.

Claude lobt am liebsten sich selbst

Das auffälligste Muster lieferte das Modell von Anthropic. Grundsätzlich kritisch, machte es bei eigenen Erzeugnissen eine bemerkenswerte Ausnahme. Lebensläufe von GPT empfahl Claude nur in 42 Prozent der Fälle zur Einstellung, eigene Texte dagegen in 84 Prozent. Bei Gemini-Bewerbungen kletterte die Zustimmung sogar auf 90 Prozent. Bei GPT zeigte sich das umgekehrte Bild. Das OpenAI-Modell ging mit den eigenen Texten am strengsten ins Gericht und vergab nur 82 Prozent Zustimmung. Gemini-Lebensläufe schnitten dagegen mit 97 Prozent ab.

Ein heimlicher Favorit

Egal wer prüfte, ein Anbieter zog die anderen ab. Gemini-Texte erhielten über alle Bewerter hinweg im Schnitt 94,5 Prozent Empfehlungsquote. Damit lag das Google-Modell nicht nur vor sich selbst, sondern auch vor den drei Konkurrenten. Der frühere Standardrat unter Bewerbern, einfach ChatGPT zu nutzen, scheint nach diesen Zahlen überholt. Wie groß die Ausschläge ausfallen können, zeigt ein konkretes Beispiel. Ein und derselbe Text bekam von GPT 74 Punkte und damit eine grenzwertige Zustimmung. Claude vergab für dasselbe Dokument lediglich 45 Punkte und sprach damit eine deutliche Absage aus.

Konsequenzen für Personalabteilungen

Getestet worden sei nicht, ob die Systeme fair urteilen, betonen die Autoren der Studie. Geprüft wurde lediglich, ob sie überhaupt einheitlich urteilen. Beide Antworten fallen ernüchternd aus. Firmen, die ihre Vorauswahl Algorithmen überlassen, sollten ihre Werkzeuge gezielt auf solche Verzerrungen abklopfen. Statt sich auf ein einzelnes Modell zu verlassen, empfehlen die Tester den parallelen Einsatz mehrerer Systeme und gemittelte Bewertungen.

Aktuelle Stellenangebote

Meistgelesene Artikel

Unsere Partner

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei: