Wenn Maschinen besser dozieren als Menschen

blog main image
June 18, 2026
26.06.2026
3 Minuten Lesezeit

Eine aktuelle Untersuchung aus Stanford zeigt ein verblüffendes Bild: Vertragsrechtsprofessoren wählten in einem anonymen Vergleich überwiegend die Antworten von Sprachmodellen statt jene ihrer eigenen Kollegen. In drei von vier Fällen hatten die Maschinen die Nase vorn.

Der kritischste Prüfer wählte trotzdem oft die KI

Ein einzelner Wert aus der Erhebung bringt das Ergebnis auf den Punkt. Selbst jene Person unter den Bewertenden, die maschinellen Antworten am misstrauischsten gegenüberstand, gab in 56 Prozent ihrer Entscheidungen dennoch den Modellen den Vorzug. Im Durchschnitt fiel das Urteil noch deutlicher aus. Die Quoten der beiden eingesetzten Systeme Gemini 2.5 und NotebookLM bewegen sich um die Marke von drei Vierteln aller Vergleiche, während sich die menschlichen Lehrkräfte mit einem knappen Viertel zufriedengeben mussten.

Wer steckt hinter dem Versuch

Hinter der Erhebung stehen Forschende der Universität Stanford gemeinsam mit Kolleginnen und Kollegen anderer juristischer Fakultäten. Sechzehn Vertragsrechtslehrende stellten sich zur Verfügung, die alle dasselbe Lehrbuch im Unterricht verwenden. Aus ihrem Kreis stammen auch die vierzig Fragen, an denen sich Mensch und Maschine messen mussten. Auf Seiten der Technologie traten Gemini 2.5 Pro von Google sowie NotebookLM an, wobei letzteres direkten Zugriff auf das vertraute Lehrwerk hatte.

Wo die Modelle besonders glänzten

Spannend ist weniger das reine Zahlenverhältnis als die Verteilung über verschiedene Aufgabentypen. Bei knappen Wissensfragen punktet Künstliche Intelligenz erwartbar. Doch auch dort, wo es kniffliger wird, hielten die Modelle ihren Vorsprung. Hypothetische Fallkonstellationen und Fragen zu Grundsätzen der Rechtspolitik gelten in der Ausbildung als Königsdisziplin, weil dort weniger das Auswendigwissen zählt als die Fähigkeit zur Abwägung. Genau in diesen Bereichen blieben die Modelle erfolgreich.

Pädagogische Tauglichkeit unter der Lupe

Über die schlichte Vorlieben-Frage hinaus interessierte die Forschenden, wie oft eine Antwort Studierenden eher schaden als nutzen würde. Bei den Sprachmodellen kam dieses Etikett kaum zum Einsatz, lediglich um die dreieinhalb Prozent. Auf menschlicher Seite war die Streuung erheblich größer. Manche Lehrkraft kam mit einem Wert um ein Prozent davon, andere mussten sich fast 40 Prozent ihrer Antworten als bedenklich markieren lassen. Im Mittel landete die menschliche Quote bei rund zwölf Prozent.

Mehr als nur eine Frage des Stils

Es liegt nahe zu vermuten, die Maschinen gewännen vor allem durch Ausführlichkeit oder rhetorischen Schliff. Auch dieser Frage ging das Team nach. Tatsächlich neigen längere Texte zu besseren Bewertungen. Andere formale Merkmale wie Lesbarkeit oder Strukturierung reichten jedoch nicht aus, um den deutlichen Vorsprung zu erklären. Was übrig bleibt, deutet auf eine echte inhaltliche Stärke der Modelle hin.

Geteilter Maßstab statt persönlicher Vorlieben

Ein weiterer Einwand wäre, dass die Bewertenden möglicherweise einfach Eigenheiten der KI-Texte mochten. Auch dieser Verdacht wurde geprüft. Die Übereinstimmung zwischen den verschiedenen Bewertenden lag deutlich höher, als reiner Zufall oder individuelle Geschmacksfragen es hätten erwarten lassen. Daraus folgern die Autoren, dass ein gemeinsames professionelles Qualitätsverständnis am Werk war.

Aktuelle Stellenangebote

Meistgelesene Artikel

Unsere Partner

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei:

Entdecken Sie mit uns bundesweit exklusive Stellen bei: