Medienhäuser fürchten, dass KI-Firmen über das Webarchiv an ihre Texte kommen. Innerhalb weniger Monate hat sich die Zahl der Blockaden verdoppelt.
Entwickler von Sprachmodellen brauchen Unmengen an Text. Sie durchkämmen das Internet und nehmen mit, was sie finden. Viele kümmern sich dabei nicht um Verbotsschilder wie die robots.txt. Verlage, die ihre Artikel schützen wollen, stehen vor einem Problem: Selbst wenn sie Crawler aussperren, könnten die Firmen auf ältere Versionen im Internet Archive zurückgreifen. Dieses Hintertürchen schließen nun immer mehr Medienhäuser. Eine Auswertung des Nieman Journalism Lab in Harvard zählt inzwischen über 380 Nachrichtenseiten, die den Archivdienst blockieren. Darunter sind die New York Times, das spanische El País und das französische Le Monde. Aus Deutschland ist bislang niemand dabei.
Die meisten Sperren stammen von Regional- und Lokalzeitungen in den USA. Viele gehören zu einer Handvoll großer Medienketten. Allein seit Jahresbeginn ist die Zahl der Blockaden um mehr als die Hälfte gewachsen. Auch Reddit hat den Dienst bereits weitgehend ausgeschlossen.
Die Wayback Machine dokumentiert das Netz seit den Neunzigerjahren. Milliarden von Seiten liegen dort gespeichert. Für Historiker, Journalisten und Forscher ist das Archiv unverzichtbar. Jetzt droht es zwischen die Fronten zu geraten. Die Verlage kämpfen eigentlich gegen Tech-Konzerne, doch getroffen wird ein gemeinnütziges Projekt, das das digitale Gedächtnis bewahrt.




