Wikipedia gehört zu den meist besuchten Webseiten der Welt (Symbolbild).

KI-Bots zwingen Wikipedia in die Knie

02.04.2025

Viele KI-Modelle greifen zum Training auf die freie Enzyklopädie zurück. Doch das gefährdet ihre zuverlässige Verfügbarkeit für Menschen.

Seit Anfang 2024 verzeichnete die Wikimedia Foundation einen deutlichen Anstieg der Zugriffe auf Bilder und Videos bei Wikimedia Commons. Das Projekt enthält 144 Millionen Dateien, die von Freiwilligen zusammengetragen wurden und zum Beispiel Wikipedia-Artikel bebildern.

Die Bilder sind frei lizenziert, das heißt, es besteht kein Copyright darauf. Deshalb sind sie sehr beliebt zum Training von KI-Modellen. Das wird nun zum ernsthaften Problem.

Scraping als großes Problem

Der stark erhöhte Traffic gehe vor allem auf automatisierte Anfragen zurück, darunter Scraping-Bots, API-Zugriffe und Massen-Downloads. Wikimedia kritisiert, dass diese keine menschlichen Nutzerinnen und Nutzer zur Wikipedia bringen, und gleichzeitig die Server erheblich belasten.

➤ Mehr lesen: Elon Musk hat es jetzt auf Wikipedia abgesehen

In einer Mitteilung vom Dienstag schreibt die Stiftung: „Unsere Infrastruktur ist für plötzliche Spitzen im Traffic ausgelegt, die Menschen bei besonders interessanten Ereignissen verursachen. Das von Scraper-Bots erzeugte Aufkommen ist beispiellos und birgt wachsende Risiken und Kosten.“

Ein wesentlicher Teil der Wikimedia-Ressourcen werde zu Gunsten nicht-menschlicher Anfragen gebunden. Für besondere Ereignisse, die die Zugriffszahlen in die Höhe treiben – wie den US-Wahltag oder den Tod von Ex-US-Präsident Jimmy Carter – bleibe so weniger Spielraum.

Globales Netzwerk aus Rechenzentren

Wikimedia nutzt ein globales Netzwerk aus Rechenzentren, um möglichst überall schnellen Zugang zu ermöglichen. Wird ein Wikipedia-Artikel häufig aufgerufen, wird er im Rechenzentrum, das dem Nutzer am nächsten ist, zwischengespeichert.

➤ Mehr lesen: Das waren die meistgelesenen Wikipedia-Artikel 2024

Wenn ein Artikel dagegen lange nicht mehr geklickt wurde, muss dessen Inhalt vom zentralen Rechenzentrum aus ausgeliefert werden. Anschließend wird er wieder in einem regionalen Rechenzentrum zwischengespeichert.

Menschen konzentrieren sich laut Wikimedia auf bestimmte, meist ähnliche Themen. Im Gegensatz dazu „lesen“ Bots viel mehr Wikipedia-Artikel, darunter auch solche, die nicht in der Nähe zwischengespeichert sind. Diese Inhalte auszuliefern, sei viel ressourcenintensiver und teurer.

Bots verursachen hohe Kosten für Wikimedia

Mindestens 65 Prozent solchen Traffics sei auf Bots zurückzuführen. Das sei unverhältnismäßig viel, denn Bots sorgen insgesamt nur für etwa 35 Prozent aller Seitenaufrufe, heißt es seitens Wikimedia. Diese Art der Nutzung verursache dem Zuverlässigkeits-Team viel Arbeit, denn es muss Crawler blocken, bevor diese durch ihre massenhaften Anfragen menschliche Leserinnen und Leser am Zugriff hindern.

„Wenn unsere Inhalte ohne Quellen-Nennung oder Links in ein LLM eingesaugt werden, ist das kurzfristig ein echtes Problem für uns. Mittel- und langfristig ist es ein echtes Problem für diese KI-Systeme, weil sie darauf angewiesen sind, dass wir diese Inhalte weiter erstellen“, erklärt Lane Becker von der Wikimedia-Stiftung gegenüber dem Observer.

Wir würden hier gerne ein Youtube Video zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Youtube zu.

Wikipedia ist eine der meistbesuchten Webseiten der Welt. Dort werden keine Werbeanzeigen geschaltet, die Finanzierung erfolgt über Spendengelder. Becker hofft, dass KI-Unternehmen letztendlich das Fortbestehen von Wikipedia mit finanziellen Mitteln und politischen Verpflichtungen sichern.

Mehr zum Thema

++ ARCHIVBILD/THEMENBILD ++ BESTATTUNG/FRIEDHOF/TOD/BEERDIGUNG/BEISETZUNG/BEGRÄBNIS

Digital Life

Kommentare

Wir würden hier gerne einen Outbrain Feed zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Outbrain UK Ltd zu.