Zum Inhalt springen
Mitglied werden

UpdateLesetipp Diskutiere mit Müssen KI-Crawler bei deiner Website draußen bleiben?

Möchtest du verhindern, dass KI-Systeme die Inhalte deiner Website nutzen? Falls ja: Erfahre in diesem Beitrag, wie du KI-Crawler von deinen Seiten fernhältst. Und diskutiere gern mit uns, ob es wirklich sinnvoll ist, ihnen den Zugang zu verwehren. Lass uns gemeinsam Argumente dafür und dagegen sammeln!

Crawler kriegen einen Platzverweis: Wir erklären, wie du deine Webseite vor dem Zugriff durch KI schützen kannst

Platzverweis über robots.txt

KI-Webcrawler durchforsten das Internet, um alle auf Websites veröffentlichten Inhalte zu scannen und die gesammelten Daten für das Training und die Verbesserung von KI-Modellen zu verwenden. Möchtest du nicht, dass deine Daten dafür genutzt werden? Dann gibt es eine technische Möglichkeit, über die wir bereits im vergangenen Jahr berichtet hatten: Der Platzverweis über eine "robot.txt"-Datei kann zumindest Crawler des Unternehmens OpenAI aussperren (siehe unten), sowie einige andere wichtige - aber nicht alle.

Wie man neben diesem technischen Platzverweis auch eine rechtlich gültige Maßnahme gegen das Eindringen von KI-Crawlern anwendet, das erklärt Anwalt Dr. Thomas Schwenke, ein führender Datenschutz-Experte, in seinem aktuellen Newsletter. Er weist darauf hin, dass es wichtig ist, einen maschinell lesbaren Nutzungsvorbehalt auf der Website zu platzieren. Denn: Wenn deine Website keinen ausdrücklichen und maschinenlesbaren Widerspruch enthält, sind KI-Systeme per Gesetz berechtigt, deine Website auszulesen und mithilfe deiner Inhalte ihr Wissen zu trainieren. Die EU-Urheberrechtsreform 2021 hat dem Training von KI-Systemen die Tore geöffnet. Ist der Nutzungsvorbehalt indes vorhanden, ist das Gesetz auf deiner Seite: Ein KI-Anbieter müsste nachweisen, dass kein Nutzungsvorbehalt existierte, sollte er nachweislich mit deinem Material trainiert haben.

So sollte der Nutzungsvorbehalt laut Dr. Schwenke aussehen

Dr. Thomas Schwenke weist darauf hin, dass der Nutzungsvorbehalt idealerweise nicht nur im Impressum, sondern auf jeder Webseite im HTML-Code platziert werden sollte. Dieser könnte laut Schwenke folgendermaßen aussehen:

"Der Inhaber dieser Website gestattet die Nutzung oder das Herunterladen von Inhalten dieser Website durch Dritte für die Entwicklung, das Training oder den Betrieb von künstlicher Intelligenz oder anderen maschinellen Lernsystemen ("Text und Data Mining") ausschließlich mit ausdrücklicher schriftlicher Zustimmung des Inhabers. Ohne eine solche Zustimmung ist es untersagt, die Inhalte für Text und Data Mining zu verwenden. Dies gilt auch, wenn auf der Website keine Meta-Angaben vorhanden sind, die entsprechende Verfahren aussperren, und selbst dann, wenn Bots, die den Zweck haben, die Website zu Zwecken des Text und Data Mining auszulesen, nicht ausgesperrt werden."

Der Nutzungsvorbehalt gilt erst ab dem Moment, in dem er gesetzt ist: Vergangene Trainings lassen sich verständlicherweise nicht mehr rückgängig machen. Aber – ist das alles überhaupt sinnvoll? 

Vor- und Nachteile des Platzverweises

Auf den ersten Blick mag es die richtige Entscheidung sein, die Crawler auszusperren. Du hast die Inhalte deiner Website möglicherweise sorgfältig zusammengetragen und recherchiert und bietest einen Mehrwert, der nicht einfach mittels einer KI anderen zur Verfügung gestellt werden sollte, ohne dass du als Urheber damit in Verbindung gebracht wirst.

Die KI-Modelle beispielsweise von Google zeigen in den USA bereits, was die Folge sein kann: Dort werden die Fragen der Nutzerinnen und Nutzer unmittelbar unterhalb des Suchfensters beantwortet; es wird überflüssig, auf die gefundenen Seiten-Treffer zu klicken, was den Traffic für den Urheber des Wissens radikal einschränken dürfte. Wenn du Crawler aussperrst, hast du die Chance, den Traffic bei dir zu behalten und weiterhin die Oberhand über deine eigenen Beiträge als Urheber zu haben. Wenn KI-Modelle direkt Antworten liefern, die ansonsten nur du auf deiner Website beantwortest, könnten künftig weniger Besucher auf deiner Seite landen.

... oder willst du eine breitere Öffentlichkeit für deine Inhalte?

Es gibt aber auch Gründe, warum das eigene Material für das Training genutzt werden sollte. Wenn die KI deine Inhalte weiter verbreitet, kann dies dazu führen, dass deine Argumente eine breitere Öffentlichkeit erreichen, was der Sichtbarkeit deines Berufs oder deiner Positionen dienen kann. Wir als VGSD hätten dadurch die Chance, dass unsere Positionen noch breiter veröffentlicht werden.

Lass uns die Vor- und Nachteile diskutieren. Wir würden gern von dir wissen: Wirst du die KI-Crawler für deine Website blockieren, um den Traffic zu sichern und deine Inhalte bestmöglich bei dir zu behalten? Oder siehst du einen Gewinn darin, deinem Business/deiner Meinung größere Sichtbarkeit zu verleihen?

Wir freuen uns, wenn du uns deine Sichtweise in den Kommentaren näherbringst!

Beitrag, 23.08.2023

So schützt du Texte und Bilder per Datei vor einer Verwendung durch OpenAI

Das Anliegen vieler Selbstständiger vor allem aus dem künstlerischen Bereich, etwa Texter, Autoren und Fotografen, ihre Webseiteninhalte vor dem ungefragten Zugriff künstlicher Intelligenz zu schützen, scheint bei OpenAI angekommen zu sein: Zumindest ermöglicht das Unternehmen jetzt, dass Webseiten sich abschirmen können. Was du unternehmen musst, um deine Inhalte künftig durch die Implementierung einer Datei zu schützen - das erfährst du im Beitrag von VGSD-Mitglied Branko Trebsche, Experte für Digitalisierung und Automatisierung.

OpenAI ist ein US-amerikanisches Unternehmen, das sich auf künstliche Intelligenz und maschinelles Lernen spezialisiert hat. Es wurde gegründet, um fortschrittliche KI-Technologien zu erforschen, zu entwickeln und bereitzustellen. Eine der bekanntesten Entwicklungen von OpenAI sind der KI-Bildgenerator DALL-E oder der Chatbot ChatGPT.

ChatGPT aussperren? Das gelingt etwa über robots.txt

Ein Weg, das Unternehmen hinter ChatGPT künftig auszusperren, funktioniert über die Datei robots.txt. Fast jede Website verfügt bereits darüber, ansonsten muss man sie neu anlegen. Der Sinn dieser Datei ist es unter anderem, einem Webcrawler zu sagen, welche Bereiche einer Internetseite er durchsuchen darf und welche nicht.

Achtung: Nur, weil deine Datei Vorgaben macht, bedeutet dies noch nicht, dass alle Webcrawler, die deine Webseite besuchen, sich daran halten. Insbesondere Crawler, hinter denen Programmierer mit unlauteren Motiven stehen, ignorieren gerne die definierten Regeln in der robots.txt-Datei.

Welche Vorteile hat es, OpenAI auszusperren?

Wenn du unserer Anleitung folgst, werden in Zukunft keine Texte und Bilder auf deiner Website mehr für das Training einer KI von OpenAI benutzt. Allerdings: Vor dem Zugriff lassen sich nur neue Beiträge schützen. Die, die bereits verarbeitet wurden, bleiben Teil des Datenmaterials von OpenAI.  Und: Andere Anbieter von KI-Lösungen werden zunächst weiter auf deine Inhalte zugreifen, du sperrst durch die unten beschriebene Vorgehensweise bisher nur OpenAI von der Verwendung aus. Du musst also überlegen, ob sich diese Maßnahme sich überhaupt für dich lohnt.

Nachteile?

Den GPTBot auszusperren, bedeutet, technische Maßnahmen zu ergreifen, die Folgen haben. Das ist einerseits aufwändig, andererseits muss die Konfiguration der robots.txt -Datei so gut sein, dass du nicht versehentlich anderen, womöglich nützlichen Bots ebenfalls einen Platzverweis erteilst. Was du auch überlegen solltest: Möglicherweise ist ein alternativer Weg, um die Webcrawler zu lenken, besser für deine Webseiten-Umgebung: Es ist grundsätzlich auch direkt über den HTML-Code mit Hilfe eines META-Tags möglich, die rote Karte an Crawler auszuspielen. Lass dich im Zweifel fachlich beraten!

GPTBot über robot.txt auszusperren  so geht es:

Solltest du noch keine robots.txt Datei für deine Internetpräsenz haben, gilt es als Erstes, diese Datei zu erstellen. Die Datei sollte im Root-Verzeichnis deiner Website liegen. Du kannst auch ganz einfach auf herausfinden, ob du eine hast, indem du deine eigenen Domain aufrufst und ein "/robots.txt" anfügst, etwa im Falle des VGSD: www.vgsd.de/robots.txt. Hast du keine Datei, erhältst du nun eine Fehlermeldung und solltest dich darum kümmern. Bei Google for Developers findest du etwa eine Anleitung dazu. 

Wenn die Datei vorhanden ist, reicht es, wenn du ihr wenige Textzeilen hinzufügst. Das ist auf zweierlei Weise möglich.

  1. Folgendes Code-Beispiel instruiert den GPTBot, den Inhalten auf deiner Website gar nicht zu folgen:

User-agent: GPTBot

Disallow: /

2. Die folgende Konfiguration wiederum zeigt, wie man dem GPTBot mitteilt, bestimmte Verzeichnisse deiner Website nicht zu durchsuchen:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Es wäre auch möglich, einzelne Dokumente oder Dateien auszuschließen. 

Ein letzter Tipp, um ChatGPT auszusperren:

Du kannst jeden Bot dieser Welt außerdem durch einen Passwortschutz aussperren. Inhalte, die dir besonders wichtig oder wertvoll für deine Kunden sind, kannst du auf diese einfache Art und Weise schützen. Doch: Wie du diese Möglichkeit nutzt, ohne den Komfort für den Nutzer einzuschränken, ist schon wieder eine andere Frage.

Neuester Hilfreichster Kontroversester
Kommentar schreiben
Abbrechen

Du möchtest Kommentare bearbeiten, voten und über Antworten benachrichtigt werden?

Jetzt kostenlos Community-Mitglied werden

Zum Seitenanfang

#

#
# #