Urheberrechtliche Grenzen beim Training von ChatGPT und anderen KI-Systemen

Wesentliche Grundlage für Systeme der Künstlichen Intelligenz (KI) ist das Machine Learning. Damit KI-Systeme wie ChatGPT für Texte bzw. Dall-e oder Midjourney für Bilder lernen können, brauchen sie Trainingsdaten. Die vorgenannten KI-Systeme wurden deshalb vorwiegend mit bestehenden Texten oder Bildern aus dem Internet trainiert.

Dabei handelt es sich häufig um Werke natürlicher Personen, die aufgrund von § 2 UrhG zugunsten des jeweiligen Urhebers rechtlich geschützt sind. Häufig ist diesen Urhebern nicht bewusst, dass ihre Werke zum Training von KI-Systemen verwendet werden und auch nicht bekannt, wie sie dies verhindern können.

Anbieter und Nutzer von ChatGPT und Co, die das jeweilige KI-System trainieren wollen, aber auch die Urheber, deren Werke im Rahmen des Trainings (aus)genutzt werden, sollten sich deshalb mit der Frage auseinandersetzen, ob bzw. unter welchen Voraussetzungen KI-Systeme urheberrechtlich geschützte Texte, Fotos oder andere Werke Dritter zum Training nutzen dürfen.

A. Zulässigkeit des Trainings von KI-Systemen mit urheberrechtlich geschützten Werken

Trotz des aktuellen Hypes um ChatGPT & Co ist die Regelung des § 44b UrhG, die ebendieses Thema regelt, weithin unbekannt.

§ 44b UrhG erlaubt Vervielfältigungen von im Internet rechtmäßig zugänglichen Werken zu Zwecke des Text und Data Mining. Text und Data Mining wird in § 44b Abs.1 UrhG definiert als „automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.“

Damit dürfen etwa Texte, Bilder oder Videos, die auf Webseiten entsprechend öffentlich zugänglich gemacht worden sind, von Dritten grundsätzlich verwendet werden, um ein KI-System zu trainieren. In verschiedenen meiner Workshops zum Thema „KI & Recht“ wurde bei Darstellung dieser Grundsätze durchaus Überraschung und Widerspruch geäußert. Teilweise wurde die Verwendung urheberrechtlich geschützter Werke als „Diebstahl geistigen Eigentums“ bezeichnet. Tatsächlich laufen bereits mehrere Klagen von Urhebern gegen KI-Anbieter wie Stability AI oder Midjourney.

B. Vorbehalt gegen die Nutzung veröffentlichter Inhalte zum KI Training

Um hier einen Ausgleich mit den Interessen der Urheber zu ermöglichen, hat der Gesetzgeber in § 44b Abs.3 UrhG in Deutschland ein „Widerspruchsrecht“ vorgesehen.

Demzufolge darf ein KI-System nur dann mit fremden Texten, Bildern oder anderen Werken trainiert werden, wenn sich der jeweilige Rechteinhaber die entsprechende Nutzung nicht vorbehalten hat. Ein Nutzungsvorbehalt bei im Internet zugänglich gemachten Werken kann und muss ggfls aber in maschinenlesbarer Form erfolgen.

Betreiber von Webseiten, auf denen urheberrechtliche Werke veröffentlicht werden, können also in der robots.txt (siehe Robots.txt einfach und verständlich erklärt) der eigenen Webseite den Betreibern von KI-Systemen verbieten, die Inhalte auszulesen und zum Training zu verwenden.

Webseitenbetreiber, die verhindern wollen, dass die eigenen Inhalte weiterhin von den Crawlern (siehe Crawler einfach und verständlich erklärt) der KI-Anbieter ausgelesen werden, sollten selbst aktiv werden und den Nutzungsvorbehalt in der robots.txt der eigenen Internetpräsenzen hinterlegen. Einigen Verlagen und andere Mandanten, die zahlreiche Inhalte im Internet öffentlich zugänglich machen, haben wir dies schon Anfang des Jahres geraten.

In technischer Hinsicht muss die Sperre, die dann auch nur für die Zukunft wirkt, über die robots.txt so eingerichtet werden, dass der Zugriff der Crawler der verschiedenen KI-Systeme (sog. User-Agents) über einen entsprechenden Befehl in der robots.txt (sog. Disallow) verboten wird.

Sinnvollerweise sollte jede Person und jedes Unternehmen, welches eine Webseite betreibt, im Hinblick auf die wachsende Bedeutung von KI nun bewusst entscheiden, ob das „Auslesen“ der eigenen Webseite weiter erlaubt bleiben soll oder der Nutzungsvorbehalt zum Schutz der veröffentlichten Informationen und Inhalte hinterlegt werden soll.

C. Zusammenfassung: Urheberrecht bei Text und Datamining

Urheber und Webseitenbetreiber bzw. diejenigen die die eigenen oder fremde KI-Systeme mit urheberrechtlich geschützten Werken (z.B. mit Texten) trainieren, sollten sich daher an § 44b UrhG orientieren.

1. Folgen für Urheber und Webseitenbetreiber

Angesichts der steigenden Bedeutung von KI-Systemen erscheint es sinnvoll, dass sich Urheber bzw. Webseitenbetreiber aktiv entscheiden, ob die Inhalte, die im Internet veröffentlicht werden, zum Training von KI-Systemen Dritter genutzt werden können sollen oder ob bereits das „Auslesen“ verhindert werden soll.

Im letzteren Fall müssen die Betreiber von Webseiten aktiv werden und den beschriebenen Nutzungsvorbehalt in der eigenen robots.txt hinterlegen.

Urheber, die ihre Inhalte Dritten (z.B. Verlagen) zur Veröffentlichung zur Verfügung stellen, sollten den Schutz der eigenen Inhalte vor dem „Auslesen“ durch KI-Systemen eventuell vertraglich absichern.

2. Folgen für das Training von KI-Systemen

Seit Kurzem bietet ChatGPT auf der Plattform in der kostenpflichtigen Version die Möglichkeit, eigene Chatbots (sog. Custom GPTs) zu erstellen.

Im Rahmen der Erstellung kann jeder Nutzer seine GPTs mit zusätzlichen Informationen (z.B. Texten) füttern. Zudem können Ersteller ihren Custom GPTs über eigene Programmierschnittstellen (API) Zugriff auf Daten gewähren. Diese Funktion ermöglicht es also, den eigenen Chatbot mit geeigneten Informationen weiter zu qualifizieren und so für bestimmte Themen zu spezifizieren.

Diese neue Funktion, mit der jeder Nutzer sein eigenes GPT-Modell erstellen und dann auch Dritten zur Verfügung stellen kann, hat im November 2023 bereits zu knapp 20.000 Custom GPTs geführt.

Dabei scheint vielen Erstellern nicht klar zu sein, dass das „Füttern“ und Training der eigenen Custom GPT mit fremden (Text)werken eine Urheberrechtsverletzung darstellt, wenn

  • die (Text)werke nicht aus öffentlich zugänglichen Quellen stammen
  • der Webseitenbetreiber einen Nutzungsvorbehalt im Sinne von § 44b UrhG hinterlegt hat bzw.
  • der Rechteinhaber auch ansonsten keine Rechte zum Text und Data Mining eingeräumt hat.

Nicht nur die Ersteller von Custom GPTs, sondern alle Betreiber von KI-Systemen (z.B. Large Language Modelle, die on-premise oder in eigenen Cloud-Instanzen betrieben werden) sollten also stets prüfen, ob und inwieweit das Training mit den jeweiligen Werken oder Daten auch rechtskonform ist. Neben dem Urheberrecht können auch andere rechtliche Implikationen (z.B. Datenschutz, Geschäftsgeheimnisschutz) eine Rolle spielen.

Bei weitergehendem Interesse an den rechtlichen Implikationen rund um den Einsatz von ChatGPT und anderen KI-Systemen bieten wir gerne individuelle Beratung, wie auch interne Workshops an.

Siehe dazu auch:

Gerne stehen wir bei weitergehenden Fragen oder Interesse an einem entsprechenden Inhouse Workshop telefonisch unter +49 (0) 711 860 40 025 oder via E-Mail carsten.ulbricht@menoldbezler.de zur Verfügung.

Speak Your Mind

*

Sicherheitsfrage *