KI-Trainingsdaten aus dem Netz
Web-Crawling vs. Urheberrecht –
1:0 für Innovation

Für das grundlegende Training von KI-Modellen bedarf es einer möglichst großen Menge qualitativ hochwertiger Daten. Diese können von Datenplattformen bezogen oder aus dem Internet generiert werden. Letzteres, auch Web-Crawling oder Data Mining genannt, ging bisher für Unternehmen mit erheblichen rechtlichen Unsicherheiten einher, denn die im Internet verfügbaren Bilder und Texte (Werke) sind im Grundsatz erstmal urheberrechtlich geschützt, ihre Nutzung von der Zustimmung des Urhebers abhängig.

Rechtliche Grundlagen

Verfassungsrechtliche Grundlagen des Urheberrechts sind Art. 14 Abs. 1 GG und Art. 17 Satz 1 EU-Grundrechtscharta (GRCh), die den Schutz des Eigentums gewährleisten. Allerdings unterliegt dieses Recht Schranken, da gemäß Art. 14 Abs. 2 GG und Art. 17 Satz 3 GRCh Eigentum auch der Allgemeinwohlverpflichtung unterliegt. Entsprechend müssen Ausnahmen die Entwicklung und den Einsatz neuer Technologien zum gesellschaftlichen Nutzen rechtlich sicher ermöglichen und gewährleisten, siehe auch EuGH, Urteil vom 05.06.2014 – C-360/13. Gewicht hat in diesem Zusammenhang zudem das Grundrecht der unternehmerische Freiheit der KI-Trainer aus Art. 12 GG und Art. 16 GRCh, das mit dem Urheberrecht in Ausgleich zu bringen ist ➡ Grundrechtsabwägung

Um in der Privatwirtschaft Innovationen anzuregen, definierte die EU im Jahr 2019 darauf basierend mit der so genannten DSM-Richtlinie (Richtlinie (EU) 2019/790) den Begriff des Text und Data Mining und legte Ausnahmen vom Urheberrechtsschutz fest. Dem unternehmerischen KI-Trainer wurde ohne Zustimmung des Urhebers ermöglicht, Kopien der Werke anzufertigen und so lange wie zum Zweck des Text und Data Mining erforderlich aufzubewahren. 

Umsetzung der Richtlinie in deutsches Recht

Die Richtlinie wurde mit Wirkung zum 07.06.2021 in Deutschland umgesetzt:

§ 44b UrhG

(1) Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.

(2) Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

(3) Nutzungen nach Absatz 2 Satz 1 sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.

Der Wortlaut des § 44b UrhG scheint auf den ersten Blick eindeutig. Tatsächlich gibt es aber auch hier eingehende Diskussionen. Ein wesentlicher Aspekt ist, dass eine wichtige europarechtliche Vorgabe zum Schutz der Urheber vom deutschen Gesetzgeber nicht umgesetzt wurde. Aus Art. 5 Abs. 5 InfoSoc-RiLi iVm Art. 7 Abs. 2 S. 1 DSM-RiLi ergibt sich: 

➡ § 44b UrhG darf „nur in bestimmten Sonderfällen angewandt werden, in denen die normale Verwertung des Werks oder des sonstigen Schutzgegenstands nicht beeinträchtigt wird und die berechtigten Interessen des Rechtsinhabers nicht ungebührlich verletzt werden.“

Klarstellungen des Landgericht Hamburg

  1. Die Berufung des Urhebers auf Art. 5 Abs. 5 InfoSoc-RiLi iVm Art. 7 Abs. 2 S. 1 DSM-RiLi mit der Behauptung, dass Text und Data Mining immer zu einer ungebührlichen Verletzung der Interessen des Rechtsinhabers führt, überzeugte das Gericht nicht. Beim Zusammenstellen des Trainigssatzes (1. Handlung) mag die Nutzung zur Herstellung eines konkurrierenden Werks zwar angestrebt sein, absehbar ist aber weder, ob das Training (2. Handlung) erfolgreich sein wird, noch welche konkreten Inhalte mit der trainierten KI generiert  werden (3. Handlung). Bei der Bewertung der Rechtmäßigkeit der Vervielfältigungshandlung zum Zweck der Erstellung des Trainingsdatensatzes könne es wegen der anderenfalls entstehenden Rechtsunsicherheit allein auf den Einfluss dieser Handlung auf die Rechtsposition des Urhebers ankommen und dieser sei nicht ungebührlich. Jede andere Bewertung würde dem Zweck der Innovationsförderung gänzlich zuwiderlaufen. Die Risiken für KI-Trainer wären schlicht nicht akzeptabel. 
  2. Eine in der juristischen Literatur teilweise geforderte einschränkende Auslegung (teleologische Reduktion) dahingehend, dass mit § 44b Abs. 1 UrhG nur die Erschließung der „in den Daten verborgenen Information“, nicht aber die Nutzung des „Inhalts der geistigen Schöpfung“ ausnahmsweise erlaubt sei, überzeugt nach Auffassung des Gerichts nicht, weil eine hinreichend rechtssichere Abgrenzung der verborgenen Informationen von dem Inhalt der geistigen Schöpfung nicht möglich ist. 
  3. Davon abgesehen habe der europäische Gesetzgeber mit Art. 53 Abs. 1 lit. c) KI-VO unzweifelhaft zum Ausdruck gebracht, dass die Erstellung von zum Training künstlicher neuronaler Netze bestimmten Datensätzen durch Text und Data Mining grundsätzlich zulässig ist, wenn a) der Urheber nicht in maschinenlesbarer Form einen diesbezüglichen Vorbehalt erklärt hat (§ 44b Abs. 3 UrhG), b) die normale Verwendung des Schutzgegenstandes nicht beeinträchtigt wird und c) die berechtigten Interessen des Rechtsinhabers nicht ungebührlich verletzt werden, s.o.

Fazit

Das Landgericht Hamburg hat sich in diesem ersten deutschen Urteil zum Thema

Text und Data Mining zum Zweck des KI-Training

deutlich zum Erfordernis der Rechtsklarheit zu Gunsten der Innovation bekannt. Einschränkungen dieser Technologie müssen für Entwickler so klar sein, dass rechtliche Risiken erkannt und bewertet werden können.

Quellen

LG Hamburg, Urt. v. 27.09.2024 – 310 O 227/23
EuGH, Urt. v. 05.06.2014, Az. C-360/13, Rn. 43 
EuGH, Urt. v. 16.07.2009, Az. C-5/98

  • Richtlinie 2001/29/EG des EP und des Rates vom 22.5.2001 zur Harmonisierung bestimmter Aspekte des Urheberrechts und der verwandten Schutzrechte in der Informationsgesellschaft (InfoSoc-RiLi)
  • Richtlinie (EU) 2019/790 des EP und des Rates vom 17.4.2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinie 96/9/EG und 2001/29/EG (DSM-RiLi)