KI-Trainingsdaten aus dem Netz
Web-Crawling vs. Urheberrecht –
1:0 für Innovation

Für das grundlegende Training von KI-Modellen bedarf es einer möglichst großen Menge qualitativ hochwertiger Daten. Diese können von Datenplattformen bezogen oder aus dem Internet generiert werden. Letzteres, auch Web-Crawling oder Data Mining genannt, ging bisher für Unternehmen mit erheblichen rechtlichen Unsicherheiten einher, denn die im Internet verfügbaren Bilder und Texte (Werke) sind im Grundsatz erstmal urheberrechtlich geschützt, ihre Nutzung von der Zustimmung des Urhebers abhängig.

Rechtliche Grundlagen

Verfassungsrechtliche Grundlagen des Urheberrechts sind Art. 14 Abs. 1 GG und Art. 17 Satz 1 EU-Grundrechtscharta (GRCh), die den Schutz des Eigentums gewährleisten. Allerdings unterliegt dieses Recht Schranken, da gemäß Art. 14 Abs. 2 GG und Art. 17 Satz 3 GRCh Eigentum auch der Allgemeinwohlverpflichtung unterliegt. Entsprechend müssen Ausnahmen die Entwicklung und den Einsatz neuer Technologien zum gesellschaftlichen Nutzen rechtlich sicher ermöglichen und gewährleisten, siehe auch EuGH, Urteil vom 05.06.2014 – C-360/13. Gewicht hat in diesem Zusammenhang zudem das Grundrecht der unternehmerische Freiheit der KI-Trainer aus Art. 12 GG und Art. 16 GRCh, das mit dem Urheberrecht in Ausgleich zu bringen ist ➡ Grundrechtsabwägung.

Um in der Privatwirtschaft Innovationen anzuregen, definierte die EU im Jahr 2019 darauf basierend mit der so genannten DSM-Richtlinie (Richtlinie (EU) 2019/790) den Begriff des Text und Data Mining und legte Ausnahmen vom Urheberrechtsschutz fest. Dem unternehmerischen KI-Trainer wurde ohne Zustimmung des Urhebers ermöglicht, Kopien der Werke anzufertigen und so lange wie zum Zweck des Text und Data Mining erforderlich aufzubewahren.

Umsetzung der Richtlinie in deutsches Recht

Die Richtlinie wurde mit Wirkung zum 07.06.2021 in Deutschland umgesetzt:

§ 44b UrhG

(1) Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.

(2) Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

(3) Nutzungen nach Absatz 2 Satz 1 sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.

Der Wortlaut des § 44b UrhG scheint auf den ersten Blick eindeutig. Tatsächlich gibt es aber auch hier eingehende Diskussionen. Ein wesentlicher Aspekt ist, dass eine wichtige europarechtliche Vorgabe zum Schutz der Urheber vom deutschen Gesetzgeber nicht umgesetzt wurde. Aus Art. 5 Abs. 5 InfoSoc-RiLi iVm Art. 7 Abs. 2 S. 1 DSM-RiLi ergibt sich:

➡ § 44b UrhG darf „nur in bestimmten Sonderfällen angewandt werden, in denen die normale Verwertung des Werks oder des sonstigen Schutzgegenstands nicht beeinträchtigt wird und die berechtigten Interessen des Rechtsinhabers nicht ungebührlich verletzt werden.“

Klarstellungen des Landgericht Hamburg

Die Berufung des Urhebers auf Art. 5 Abs. 5 InfoSoc-RiLi iVm Art. 7 Abs. 2 S. 1 DSM-RiLi mit der Behauptung, dass Text und Data Mining immer zu einer ungebührlichen Verletzung der Interessen des Rechtsinhabers führt, überzeugte das Gericht nicht. Beim Zusammenstellen des Trainigssatzes (1. Handlung) mag die Nutzung zur Herstellung eines konkurrierenden Werks zwar angestrebt sein, absehbar ist aber weder, ob das Training (2. Handlung) erfolgreich sein wird, noch welche konkreten Inhalte mit der trainierten KI generiert werden (3. Handlung). Bei der Bewertung der Rechtmäßigkeit der Vervielfältigungshandlung zum Zweck der Erstellung des Trainingsdatensatzes könne es wegen der anderenfalls entstehenden Rechtsunsicherheit allein auf den Einfluss dieser Handlung auf die Rechtsposition des Urhebers ankommen und dieser sei nicht ungebührlich. Jede andere Bewertung würde dem Zweck der Innovationsförderung gänzlich zuwiderlaufen. Die Risiken für KI-Trainer wären schlicht nicht akzeptabel.
Eine in der juristischen Literatur teilweise geforderte einschränkende Auslegung (teleologische Reduktion) dahingehend, dass mit § 44b Abs. 1 UrhG nur die Erschließung der „in den Daten verborgenen Information“, nicht aber die Nutzung des „Inhalts der geistigen Schöpfung“ ausnahmsweise erlaubt sei,überzeugt nach Auffassung des Gerichts nicht, weil eine hinreichend rechtssichere Abgrenzung der verborgenen Informationen von dem Inhalt der geistigen Schöpfung nicht möglich ist.
Davon abgesehen habe der europäische Gesetzgeber mit Art. 53 Abs. 1 lit. c) KI-VO unzweifelhaft zum Ausdruck gebracht, dass die Erstellung von zum Training künstlicher neuronaler Netze bestimmten Datensätzen durch Text und Data Mining grundsätzlich zulässig ist, wenn a) der Urheber nicht in maschinenlesbarer Form einen diesbezüglichen Vorbehalt erklärt hat (§ 44b Abs. 3 UrhG), b) die normale Verwendung des Schutzgegenstandes nicht beeinträchtigt wird und c) die berechtigten Interessen des Rechtsinhabers nicht ungebührlich verletzt werden, s.o.

Fazit

Das Landgericht Hamburg hat sich in diesem ersten deutschen Urteil zum Thema

Text und Data Mining zum Zweck des KI-Training

deutlich zum Erfordernis der Rechtsklarheit zu Gunsten der Innovation bekannt. Einschränkungen dieser Technologie müssen für Entwickler so klar sein, dass rechtliche Risiken erkannt und bewertet werden können.

Quellen

LG Hamburg, Urt. v. 27.09.2024 – 310 O 227/23
EuGH, Urt. v. 05.06.2014, Az. C-360/13, Rn. 43
EuGH, Urt. v. 16.07.2009, Az. C-5/98

Richtlinie 2001/29/EG des EP und des Rates vom 22.5.2001 zur Harmonisierung bestimmter Aspekte des Urheberrechts und der verwandten Schutzrechte in der Informationsgesellschaft (InfoSoc-RiLi)
Richtlinie (EU) 2019/790 des EP und des Rates vom 17.4.2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinie 96/9/EG und 2001/29/EG (DSM-RiLi)

Die RED-Verordnung und ihre praktische Umsetzung

Vor dem Hintergrund, dass IoT-Produkte immer öfter nicht nur über Funk, sondern auch über das Internet miteinander kommunizieren, hat die EU-Kommission mit Wirkung zum 01.08.2025 durch delegierte Rechtsverordnung (EU) 2022/30 (RED-Verordnung) die Security-Anforderungen an reine Funkanlagen aus der Richtlinie 2014/53/EU (RED-Richtlinie) ausdrücklich auf mittelbar oder unmittelbar mit dem Internet verbundene Funkanlagen ausgedehnt und sich aus einer Internetverbindung ergebende Risiken adressiert.

Die Umsetzung bereitet erhebliche Schwierigkeiten.

Unbestimmte Anforderungen

Die Cybersecurity-Anforderungen aus der RED-Verordnung in Verbindung mit der RED-Richtlinie sind derart generisch, dass ein Normungsauftrag vergeben wurde. Der Zweck einer „harmonisierten Norm“ besteht darin, ein generisches Gesetz zu konkretisieren, indem sie technische Einzelheiten und Lösungen für die Sicherheits- und Leistungsanforderungen bereitstellt. Sie werden rechtlich verbindlich, wenn Rechtsakte wie die RED-Verordnung oder die RED-Richtlinie darauf verweisen und können einfacher als diese der technischen Entwicklung angepasst werden.

Erste Entwürfe dafür liegen vor, helfen den Anwendern aber nur bedingt.

Die Schwierigkeiten ergeben sich daraus, dass eine Norm einerseits die sehr unterschiedlichen Risiken nicht berücksichtigen kann, die sich aus oder für einzelne mit dem Internet verbundene Produkte ergeben. Die Bandbreite ist zu groß. Andererseits hat der Normgeber das Grundrecht der unternehmerischen Freiheit aus Art. 16 EU-Grundrechtscharta zu berücksichtigen, welches dem Unternehmer das Recht gewährt, frei über seine wirtschaftlichen, technischen und finanziellen Ressourcen zu verfügen.

Gesetzliche oder normierte Anforderungen dürfen dieses Unternehmergrundrecht nur so weit einschränken, wie es erforderlich ist, legitime Zwecke zu erfüllen. Diese sind ausweislich der Erwägungsgründe der RED-Verordnung insbesondere der Schutz des Netzes vor Schaden, Schutz personenbezogener Daten und der Privatsphäre des Nutzers, sowie Schutz vor Betrug im Finanzumfeld („Schutzziele“).

Risikomanagement durch das Unternehmen

Die RED-Verordnung mit ihrer entstehenden harmonisierten Norm überlässt es letztlich den Unternehmen, innerhalb eines bestimmten Rahmens die produktspezifischen Maßnahmen zu bestimmen, die zur Sicherung der Schutzziele zu treffen sind. Somit können sie sich für die Umsetzung derjenigen Maßnahmen entscheiden, die ihren Ressourcen und Möglichkeiten am besten entsprechen und mit den übrigen von ihnen bei der Ausführung ihrer Tätigkeit zu erfüllenden Pflichten und Anforderungen vereinbar sind (siehe hierzu ausführlich EuGH, Urteil v. 27.03.2014, C-314/12). Zu diesen übrigen Pflichten gehört auch die Sicherung des Fortbestandes des Unternehmens gemäß §§ 76, 91 Abs. 2, 93 Abs. 1 AktG bzw. § 43 Abs. 1 GmbHG und § 347 Abs. 1 HGB und damit der Schutz des Vermögens vor unangemessenen Sicherheitsmaßnahmen.

Die erforderliche Risikobewertung ist mit den getroffenen Maßnahmen zu dokumentieren, denn – so schreibt es der EuGH in seiner o.g. Entscheidung – dies ermöglicht es dem Unternehmer, sich von einer Haftung zu befreien, indem er nachweist, dass er alle zumutbaren Maßnahmen ergriffen hat.

Ein mühsames und interdisziplinäres Unterfangen

Einen Freifahrtschein hat der EuGH mit seinem Urteil jedoch nicht gegeben. Auch ein finanziell schwaches Unternehmen darf keine Anlage auf dem EU-Markt platzieren, welche unannehmbare Risiken für die oben genannten Schutzziele birgt.

Für eine juristisch valide Anwendung der RED-Verordnung und der harmonisierten Norm und eine qualifizierte Risikobewertung bedarf es einer engen Zusammenarbeit von Rechtsanwälten, Produktentwicklern und Entwicklern von Embedded Software.

In a Nutshell

Bis zum 01.08.2025 müssen Hersteller

im Rahmen der RED-Normung
mit Blick auf die notwendige Netzwerksicherheit und den notwendigen Schutz von personenbezogenen Daten
in Ausübung ihrer unternehmerischen Freiheit und ihrer Vermögensschutzpflichten

eine angemessene Cyberresiliez ihrer Funkanlagen hergestellt haben. Unannehmbare Risiken werden nicht akzeptiert.

Schlagwort: Grundrechte

KI-Training: Web-Crawling vs. Urheberrecht

KI-Trainingsdaten aus dem Netz
Web-Crawling vs. Urheberrecht –
1:0 für Innovation

Rechtliche Grundlagen

Umsetzung der Richtlinie in deutsches Recht

Klarstellungen des Landgericht Hamburg

Fazit

Quellen

Die RED-Verordnung und ihre praktische Umsetzung

Die RED-Verordnung und ihre praktische Umsetzung

Unbestimmte Anforderungen

Risikomanagement durch das Unternehmen

Ein mühsames und interdisziplinäres Unterfangen

In a Nutshell

KI-Trainingsdaten aus dem Netz Web-Crawling vs. Urheberrecht – 1:0 für Innovation

Rechtliche Grundlagen

Umsetzung der Richtlinie in deutsches Recht

Klarstellungen des Landgericht Hamburg

Fazit

Quellen

Die RED-Verordnung und ihre praktische Umsetzung

Unbestimmte Anforderungen

Risikomanagement durch das Unternehmen

Ein mühsames und interdisziplinäres Unterfangen

In a Nutshell

KI-Trainingsdaten aus dem Netz
Web-Crawling vs. Urheberrecht –
1:0 für Innovation