CONTACT

Scraping, IA et droits d’auteur : retour sur le premier jugement européen reconnaissant l’exception de fouille de données

29 octobre 2024 | Sophie Duperray|

Intégrer des photographies dans un jeu de données à des fins d’entrainement des IA puis les mettre à disposition du public, sans autorisation de leur auteur, n’est pas nécessairement contrefaisant. Cet acte peut être couvert par l’exception de fouille de textes et de données, comme le précise, pour la première fois en Europe, le Tribunal de Hambourg dans un arrêt du 27 septembre 2024. Et peu importe que leur auteur s’y soit expressément opposé si cet acte est réalisé à des fins de recherche scientifique. Retour sur les enseignements de ce jugement.

La fouille de textes et de données, au cœur de l’entrainement des IA

Le contexte : le recours massif à des œuvres protégées pour entrainer des IA

La phase d’entrainement des intelligences artificielles, notamment génératives, est clé. Or, cet entrainement se fait à partir de jeu de données qui agrègent, le plus souvent, un ensemble d’œuvres librement accessibles sur internet, aspirées par des robots, sans autorisation préalable des auteurs de ces contenus et, a fortiori, sans aucune contrepartie financière.

Les contentieux, notamment aux Etats-Unis sont légion. Les auteurs de ces œuvres (écrivains, photographes, dessinateurs…), les artistes-interprètes et autres titulaires de droits engageant régulièrement des actions en justice à l’encontre des principaux éditeurs de ces IA.

L’Europe n’est pas en reste, comme l’illustre cette affaire opposant le photographe Robert Kneschke à l’association LAION.

L’enjeu sociétal est de taille. Les artistes mettent en exergue la paupérisation croissante de leurs activités, la menace pour la création, et la concurrence déloyale toujours plus forte de ces IA qui peuvent produire des contenus dans le même style que leurs propres œuvres et à un coût moindre, si ne n’est gratuit.

Si le jugement du Tribunal de Hambourg demeure un jugement d’espèce, il est le premier à se prononcer sur cette problématique, et plus particulièrement sur l’exception de fouille de textes et de données, dont se prévalent l’ensemble des acteurs du secteur de l’IA et plus généralement du scrapping.

Le Text and Data Mining : des exceptions récentes aux prérogatives des titulaires de droits

Revenons d’abord sur ces exceptions, introduites par la directive sur le droit d’auteur et les droits voisins dans le marché unique numérique 2019/790 du 17 avril 2019 (transposées en droit français, notamment aux articles L 122-5 et L 122-5-3 du code de la propriété intellectuelle).

Ces exceptions en matière de droit d’auteur, droits voisins et droit des producteurs de base de données permettent les « copies et reproductions numériques d’une œuvre en vue de la fouille de textes et de données » :

  • la première exception, particulièrement large, concerne les organismes de recherche et institutions du patrimoine culturel qui diligentent des fouilles à des fins de recherche scientifique, opérations auxquelles les titulaires de droits ne peuvent pas s’opposer ;
  • la seconde, applicable à toute fouille de textes et de données, quelle qu’en soit la finalité (y compris commerciale) ou l’auteur, est en revanche plus limitée. Le titulaire des droits sur les contenus fouillés peut s’y opposer par tous moyens appropriés (« opt-out »).

L’affaire LAION vs Robert Kneschke

L’affaire oppose Robert Kneschke, photographe, à l’association allemande LAION, organisation à but non lucratif, composée de chercheurs, ayant créé et mis à disposition du public, de manière gratuite, des jeux de données, à des fins d’entraînement des IA.

Le jeu de données en question, « LAION-5B », répertoriait un ensemble d’images et de photographie. Il contenait notamment des descriptifs et des liens hypertexte vers des photographies accessibles sur le site internet de l’agence du photographe. Pour cela, l’association LAION avait scrappé les photographies en question et les avait reproduites, quand bien même que le site internet contenait explicitement, dans ses conditions générales d’utilisation, une interdiction large d’utilisation des images par des « programmes automatisés ».

Robert Kneschke a donc agi en justice pour la défense de ses intérêts, « l’incorporation massive d’œuvres protégées par le droit d’auteur à des fins d’entraînement dans le cadre de l’IA générative » portant, selon lui, atteinte à l’exploitation normale d’œuvres protégées par le droit d’auteur, car elle « crée les conditions pour remplacer les auteurs dans de nombreux cas ou, en tout état de cause, rend l’exploitation de l’œuvre considérablement – difficile par une offre concurrente gratuite ».

Première décision européenne

Pour la première fois en Europe, une juridiction allemande se prononce sur ces deux exceptions de fouille de textes et de données, que le demandeur invoquait – entre autres – pour légitimer ses activités.

A noter que le Tribunal ne se prononce en revanche pas sur « la question, largement débattue dans la doctrine, de savoir si l’entraînement à l’intelligence artificielle dans son ensemble est soumis ou non au régime d’exception ». Cela n’était en effet pas l’objet du litige.

L’exception de TdM scientifique

En l’espèce, le Tribunal juge que LAION pouvait se prévaloir de l’exception de fouille de textes et de données à des fins de recherche scientifique. Il n’y a donc pas de violation du droit d’auteur du fait de la reproduction non autorisée de la photographie.

Le tribunal précise que si la « recherche scientifique désigne généralement la recherche méthodique et systématique de nouvelles connaissances », ellene doit cependant pas être entendue de manière trop étroite. Ainsi, si créer un jeu de données ne permet pas en soi d’acquérir des connaissances, il s’agit de l’une des étapes de travail essentielles et préalables pour l’acquisition future des connaissances et participe de l’activité de recherche scientifique.

Le Tribunal juge qu’il suffit donc que le jeu de données soit (i) publié gratuitement et (ii) qu’il ait été mis à la disposition des chercheurs dans le domaine des réseaux neuronaux artificiels pour que ce critère soit rempli.

Le Tribunal précise également que pour pouvoir bénéficier de l’exception, en vertu de la règlementation allemande, LAION devait poursuivre des objectifs non commerciaux, ce qui est le cas en l’espèce.

Le Tribunal précise enfin qu’il est indifférent :

  • que le jeu de données soit également utilisé par des entreprises commerciales pour l’entraînement ou le développement de leurs systèmes d’IA. Cela n’est en effet pas pertinent pour définir l’activité du défendeur ;
  • de déterminer si LAION effectue – ou non – personnellement des recherches scientifiques sous la forme du développement de ses propres modèles d’IA (en plus de la création de jeux de données correspondants). ;
  • de s’interroger sur l’organisation et le financement de l’organisme au sein duquel la recherche scientifique est effectuée ;
  • que certains membres de LAION exercent, en plus de leur activité pour l’association, des activités rémunérées auprès d’entreprises commerciales, puisque cela ne suffit pas à imputer l’activité de ces entreprises à l’association en propre.

Le Tribunal vient par ailleurs balayer les arguments du demandeur (faute de preuve) sur l’existence d’un contrôle effectif sur les opérations de LAION par une société commerciale ou un accès préférentiel aux résultats de la recherche scientifique, seuls à même, selon la législation allemande, de faire échec à l’exception de fouille de texte et de données à des fins de recherche scientifique.

D’autres enseignements

Bien que la seconde exception, plus large, de TDM ne soit pas applicable en l’espèce, le Tribunal vient préciser, de manière surabondante, que la réserve de droit exprimée aurait fait obstacle au jeu de cette seconde exception.

Le tribunal relève qu’une réserve de droit suffisamment claire avait été effectuée (puisqu’elle visait l’ensemble des images du site internet). Peu importe à cet égard que la réserve ait été exprimée :

  • par l’agence du photographe (éditeur du site internet), l’auteur pouvant se prévaloir de l’opt-out exercé par son licencié ;
  • en « langage naturel », au travers des CGU du dite internet. Cela est parfaitement conforme à la règlementation et répond au critère de « lisibilité par la machine ».

A charge pour les éditeurs d’IA de recourir à des « technologies de pointe » capables de saisir le contenu d’un texte écrit en langage naturel. Le Tribunal précise ainsi que le législateur européen aurait « exprimé sans équivoque », au travers du règlement sur l’IA, « que la création de jeux de données destinés à l’entraînement de réseaux neuronaux artificiels est également soumise à la réglementation » sur les exceptions de TDM, car ils sont tenus « de prévoir une stratégie visant notamment à identifier et à respecter les réserves de droit » des auteurs.

Quels conseils en pratique ?

Editeurs de solutions d’IA, auteurs, comme entreprises utilisatrices d’IA Génératives, il est essentiel d’adopter une démarche prudente, face à cet environnement juridique en construction.

Les avocats spécialisés en Intelligence Artificielle du cabinet Derriennic & Associés sont disponibles pour vous assister dans la sécurisation de vos droits et activités que ce soit pour :

  • déterminer les données, pouvant être scrappées et réutilisées à des fins d’entrainement de vos IA, et ce au regard de votre activité (commerciale ou de recherche) ;
  • apprécier les risques et opportunités du recours à des outils d’IA génératives ;
  • protéger vos propres contenus quant au scraping (en intégrant des opt-out appropriés dans les conditions générales d’utilisation de vos sites internet).

Source : Tribunal de Grande Instance de Hambourg 27 sept. 2024, n° 310 O 227/23 (en allemand)