Conformité de Chat GPT au RGPD : le compte-à-rebours est lancé !

20 avril 2023 | Derriennic associés|

Les IA génératives sont dans la tourmente : après plusieurs actions en violation des droits de propriété intellectuelle et en parasitisme introduites par des auteurs à l’encontre des éditeurs d’IA génératives d’image, elles se voient désormais reprochées une atteinte au RGPD.

La polémique a enflé autour de la décision de l’autorité italienne de protection des données du 30 mars 2023 et l’interdiction immédiate et temporaire de Chat GPT en Italie.

Après l’adoption d’une décision d’interdiction particulièrement limitée dans ses motivations, l’autorité italienne a mené une enquête expresse et est entrée en discussion avec la société Open AI. Celle-ci a d’ores et déjà suspendu ses services sur le territoire italien…

Moins de 15 jours après la décision initiale, l’autorité italienne a adopté, de manière tout aussi précipitée, une nouvelle décision le 11 avril 2023 enjoignant Open AI à se conformer à un plan d’actions. 7 mesures (sur les 9 prévues) doivent être mises en œuvre d’ici le 30 avril 2023. Des mesures complémentaires pourraient être décidées à l’issue d’une enquête approfondie.

Ce n’est que si Open AI met en place ce plan d’actions dans les délais impartis que la suspension provisoire de l’usage de Chat GPT sera levée en Italie.

Ces deux décisions sont riches d’enseignement pour les éditeurs d’IA génératives, d’autant plus lorsque les jeux de données d’entrainement sont constitués à partir de données scrappées sur internet. Respecter le RGPD peut s’avérer délicat, et les risques financiers associés non négligeables, les condamnations pouvant aller jusqu’à 20 millions d’euros ou 4 % du chiffre d’affaires mondial. Certaines solutions d’IA en ont déjà fait les frais, telles Clearview AI, éditeur d’un système de reconnaissance faciale alimenté au moyen d’images issues de réseaux sociaux.

Qu’est-il reproché à Chat GPT ?

L’autorité italienne, dans sa décision initiale d’interdiction, constatait que « le traitement des données personnelles des utilisateurs, en particulier des mineurs » par Chat GPT « est contraire aux articles 5 [Principes relatifs aux traitements des données personnelles], 6 [Licéité du traitement], 8 [Consentement des enfants], 9 [catégories particulières de données personnelles] et 25 [Privacy by design] du Règlement ».

Dans une décision particulièrement laconique, l’autorité relevait à la volée les griefs suivants :

l’absence de base légale appropriée concernant la collecte et le traitement des données personnelles à des fins d’entrainement de l’algorithme :

N’étaient pas simplement visées les données des utilisateurs de Chat GPT, mais plus largement l’ensemble des données personnelles utilisées à des fins d’entrainement – donc celles aspirées sur internet ;

le traitement inexact de données personnelles ;

Le fonctionnement intrinsèque de l’IA conversationnelle est en effet non pas de présenter des données correctes et vérifiées, mais de prédire des informations raisonnablement probables. Cela l’amène nécessairement à « inventer » des informations inexactes sur des personnes.

Ce fonctionnement, factuellement, semble en contrariété avec l’article 5 du RGPD imposant que les données personnelles soient « exactes et, si nécessaire, tenues à jour » et exigeant la mise en œuvre de « toutes les mesures raisonnables (…) pour que les données (…) qui sont inexactes, eu égard aux finalités pour lesquelles elles sont traitées, soient effacées ou rectifiées sans tarder ».

l’absence de toute vérification de l’âge des utilisateurs et l’absence de filtre pour les mineurs de moins de 13 ans, alors que les conditions d’utilisation limitent l’usage du services aux personnes physiques ayant au moins 13 ans révolus[1].

Quelles sont les principales mesures à mettre en place dans une IA générative pour assurer le respect du RGPD ?

Sur la base du plan d’action, les principales mesures à mettre en place concernant Chat GPT et plus généralement l’ensemble des IA génératives semblent être, par ordre d’importance, les suivantes :

une information transparente à destination des utilisateurs et de l’ensemble des personnes dont les données sont collectées et traitées à des fins d’entrainement, concernant notamment (i) la collecte et le traitement réalisé, (ii) les méthodes et la logique sous-jacente du traitement, et (iii) les droits dont ils disposent. Cette information devra être réalisée au travers du site internet mais également au moyen d’une campagne d’information sur les principaux médias italiens (1°, 4°) ;

le développement d’un outil facilement accessible permettant aux personnes concernées de demander la rectification des données personnelles les concernant générées de manière inexacte, ou si cela s’avère impossible en l’état de la technique la suppression des données personnelles (3°) ;

la mise en place d’un outil permettant l’exercice du droit d’opposition aux traitements (2° / 6°), notamment si la base légale choisie est l’intérêt légitime ;

la suppression de toute référence à l’exécution du contrat comme base légale du traitement : Open AI devra opter, sous sa responsabilité, entre le consentement des utilisateurs ou l’intérêt légitime, l’autorité se réservant la faculté de procéder ultérieurement à des vérifications (5°) ;

la mise en place de filtres d’accès pour les mineurs (7°) et la proposition d’ici le 31 mai 2023 d’outils de vérification d’âge à même d’exclure les utilisateurs de moins de 13 ans (8°).

La mise en place des outils de rectification, de suppression et d’opposition semblent constituer le principal défi pour la société Open AI et plus généralement pour les éditeurs d’IA génératives. En effet, dans la mesure où les contenus générés varient à chaque génération, la rectification des données générées semble difficile si ce n’est impossible… qui plus est au regard du délai imparti. Open AI doit en effet se mettre en conformité avant le 30 avril 2023 !

Quid du scraping des données personnelles sur internet ?

A aucun moment, l’autorité italienne ne déclare que le scraping des données personnelles sur internet – notamment à des fins d’entrainement – est illégal.

Sous réserve de la mise en place de mesures d’information appropriées et de la possibilité effective pour les personnes de s’opposer au traitement de leurs données, le scraping des données personnelles aux fins d’entrainement des IA serait donc possible.

L’intérêt légitime poursuivis par l’éditeur de l’IA générative pourrait ainsi constituer un fondement juridique adéquat du traitement – sous réserve, néanmoins, que la balance des intérêts ne conclut pas à un déséquilibre au détriment des droits et intérêts des personnes dont les données sont traitées.

Et ailleurs ?

Dans le prolongement de cette décision, plusieurs pays au sein de l’UE, dont la France et l’Espagne, ont ouvert des enquêtes similaires.

En France, la CNIL, ayant d’ores et déjà reçu plusieurs plaintes, dont celle du député Renaissance Eric Bothorel. Au cœur de celles-ci notamment, le défaut d’exactitude des résultats produits et donc des données traitées.

Le CEPD a quant à lui annoncé la création d’un groupe de travail, dans l’optique de favoriser la coopération entre les Etats Européens et l’échange d’information sur de possibles actions des autorités de protection nationales. Ceci devrait favoriser l’émergence de solutions uniformisées au plan européen. Affaire à suivre.

Sources : Dispositions n°9870832 du 30 mars 2023 et n°9874402 du 11 avril 2023 (Chat GPT) et Disposition n°9852214 du 2 février 2023 (Replika) de l’autorité italienne de protection des données (GPDP)

[1] A noter sur ce dernier point que l’autorité italienne semble surtout s’inscrire dans le prolongement de sa décision du 2 février 2023, qui interdisait temporairement l’utilisation du chatbot Replika sur le territoire italien. L’autorité relevait notamment les risques particuliers associées à l’usage de cette IA générative, permettant la création d’un ami virtuel, pour les mineurs et plus généralement pour les personnes en état de fragilité émotionnelle.