
Dans un contexte saturé par les cyberattaques, la protection des systèmes d’Intelligences Artificielles est une priorité au regard de leur importance bientôt systémique : c’est l’objectif poursuivi par le Campus Cyber et Hub France IA avec la diffusion d’une méthodologie riche et pragmatique.
Une approche structurée et pragmatique
Face à la croissance exponentielle du nombre de cyberattaques, le Campus Cyber et Hub France IA proposent une méthodologie permettant de protéger ab initio et défendre les systèmes d’Intelligence Artificielle prédictive et générative face aux menaces intentionnelles visant à compromettre leur confidentialité, leur intégrité ou leur disponibilité.
Le rapport met ainsi en lumière les vulnérabilités spécifiques à ces systèmes, inhérentes à leur architecture et à leur fonctionnement en raison, notamment, du volume de données traitées et/ou de l’utilisation d’algorithmes complexes, et qui appellent des mesures de sécurité adaptées.
Surtout, il offre une analyse synthétique des grandes catégories d’attaques ciblant les systèmes d’intelligences artificielles ainsi qu’une méthodologie de prévention et de remédiation prenant en compte les travaux de l’ANSSI, de l’ENISA et d’autres organisme de référence, articulant des recommandations générales ainsi que des fiches pratiques spécifiques aux types d’attaques les plus répandues.
Trois grandes catégories d’attaques
Le rapport distingue d’abord les attaques par empoisonnement, qui regroupent les techniques par lesquelles un cyberattaquant altère des données d’entraînement ou le modèle en lui-même, et en particulier :
- l’empoissonnement des données, qui vise à introduire des données malveillantes dans l’ensemble des données qui servent à l’entrainement du système d’Intelligence Artificielle (Exemple : injecter des transactions frauduleuses dans un modèle de détection de fraude) ;
- les évasions classiques, qui visent à modifier légèrement les données d’entrées pour tromper l’Intelligence Artificielle et la conduire à une mauvaise classification desdites données (Exemple : modifier légèrement une image d’un panneau stop pour qu’une voiture automatisée ne le reconnaisse pas en tant que panneau stop) ;
- les empoisonnements du modèle, qui consistent en une modification directe des paramètres du modèle pendant l’entraînement, ce qui corrompt le comportement de l’Intelligence Artificielle ;
- les attaques par la chaîne d’approvisionnement, qui touchent seulement une composante du modèle avant même son utilisation (Exemple : l’utilisation d’une bibliothèque logicielle compromise ou d’un modèle pré-entraîné contenant une porte dérobée)
Viennent ensuite les attaques par évasion, qui ciblent le modèle en production, en modifiant les données d‘entrée pour obtenir des prédictions erronées, à l’instar des injections de prompts ciblant les grands modèles de langages qui génèrent du texte proche du langage humain en se basant sur un large ensemble de données. Dans ce cas, le modèle en production chez un utilisateur est manipulé par un tiers malveillant qui va détourner les restrictions de l’Intelligence Artificielle en lui permettant de donner des indications dangereuses qui lui étaient auparavant interdites de donner.
Enfin, les attaques « Oracles » exploitent l’accès au modèle pour en extraire des informations ou influencer son comportement, et notamment :
- les attaques par inférence dont l’objet est de pouvoir déduire des informations sur les données d’entrainement à partir des prédictions du système d’Intelligence Artificielle ;
- les attaques par extraction de données qui ont pour objectif d’obtenir des informations sensibles du consommateur via des données enregistrées sur le modèle de l’IA ;
- la consommation excessive de ressources qui organise une surcharge volontaire du modèle pour épuiser ses ressources ou dégrader sa structure.
Une méthodologie de protection alliant prévention et remédiation
La première des protections repose, à l’évidence, sur la prévention, laquelle doit articuler trois lignes de défense constituée des mesures de prévention classiques de cybersécurité (synthétisée, notamment, par l’ANSSI dans son guide d’hygiène informatique), des mesures de prévention spécifiques à l’Intelligence Artificielle (et, notamment, les 35 recommandations de sécurité de l’ANSSI pour un système d’IA générative d’avril 2024) et, le cas échéant, des mesures de prévention spécifiques à certains type d’attaques (et, par exemple, des mécanismes d’identification des données inattendues ou malveillantes pour prévenir l’empoisonnement en phase d’entraînement).
La gestion efficace et structurée des incidents est, dans un second temps, essentielle pour garantir la protection des systèmes d’Intelligence Artificielle et, en particulier, leur résilience, leur sécurité et leur conformité réglementaire. A cet égard, le rapport propose une architecture de gestion d’incident intégrant les bonnes pratiques issues des cadres de références tels que la norme ISO/IEC 27035, les recommandations de l’ANSSI, du NIST et les directives de la CNIL et articulant trois volets principaux : Gouvernance et Gestion de crise, Détection et Investigation puis Remédiation et Reconstruction.
Des outils pédagogiques pour les attaques les plus répandues
Dans un souci de pédagogie et de pragmatisme, le rapport présente, pour chaque type d’attaque les plus répandues, une fiche pratique contenant :
- au recto, la description, la qualification et les conséquences du scenario d’attaque, les étapes du cycle de vie du système d’Intelligence Artificielle affecté et le schéma de l’attaque ;
- au verso, les méthodes de prévention et de remédiation propres au type d’attaque traité.
Ce rapport, qui a vocation à être enrichi au fil du temps et des retours d’expérience, constitue un outil indispensable pour protéger les systèmes d’Intelligence Artificielle.
Source : Rapport « Analyse des attaques sur les systèmes d’IA » – Campus Cyber & Hub France IA – Mai 2025