Le développement d’un système d’intelligence artificielle ne peut plus être envisagé uniquement comme un sujet technique. Dès lors que des données personnelles sont utilisées — pour entraîner un modèle, tester un outil, annoter des données ou améliorer un service — le RGPD doit être intégré dès la phase de conception.

La CNIL rappelle que la conformité d’un projet IA repose sur une approche structurée : identifier les données utilisées, clarifier les responsabilités, limiter les informations traitées, sécuriser les accès, informer les personnes et anticiper l’exercice de leurs droits.

1. Vérifier si le RGPD s’applique au projet IA

Première étape : déterminer si le projet repose sur des données personnelles.

Cela peut concerner :

  • les données utilisées pour entraîner le modèle ;

  • les données issues du web scraping ;

  • les données intégrées dans une base d’apprentissage ;

  • les données éventuellement mémorisées ou restituées par le modèle.

Même lorsqu’un modèle semble ne plus contenir directement de données identifiantes, il faut s’interroger sur le risque de réidentification ou d’extraction de données. Pour la CNIL, l’anonymat d’un modèle ne doit pas être présumé trop rapidement : il doit être évalué et réévalué régulièrement.

2. Définir les responsabilités des acteurs

Un projet IA implique souvent plusieurs intervenants : éditeur, intégrateur, fournisseur de données, hébergeur, prestataire d’annotation, client utilisateur.

Il est donc indispensable de qualifier les rôles :

  • responsable de traitement ;

  • responsable conjoint ;

  • sous-traitant.

Cette qualification conditionne les obligations de chacun et les contrats à mettre en place. En pratique, un projet IA mal encadré contractuellement peut rapidement créer une zone grise sur la responsabilité en cas de violation de données, de demande d’exercice de droits ou de réutilisation non conforme.

3. Définir clairement les finalités et la base légale

La finalité doit être déterminée dès le départ. Il ne suffit pas d’indiquer que les données sont utilisées « pour l’IA » ou « pour améliorer le service ». Il faut préciser l’objectif réel du traitement : entraînement d’un modèle, classification, génération de contenu, détection d’anomalies, recommandation, aide à la décision, etc.

Chaque finalité doit ensuite être rattachée à une base légale : consentement, contrat, obligation légale, intérêt légitime, mission d’intérêt public ou autre fondement applicable. En cas de recours à l’intérêt légitime, une analyse spécifique doit être menée : intérêt poursuivi, nécessité du traitement, attentes raisonnables des personnes et garanties mises en place.

4. Encadrer la réutilisation des données

Beaucoup de projets IA reposent sur des données déjà disponibles dans l’entreprise. Mais une donnée collectée pour une finalité initiale ne peut pas être automatiquement réutilisée pour entraîner un modèle. Il faut vérifier si cette nouvelle utilisation est compatible avec la finalité d’origine.

Cette analyse doit tenir compte :

  • du lien entre la finalité initiale et la finalité IA ;

  • du contexte de collecte ;

  • de la nature des données ;

  • des conséquences possibles pour les personnes ;

  • des garanties mises en œuvre, comme la pseudonymisation ou l’anonymisation.

Lorsque les données proviennent de sources externes ou de bases acquises auprès de tiers, la vigilance doit être renforcée. L’organisme doit pouvoir documenter l’origine des données et s’assurer que la base n’a pas été constituée de manière manifestement illicite.

5. Appliquer strictement le principe de minimisation

Un projet IA ne justifie pas de collecter toutes les données disponibles « au cas où ». La CNIL invite à identifier les données réellement nécessaires à l’objectif poursuivi, à limiter la profondeur historique et à privilégier des formats moins intrusifs lorsque cela est possible. Par exemple, une tranche d’âge peut parfois suffire plutôt qu’une date de naissance complète.

La minimisation doit aussi porter sur :

  • le volume de données ;

  • la granularité ;

  • les catégories de données ;

  • les sources utilisées ;

  • la durée de conservation.

Lorsque des données sensibles sont concernées, le niveau d’exigence augmente fortement : il faut identifier une exception prévue par l’article 9 du RGPD, justifier leur nécessité et prévoir des mesures de sécurité renforcées.

6. Prévoir une durée de conservation adaptée

Les données utilisées dans un projet IA ne doivent pas être conservées sans limite. Il est recommandé de définir une durée spécifique pour chaque phase du projet :

  • développement ;

  • entraînement ;

  • test ;

  • maintenance ;

  • amélioration du modèle.

À la fin de la phase de développement, les données doivent être supprimées ou archivées, sauf justification précise. Si elles sont conservées pour la maintenance ou l’amélioration du produit, leur accès doit être strictement limité et leur stockage sécurisé.

7. Assurer la transparence envers les personnes

Les personnes concernées doivent recevoir une information claire, accessible et complète. Cette information doit notamment porter sur :

  • les finalités du traitement ;

  • les données utilisées ;

  • les sources des données lorsque celles-ci ne sont pas collectées directement ;

  • les droits des personnes ;

  • les risques spécifiques, notamment en cas d’IA générative.

Lorsque les données proviennent de nombreuses sources accessibles publiquement, l’information individuelle peut être difficile. Mais cela ne dispense pas l’organisme de rendre l’information disponible, par exemple sur son site web, et de documenter les raisons pour lesquelles une information individuelle serait disproportionnée.

8. Anticiper l’exercice des droits

L’exercice des droits est l’un des sujets les plus complexes en matière d’IA. Comment répondre à une demande d’accès, de rectification ou d’effacement lorsque les données ont servi à entraîner un modèle ? Comment identifier les données d’une personne dans un modèle génératif ? Comment limiter le risque de régurgitation ?

Ces questions doivent être traitées dès la conception.

La CNIL recommande notamment de prévoir des procédures internes, des mécanismes d’identification, des solutions de réentraînement lorsque cela est possible et, à défaut, des filtres ou mesures robustes sur les sorties du système.

9. Encadrer l’annotation des données

L’annotation est une étape souvent sous-estimée.

Pourtant, elle peut produire de nouvelles données personnelles ou enrichir fortement les données existantes.

Les annotations doivent être :

  • nécessaires à la finalité ;

  • objectives ;

  • régulièrement vérifiées ;

  • intégrées aux procédures d’exercice des droits.

Les personnes chargées de l’annotation doivent être formées aux principes de protection des données. En cas de données sensibles, des mesures renforcées doivent être prévues : restriction des accès, chiffrement, journalisation et contrôle de la qualité des annotations.

10. Sécuriser les données et le système IA

La sécurité doit couvrir tout le cycle de vie du système IA :

  • données d’entraînement ;

  • environnement de développement ;

  • librairies et outils utilisés ;

  • modèles pré-entraînés ;

  • sorties générées par le système ;

  • accès internes ;

  • journaux de traçabilité.

Les habilitations doivent être gérées strictement, les accès tracés et les mesures de sécurité régulièrement réévaluées. La sécurité ne concerne donc pas uniquement l’hébergement : elle doit aussi porter sur les choix techniques, les composants utilisés et les risques propres aux modèles d’IA.

11. Réaliser une AIPD lorsque les risques sont élevés

Une analyse d’impact relative à la protection des données peut être nécessaire lorsque le projet présente un risque élevé pour les droits et libertés des personnes. C’est notamment le cas en présence :

  • d’un usage innovant ;

  • d’un traitement à grande échelle ;

  • de données sensibles ;

  • de personnes vulnérables ;

  • de risques de discrimination ;

  • de risques de production de contenus inexacts sur des personnes réelles ;

  • de risques d’attaques spécifiques aux systèmes d’IA.

L’AIPD permet d’identifier les risques, de documenter les arbitrages et de définir les mesures de réduction adaptées.

En pratique : la conformité IA se construit avant le développement

La principale leçon à retenir est simple : la conformité d’un système d’IA ne se corrige pas uniquement à la fin du projet.

Elle doit être intégrée dès le cadrage, au même titre que les choix techniques, les objectifs métier ou les contraintes de sécurité.

Avant de lancer un projet IA, il est donc essentiel de se poser les bonnes questions :

  • Pourquoi utilisons-nous ces données ?

  • Avons-nous réellement besoin de toutes ces informations ?

  • Les personnes peuvent-elles raisonnablement s’attendre à cet usage ?

  • Les données sont-elles correctement sécurisées ?

  • Les droits des personnes pourront-ils être effectivement respectés ?

  • Les rôles des acteurs sont-ils clairement définis ?

  • Les risques spécifiques à l’IA ont-ils été analysés ?

Un projet IA conforme est avant tout un projet documenté, maîtrisé et proportionné.

Nos derniers articles

A la recherche d'un DPO externe, d’un accompagnement ou d’une formation RGPD ?

Notre équipe est à votre disposition pour découvrir vos besoins et vous proposer une méthodologie d'intervention adaptée.