Ressources éthiques
Le RGPD prévoit des dispositions différentes selon que les données sont anonymisées ou pseudonymisées. Il est donc fondamental de bien comprendre la différence, pour pouvoir appliquer les mesures appropriées.
Anonymisation
Irréversible
Le processus d’anonymisation vise à éliminer toute possibilité de ré-identification :
- il ne doit pas être possible d’isoler un individu dans le jeu de données
- il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu
- il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.
Par exemple :
La phrase suivante nʼest pas anonyme (alors quʼelle ne contient aucun nom) :
“Le fils du Premier Ministre de Fridonie est schizophrène.”
Il n’est pas possible de retrouver lʼorigine des données, donc il nʼest pas possible de les supprimer si un participant le demande.
Une cohorte trop petite ne peut sans doute pas être anonymisée, le risque de réidentification des individus étant trop important par effet de croisement des données
Hors champ du RGPD
La législation relative à la protection des données personnelles ne s’applique pas, car la diffusion ou la réutilisation des données anonymisées n’a pas d’impact sur la vie privée des personnes concernées en ce qu’elle n’inclue pas de traitement de données à caractère personnel.
Ainsi, le consentement nʼest pas indispensable pour utiliser des données véritablement anonymisées.
Cependant, il est éthiquement recommandé de prévenir les participants, par exemple par le biais dʼune lettre dʼinformation.
L’anonymisation permet également de conserver les données au-delà des durées de conservation initialement fixées.
Techniques d’anonymisation
Les principales techniques d’anonymisation sont la randomisation et la généralisation
La randomisation consiste à altérer le lien entre les données et l’individu. Il s’agit donc d’altérer la véracité des données collectées.
La généralisation consiste à diluer les attributs des personnes concernées en modifiant leur échelle ou leur ordre de grandeur respectif (par exemple, une région plutôt qu’une ville, un mois plutôt qu’une semaine, un âge plutôt qu’une date de naissance)
Lʼanonymisation est en général très coûteuse, car tout ce qui permettrait de remonter à l’origine des données doit être pris en compte.
Pseudonymisation
Réversible
La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire.
Cela consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.).
La pseudonymisation permet ainsi de traiter les données des individus sans pouvoir identifier ceux-ci de façon directe
La correspondance avec l’identité des individus (table de correspondance, clé de chiffrement etc) doit être stockée dans un autre lieu que les données, et avec un accès contrôlé limité.
La législation relative à la protection des données personnelles reste applicable aux données pseudonymisées.
Par exemple :
La phrase suivante: “M. X est schizophrène.” est pseudonymisée lorsqu’une correspondance est conservée avec l’identité de M. X
À venir