Les techniques favorisant l'anonymisation ou la pseudonymisation des données sensibles se sont multipliées ces dernières années. Toutefois, la signification exacte de ces mots reste assez floue pour une vaste majorité, y compris les décideurs et les responsables politiques. En particulier, la pseudonymisation est généralement considérée comme une sophistication de l'anonymisation, alors que c'est tout le contraire ! Clarifions un peu les choses à travers quelques définitions et des exemples simples.

Définitions et nuances

Le RGPD a fourni des indications précieuses pour mieux distinguer ces deux notions et précise que la pseudonymisation est "le traitement de données à caractère personnel de telle sorte que ces données ne puissent plus être attribuées à une personne spécifique sans l'utilisation d'informations supplémentaires" [1]. La dernière partie de la phrase est capitale, car c'est la différence majeure avec l'anonymisation, qui agit de telle manière que la personne à l'origine des données n'est plus identifiable.

Cela signifie notamment que les données pseudonymisées peuvent être ré-identifiées à l'aide d'informations extérieures qui viendraient les compléter, et ceci permet de mieux identifier les cas où l’on n’a pas une anonymisation au sens du RGPD. Premier exemple, dans le cas où les identités dans les enregistrements sont remplacées par des identifiants aléatoires, si une table d'index est conservée quelque part pour faire correspondre les identifiants avec les identités, alors ces données ne sont pas anonymisées mais pseudonymisées. Par ailleurs, les marqueurs d'identité les plus évidents ont été supprimés, s'il existe des données publiques qui permettent une ré-identification même partielle, alors l'ensemble de données n’est que pseudonymisé.

Cela signifie qu'il est difficile en pratique de prouver qu'un ensemble de données est correctement anonymisé, et certaines entreprises en ont fait la mauvaise expérience en divulguant des jeux de données mal anonymisés.

Des échecs notoires

La principale difficulté n'est pas les identifiants directs tels que le nom, le numéro de sécurité sociale ou la photo d'identité des personnes, qui peuvent être facilement supprimés ou randomisés. Le véritable problème concerne les identifiants indirects, comme les liens sociaux, les antécédents médicaux ou même la langue parlée, qui, pris séparément, ne sont pas toujours des identifiants forts mais qui, combinés ensemble, peuvent décrire une population très restreinte voire une personne unique.

En 2006, Netflix a publié un jeu de données sur le classement de films en utilisant les données de plus de 500.000 utilisateurs. Les données ont été nettoyées et les identificateurs directs tels que le nom ont été supprimés. Cependant, une partie importante de cet ensemble de données a été ré-identifié par des chercheurs qui ont comparé l'ensemble des classements et les dates de ces classements avec les données publiques du site de critiques filmographiques IMDb [2]. Comme la façon dont les gens évaluent les films est très personnelle, cette réidentification a été étonnamment efficace. En particulier, ils ont montré qu'avec 8 classifications de films (dont 2 peuvent être complètement fausses) et des dates pouvant comporter une erreur de 14 jours, 99% des personnes peuvent être identifiés de manière unique. Les implications d'une telle divulgation peuvent être très sérieuses : les habitudes filmographiques peuvent révéler beaucoup de choses sur l'orientation sexuelle et politique d'une personne et Netflix a de fait été poursuivi en justice pour atteinte à la vie privée [3]. Ce qu’il faut retenir de ces travaux est que les identificateurs peuvent être difficiles à repérer et que seuls quelques attributs peuvent être nécessaires pour désanonymiser un jeu de données

Il y a eu beaucoup d'autres scandales comme la divulgation en 2014 des données personnelles des chauffeurs de taxi de New York, au travers de la publication de courses de taxi mal anonymisées, ou bien encore la ré-identification de patients à partir d’open data de dossiers de facturation médicale australiens en 2016, qui a encore eu des implications récemment [4].

Si certains échecs sont dus à une négligence claire lors du nettoyage des données, un traitement minutieux peut ne pas suffire à garantir la robustesse de l’anonymisation contre la ré-identification, comme les chercheurs l'ont montré lors de l'étude des données de Netflix [5]. Cela conduit naturellement à la question suivante : quand peut-on affirmer qu'un ensemble de données est correctement anonymisé, étant donné l'impossibilité de connaître toutes les données extérieures disponibles ?

Vers un véritable anonymat

Il existe plusieurs techniques qui offrent certaines garanties en matière de respect de la vie privée, mais chacune a ses limites.

Par exemple, le k-anonymat offre une certaine robustesse contre la ré-identification des individus en garantissant que chaque configuration d'attribut décrit une population d'au moins k individus. Il est donc impossible de distinguer une personne d'au moins k-1 autres à partir des caractéristiques du jeu de données. Pour ce faire, les identifiants directs sont supprimés et les identificateurs indirects sont généralisés pour être moins précis. Par exemple, si les dossiers contiennent l'âge des patients, il peut être remplacé par la décennie la plus proche (par exemple 20 < âge ≤ 30). Le k-anonymat est vulnérable contre certaines attaques (comme les attaques dites par homogénéité) et suppose également d’avoir accès à toutes les données pour généraliser suffisamment les attributs sans toutefois perdre trop de précision, ce qui n’est pas possible pour les données de temps réel. De plus, on ne sait pas très bien comment appliquer cette méthodes à certains formats de données comme les données textuelles (les messages, les compte-rendus médicaux, etc).

Pour lutter contre certaines des limites du k-anonymat, des sophistications supplémentaires comme la l-diversité et bien d'autres ont été proposées [6]. Mais toutes ces techniques s’avèrent avoir des limites inhérentes et ne sont pas applicables à tous les formats de données.

Pour dire les choses simplement : la véritable anonymisation est difficile.

  • Vous n’avez pas garantie de robustesse contre la ré-identification
  • Vous risquez de supprimer des données critiques pour votre analyse en généralisant trop
  • Il n'y a pas de procédure standard

Alors, faut-il pour autant renoncer à l'anonymat ? Pas vraiment.

Tout d'abord, si vous connaissez les limites de chaque technique de désidentification, vous pouvez les utiliser avec succès dans des cas spécifiques et avoir des garanties suffisantes en matière de respect de la vie privée. Deuxièmement, avec les progrès de l'apprentissage automatique, en particulier dans le contexte des données de santé et du secteur bancaire, de nouvelles techniques ont été mises au point qui pourraient renforcer la protection de la vie privée en déplaçant la question de la protection des données vers le modèle et l'analyse effectués sur ces données. En particulier, au lieu d'ajouter du bruit ou des processus de généralisation directement sur les données, ces méthodes opèrent sur la requête ou le modèle qui est appliqué sur celles-ci, ce qui est moins destructeur pour les informations importantes tout en garantissant une meilleure protection de la vie privée. Cet ensemble de techniques s'appelle la "Differential Privacy" et constitue un domaine de recherche très actif [7] [8].

Si vous souhaitez en savoir plus sur la Differential Privacy et sur nos autres sujets liés à la protection de la vie privée, abonnez-vous à notre compte Twitter pour être le.a premier.ère informé.e de la publication du prochain billet !

Rejoignez le mouvement !

Découvrez notre écosystème open-source et dynamique
en nous rejoignant en ligne.
Nous vous tenons au courant de nos dernière avancées sur Twitter.
Vous pouvez venir discuter avec nous à toute heure sur Slack.
Vous pouvez également mettre la main à la pâte sur notre repo Github.