Numéro cinq
Retrouvez le numéro cinq de Third : La sécurité dans un monde numérique
Retrouvez le numéro cinq de Third : La sécurité dans un monde numérique
L’innovation est une recherche constante d’améliorations par rapport à l’existant. Innover sous-entend donc la présence d’un étalon pour comparer des solutions entre elles et pour évaluer les progrès réalisés. Innover sous-entend également un processus d’expérimentation et d’itération à des fins d’amélioration continue. Dans le numérique, les deux nous ramènent irrémédiablement à la donnée.
À tous les niveaux, la création de nouveaux produits et leur amélioration va nécessiter la collecte, l’analyse et l’exploitation d’information. Que ce soit la donnée des patients ayant reçu un traitement, celle des utilisateurs d’une application mobile, des usagers d’un service de transport ou des ventes d’un magasin, chaque fois, l’innovation va se nourrir de toute la donnée à sa disposition et chercher à en étendre la collecte.
Protéger la donnée personnelle est la force opposée : l’individu aspire à préserver son intimité et à garder ses actions dans la sphère privée. Il ne souhaite a priori pas que ses actes soient épiés, enregistrés et conservés sans raison valable. L’objectif de l’innovateur d’acquérir sans cesse plus de données se heurte frontalement au souci de protection de la donnée personnelle, qu’il émane de l’individu ou du législateur pour le compte de l’intérêt général.
Cette tension n’est devenue apparente que récemment. Dans un monde de peu de données, l’innovateur se contentait de maigres sources. Il s’agissait, par exemple, d’enquêtes de consommateurs – et donc d’individus consentants – ou de données agrégées comme des décomptes d’usagers d’une ligne de métro. Ces données étaient utiles pour guider l’innovation et suffisamment peu identifiantes pour ne pas inquiéter l’individu. L’immense majorité des informations relatives à un individu finissait oubliée ou restait dans la sphère privée. Les échanges principalement oraux s’envolaient. Ceux qui se faisait par écrit étaient, pour la plupart, inexploitables pour l’analyse scientifique faute de moyens de numérisation et de traitement adaptés.
Au fil des progrès technologiques, les inventeurs et entrepreneurs ont cherché à saisir chaque opportunité de s’alimenter en données à une maille toujours plus fine. Aujourd’hui, la moindre interaction entre individus ou avec un produit peut être enregistrée, analysée et utilisée pour améliorer les services futurs. Des outils d’analyse de données d’imagerie médicale beaucoup plus sophistiqués laissent entrevoir une révolution du diagnostic. La connaissance fine des déplacements individuels ouvre la voie à de nouveaux modes de transports collectifs efficients que les services d’hier n’auraient jamais su pourvoir. Le marketing aussi est devenu plus efficace avec le ciblage publicitaire, pour le meilleur et pour le pire.
L’individu se voit proposer un échange difficilement résistible : entrer pleinement dans l’ère numérique et profiter des nouveaux services au prix de laisser ses données alimenter leurs fournisseurs. Les géants du numérique, notamment Facebook, Uber ou Google, prospèrent grâce à cet échange. À leur échelle, les acteurs économiques plus petits suivent la même logique. Il faut exploiter les données au maximum pour que les utilisateurs profitent chaque jour de produits ou services plus efficaces et plus utiles. Si pour l’individu les termes de l’échange peuvent paraître acceptables, à l’échelle d’une nation les risques prennent une autre dimension. La capacité de surveillance et de manipulation de masse confère à ces actifs une valeur colossale dont on ne perçoit que le début de la portée.
Naturellement, les régulateurs se sont émus et sont intervenus bien avant que les citoyens ne s’y opposent significativement. Dans la plupart des pays, des législations protégeant la vie privée ont émergé1 contraignant la collecte et l’utilisation d’informations personnelles. Ces réglementations ne visent pas l’innovation en tant que telle mais, en contraignant l’accès à sa matière première, elles pourraient la ralentir significativement. Doit-on y voir la fin d’un cycle d’innovation frénétique ?
Pour pouvoir répondre à cette question, notons tout d’abord que si, d’un côté, les autorités de protection de la donnée personnelle ne cherchent pas à limiter l’innovation, de l’autre, les innovateurs ne cherchent pas à connaître les faits et gestes des individus non plus.
Les praticiens de la donnée cherchent à développer des solutions qui conviennent dans la majeure partie des cas. Le diagnostic médical parfait est impossible, mais rechercher celui qui a la plus grande probabilité de succès est un objectif atteignable. De même, on ne saura jamais exactement quels seront les déplacements domicile-travail du lendemain, tout comme on ne saura jamais parfaitement quand un client d’une banque décidera de partir pour la concurrence. L’innovation cherche à améliorer la compréhension des interactions entre les utilisateurs et les produits existants mais elle n’ambitionne heureusement pas de résoudre l’incertitude inhérente au comportement humain. L’objectif de l’innovateur est donc de découvrir des règles cachées qui sous-tendent les comportements. Ces règles ne seront jamais absolues et ne doivent pas être spécifiques à un comportement en particulier car celui-ci ne se reproduira jamais à l’identique.
Le pouvoir de généraliser est même un des fondements des modèles d’intelligence artificielle. Quand un élève de primaire apprend les additions à deux chiffres, il a plus intérêt à apprendre les règles générales de l’addition qu’à mémoriser tous les exemples du manuel. Le modèle d’intelligence artificielle a le même objectif : extraire les règles générales sans s’efforcer de retenir les cas particuliers. On cherche, avec des modèles mathématiques, à créer des systèmeslogiques et cohérents. Un algorithme qui détecte une tumeur sur une IRM ne cherche pas à se souvenir de toutes les images qui ont servi à son apprentissage. Il serait sans doute contre-productif de chercher à tout retenir car son objectif est d’être efficace dans la détection de tumeurs sur des IRM qui lui seront soumises dans le futur. Si l’innovateur s’intéresse essentiellement au général, accéder au particulier paraît comme un mal nécessaire pour y parvenir.
L’alignement des intérêts entre l’innovateur et le législateur est rassurant : l’individu et le législateur cherchent à protéger la donnée individuelle tout en souhaitant l’amélioration promise par l’innovation. Quant à l’innovateur, il n’a pas besoin et ne souhaite pas emmagasiner l’information personnelle pour elle-même mais seulement pour constituer ses modèles numériques. Si c’est souvent la donnée agrégée qui intéresse l’entrepreneur, il semble nécessaire d’accéder à la donnée individuelle primaire avant de l’agréger. Il s’agit donc d’une difficulté majeure : l’innovateur ne s’intéresse pas à la donnée individuelle mais il doit en disposer pour travailler sur l’ensemble.
Actuellement, l’approche dominante vise à retirer le caractère identifiant de la donnée source avant de la mettre à disposition des praticiens de la donnée. Les pratiques dites d’anonymisation consistent à supprimer les champs rendant l’identification triviale comme les éléments de l’état civil, les numéros de téléphone ou les adresses. Malheureusement la réidentification peut aussi venir de n’importe quelle combinaison de valeurs. L’âge et la date d’admission dans un hôpital peuvent suffire à retrouver quelqu’un. Quelques achats sur une carte de crédit constituent une empreinte digitale d’une redoutable efficacité. Dans le cas d’un concours organisé par Netflix2, la liste des films vus s’avérait être un moyen très sûr de retrouver des individus, conduisant à un procès très médiatique et très coûteux.
Ces méthodes permettent de traiter les cas simples mais deviennent inadaptées dès que la source de données s’étoffe. Une protection robuste nécessiterait la suppression de toutes les combinaisons de champ problématiques, vidant ainsi la donnée de tout son potentiel.
Cet enjeu essentiel a aujourd’hui une réponse imparfaite, de sorte qu’il faut trouver une idée nouvelle pour rendre possible l’utilisation des données toujours plus fines. Il nous semble qu’il s’agit d’une difficulté technique et non une impasse théorique. En effet, des technologies sont en développement pour adresser ce sujet d’une nouvelle manière. Elles reposent sur deux idées.
La première est de travailler sur des données qu’on ne voit pas, par exemple sur des données qui resteraient sur des téléphones ou entreposées dans un hôpital. On parle d’ « apprentissage à distance » ou d’ « apprentissage fédéré » quand la donnée est répartie sur plusieurs sites. Certaines solutions reposent également sur du chiffrement pour pouvoir déplacer et les traiter sans les exposer (chiffrement homomorphique, calcul multipartite sécurisé). Il est aujourd’hui possible d’envisager toute une chaîne de traitement de la donnée sans que le data scientist n’accède à la donnée source. Il peut effectuer ses analyses et calculs sur des données distantes et n’en récupérer que le résultat.
Dans ce paradigme, la donnée n’est pas copiée ou déplacée. Le data scientist n’y a pas accès directement mais doit soumettre tous ses calculs à travers un serveur de calcul qui se charge d’exécuter ses requêtes sur la donnée source. Cela limite considérablement le risque de fuite et donne la possibilité de suivre l’usage qui a été fait de la donnée. Mais le data scientist pourrait soumettre un calcul qui extrait spécifiquement la donnée d’un individu ou même dont on ne sait pas dire si le résultat est personnel ou non. C’est par exemple le cas des réseaux de neurones dont les millions de paramètres peuvent encoder des informations très précises sur les données sources. Faire un calcul sur des données distantes apporte bien peu de garanties il est nécessaire d’ajouter une dimension pour résoudre le problème identifié.
La seconde idée est qu’il faut pouvoir garantir explicitement que le résultat de l’analyse ne révèle pas l’information individuelle qu’on a voulu protéger. Chaque élément du résultat pourrait suffire à dévoiler l’information d’un individu. Le risque est d’autant grand que les résultats peuvent être croisés avec d’autres sources d’information, ce qui est de plus en plus courant avec la multiplication des sources d’information tierces disponibles en ligne comme les réseaux sociaux.
Pour s’en prémunir, le formalisme mathématique de la confidentialité différentielle (differential privacy) est devenu le cadre théorique de référence3 et il est mentionné comme une perspective prometteuse dans le cadre des règles de protection des données à caractère personnel. Il permet d’appréhender le risque de ré-identification dans tout calcul quels que soient les croisements de données qui pourraient être faits. Il établit que pour que le résultat d’un calcul ne dévoile pas d’information individuelle il faut qu’il soit insensible à l’ajout ou au retrait de tout individu. Cette propriété peut s’appliquer à tout type de calcul et constitue donc une brique essentielle d’une chaîne de traitements sécurisée de l’information privée.
Pour implémenter la confidentialité différentielle, il est nécessaire d’insérer dans le calcul une part d’aléa qui rendra la contribution d’un individu indistinguable d’un bruit statistique. En pratique, ce bruit est inséré au moment du calcul, le récipiendaire des données est incapable d’en déduire la moindre information identifiante quelles que soient ses connaissances a priori. La garantie apportée par confidentialité différentielle – l’insensibilité à l’ajout ou au retrait d’un individu – est presque parfaitement avec l’objectif de l’innovateur : découvrir les propriétés générales des données qui ne dépendent pas d’un individu en particulier.
Dans l’exemple illustré en Figure 2, on cherche à créer un modèle prédisant où les individus se répartissent dans l’espace. Pour être considéré comme anonyme au sens de la confidentialité différentielle, ce modèle doit être indistinguable qu’on ajoute ou qu’on retire Bob lors de sa conception. Puisque la présence ou l’absence d’une personne ne change pas le résultat, on peut donc affirmer que ce modèle issu de données personnelles ne permettra pas de déduire d’information sur un individu en particulier quelle que soit l’utilisation qui sera faite du modèle. Cela illustre la puissance des garanties apportées par la confidentialité différentielle.
Ces nouvelles technologies annoncent une réconciliation définitive entre innovation et protection de la vie privée. Si la donnée personnelle n’est jamais dévoilée l’innovation peut continuer de prospérer. Des applications sur des données auparavant jugées trop sensibles deviennent alors envisageables. Cela ouvre la voie à de nouveaux modes de collaboration autour de la donnée pour lesquels les individus ne sont plus otages.
L’open data a eu un impact très limité en ne s’adressant qu’à des jeux de données très peu sensibles. La donnée personnelle n’est pas libre, mais, pour l’innovateur, ce qui importe dans un jeu de données c’est d’extraire le savoir général qu’il comporte et non de mettre la main sur la donnée source. Ces solutions nouvelles ouvrent la voie à la valorisation de ces savoirs sans entraver les libertés individuelles.
Tout le monde s’accorde pour dire que les données sont « l’or » du XXIème siècle. Mais qui s’est réellement intéressé à la manière de les exploiter en toute sécurité ? C’est pourquoi nous avons trouvé l’article de Maxime Agostini aussi intéressant. Les perspectives technologiques qu’il dresse sont édifiantes et passionnantes.
1 | La plus fameuse d’entre elle est certainement le règlement européen n°2016-679 sur la protection des données à caractère personnelle (dit « RGPD »). (Retour au texte 1)
2 | https://www.wired.com/2010/03/netflix-cancels-contest/. (Retour au texte 2)
3 | Par exemple, le bureau du recensement américain va utiliser ce formalisme pour garantir la protection de la vie privée dans son recensement de 2020. Il considère la confidentialité différentielle comme le nouvel étalon-or de la protection de la donnée (https://www.census.gov/about/policies/privacy/statistical_safeguards/disclosure-avoidance-2020-census.html). (Retour au texte 3)