third
Novembre 2019

Numéro trois

Retrouvez le numéro trois de Third : Vivre avec les objets connectés

Third | Novembre 2019

Assistants vocaux sans cloud : une solution performante sans compromis sur la protection de la vie privée

Marion Bergeret (VP Legal & General Counsel, SNIPS) et Joseph Dureau (CTO, SNIPS).

 

Avec plus de 40% des consommateurs américains équipés d’enceintes activées par la voix, et de plus en plus d’entreprises qui se reposent sur des solutions de reconnaissance vocale pour automatiser des processus impliquant la gestion d’informations confidentielles ou sensibles, la question de la protection des données traitées par les assistants vocaux devient centrale.

 

Dans le même temps, les réponses proportionnées aux enjeux font défaut et nombre de pratiques relatives au traitement des données par les assistants vocaux restent difficiles à déchiffrer, y compris pour les utilisateurs eux-mêmes.

 
Actuellement, la majorité des assistants vocaux se reposent sur des serveurs (le cloud) pour traiter les enregistrements vocaux issus des appareils connectés en service chez leurs utilisateurs. Ces enregistrements sont également utilisés pour entraîner les modèles. Snips, considérée comme la pépite française de la reconnaissance vocale, est actuellement le seul acteur sur le marché à permettre de réaliser l’ensemble des processus de la reconnaissance vocale localement, directement sur l’objet lui-même, sans se reposer sur une connection à internet ni sur un serveur distant. Les modèles, pré-entraînés, n’ont pas besoin des données des utilisateurs pour fonctionner, et celles-ci ne remontent donc jamais au niveau du cloud.

Plus d’un an après la mise en oeuvre du RGPD, nous avons décortiqué quelques unes des revendications principales faites par les plus importants fournisseurs d’assistants vocaux pour justifier leur dépendance aux technologies du cloud pour traiter la voix.

Celles-ci portent sur quatre thèmes centraux :

i. Un gain d’efficacité opérationnelle : l’IoT permet une meilleure la performance,
ii. la confiance,
iii. la sécurité, et
iv. les innovations techniques protectrices de la vie privée.

Sur le premier thème, la performance, notre conclusion s’impose d’elle-même : l’utilisation du cloud n’est pas une condition nécessaire à une reconnaissance vocale hautement performante. Au contraire, il existe déjà des alternatives fonctionnant aussi bien ou mieux en local, sans envoyer d’enregistrements vocaux sur internet, et donc sans compromis en ce qui concerne la protection de la vie privée ou la confidentialité.
 

La reconnaissance vocale comporte des risques inhérents en termes de protection de la vie privée

 
Les assistants vocaux regroupent un certain nombre de caractéristiques augmentant les risques inhérents liés à la protection de la vie privée :

‒ En premier lieu, les données vocales sont des données d’une nature particulière. La voix peut révéler toutes sortes d’informations à propos d’un individu, y compris ses émotions, ou confirmer son identité avec certitude (comme on le ferait avec une empreinte digitale, une photo d’iris ou une cartographie veineuse). La voix peut aussi être copiée ou manipulée de manière à rendre possible l’usurpation d’identité ou d’autres types de fraude.

‒ La reconnaissance vocale est par ailleurs particulièrement intensive en termes de données. Elle repose par définition sur des techniques d’apprentissage automatique ou machine learning qui exigent de collecter un certain nombre de données d’entraînement. Les données vocales d’entraînement doivent être taggées c’est à dire identifiées, le plus souvent manuellement, afin que les modèles puissent être entraînés à ensuite reconnaître des phrases parlées de manière exacte. Si d’importants moyens sont déployés pour automatiser le processus de tagging ou pour pouvoir se passer de tags (i.e. dans des schémas d’apprentissage dits « non-supervisés »), à ce jour ces tâches impliquent toujours la revue à la main par des ressources humaines, et l’utilisation de données vocales d’humains en entrée. Cela crée donc une tension inhérente en termes de confidentialité dès lors que de telles données vocales sont collectées auprès des utilisateurs finaux des solutions eux-mêmes.

‒ Les assistants vocaux sont également intrusifs par leur usage, en ce qu’ils sont souvent utilisés dans des contextes intimes. La plupart des utilisateurs les installent au sein de leur domicile, souvent dans leur salle de bains ou leur chambre. Des données confidentielles sont également discutées dans les salles de réunion, usines et voitures, lieux dans lesquels les assistants vocaux deviennent de plus en plus intégrés. Pour l’utilisateur non averti, leur présence n’est pas toujours visible de manière évidente.

‒ Enfin, de nombreuses informations peuvent être collectées par le biais d’assistants vocaux de manière indirecte et sans que l’utilisateur ne le réalise forcément, soit parce qu’ils peuvent enregistrer des données par erreur (dans le cas où l’assistant est déclenché par erreur) ou parce que des informations peuvent être déduites ou dérivées à partir de l’utilisation faite d’un assistant par son ou ses utilisateurs. Les principaux assistants vocaux sur le marché collectent, centralisent, se souviennent et apprennent de manière systématique de chacune des interactions avec leurs utilisateurs. Leurs enregistrements contiennent les données audio brutes ainsi que les résultats des algorithmes impliqués et les enregistrements des actions prises par les assistants.

De manière générale, les assistants vocaux combinent donc l’utilisation de données à potentiel biométrique, une technologie gourmande en données, des cas d’usage concentrés sur les espaces les plus intimes et confidentiels et des améliorations destinées à ajouter du contexte et croiser encore plus d’informations sur leurs utilisateurs.
Ensemble, ces facteurs font des assistants vocaux des bombes à retardement en termes de risques liés à la vie privée, sauf à ce qu’ils soient conçus avec ces mêmes risques à l’esprit dès leur conception. C’est ce que proposent les technologies de reconnaissance vocale fonctionnant en local (et non sur serveur cloud).
 

Performance ou protection de la vie privée : un faux choix

 
Les pratiques et les messages véhiculés par les fournisseurs d’assistants vocaux fonctionnant en cloud sont fondés sur l’idée que l’utilisation massive de données d’utilisateurs serait nécessaire afin de leur permettre d’améliorer la performance de leurs assistants vocaux. À titre d’exemple, le menu des options relatives à la vie privée d’un des assistants cloud leaders sur le marché s’appelle « Gérer la façon dont vos données contribuent à améliorer [l’assistant vocal] ».

Non seulement cette justification, basée sur l’amélioration de la performance, n’a pas de fondement technique, mais son utilisation dans les politiques concernant la vie privée est trompeuse et pourrait par conséquent s’avérer contraire aux exigences de transparence du RGPD.

Bien que les faux positifs et autres incidents techniques soient inévitables quand on parle de technologies reposant sur le machine learning, les justifications basées sur l’amélioration de la performance sont sans fondement, à plus d’un titre :

1. il n’y a pas besoin de collecte massive de données à l’échelle à laquelle le font les fournisseurs cloud on peut utiliser beaucoup moins de données,
2. il existe des alternatives à l’utilisation de données d’utilisateurs qui fournissent des résultats comparables on peut utiliser des données moins intrusives pour la vie privée.

En effet, la performance n’est améliorée qu’à la marge au-delà d’une certaine quantité de données, et la collecte systématique de toutes les données d’utilisation n’est pas toujours justifiée. De plus, s’il est vrai qu’un échantillon large de données est nécessaire pour assurer une bonne performance, les fournisseurs d’assistants cloud possèdent déjà les données leur permettant d’atteindre un échantillon optimal sans collecte systématique.

Quand bien même plus de données seraient nécessaires, il existe d’autres sources de données que les données des utilisateurs eux-mêmes. Des benchmarks réalisés sur une base de données ouvertes montrent qu’un niveau de précision de plus de 90% peut être atteint sur la base de 2.000 déclarations crowd-sourcées, en se fondant sur les moteurs de compréhension du langage naturel de référence (par exemple, Microsoft Luis.ai ou Snips NLU).

De la même manière, en terme de compréhension du langage parlé, d’autres études montrent que la combinaison d’ensembles de données crowd-sourcées et d’environ 1.000 heures d’enregistrements audio permet des performances similaires à celles de l’API Google Speech sur des cas d’usage à vocabulaire large. De tels sets de données sont fournis par des fournisseurs à des prix accessibles pour une start-up. De plus, les modèles permettant ces résultats de performance peuvent tourner sur des processeurs standards, tel un Raspberry Pi 3 (quad-core Cortex-A53 à 1.4GHz) sans nécessiter de puissants serveurs.

La performance de la plateforme Snips est proche de celle de l’Homme et supérieure ou égale à celle des services cloud de Google, tant sur des domaines de vocabulaire restreints tels que les lumières connectées que sur des domaines larges tels que la musique.

Ainsi, des quantités relativement faibles de données crowd-sourcées peuvent mener à des améliorations de performance significatives, démontrant ainsi non seulement que des quantités massives de données ne sont pas nécessaires, mais également qu’on peut construire des interfaces vocales de qualité élevée avec des données obtenues en amont, sans avoir à utiliser de données d’utilisateurs ensuite. L’utilisation de technologies fonctionnant en local ne nécessite pas non plus de faire écouter les enregistrements vocaux d’utilisateurs réels à des personnes chargées de les transcrire ou de les classer.

Il n’existe donc aucune justification rationnelles liée à la performance pour justifier la collecte massive et quotidienne des données vocales.
 

La centralisation de données d’utilisateurs ne satisfait pas les critères de transparence applicables

 
Pourquoi les principaux fournisseurs d’assistants vocaux usent-ils de telles justifications basées sur la performance, si celles-ci sont sans fondement technique ? Ces justifications sont utilisées afin que les utilisateurs consentent à l’utilisation massive de leurs données sur le cloud.

Plus encore qu’uniquement à des fins de persuasion, ces déclarations remplissent une fonction juridique en ce qu’elles constituent les moyens utilisés par ces fournisseurs de se conformer à leurs obligations légales d’information préalable des utilisateurs quant aux finalités du traitement de leurs données.

En effet, le RGPD exige que les données à caractère personnelles soient (article 5 RGPD) :

1. « traitées de manière licite, loyale et transparente au regard de la personne concernée »,
2. « collectées pour des finalités déterminées, explicites et légitimes » et enfin,
3. « adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées ».

Nous venons de démontrer qu’il n’existe aucun fondement technique pour les justifications de collecte de données liées à une meilleure performance des assistants vocaux. On peut alors légitimement se poser la question de la valeur juridique de telles affirmations lorsqu’elles sont utilisées en tant que finalité de la collecte.

Une lecture attentive des politiques relatives aux données personnelles et des mentions d’information encadrant les choix offerts aux utilisateurs d’objets connectés par la voix en termes de collecte de données montrent de nombreuses lacunes en termes de transparence. Les opérateurs d’assistants vocaux basés sur le cloud n’ont, par exemple, commencé que très récemment à rendre compte de manière explicite de la revue d’enregistrements vocaux par des personnes réelles (et ce, en réaction aux nombreux scandales sur le sujet). Le niveau d’éducation sur la manière dont fonctionnent ces technologies chez l’utilisateur moyen est si bas que ceux-ci ne savent généralement pas ce qui est réellement fait de leurs enregistrements vocaux ni où ils sont envoyés.

Quel niveau de transparence et de pédagogie serait souhaitable compte tenu des enjeux inhérents aux technologies utilisées ? Un consentement peut-il réellement être considéré comme éclairé quand il s’agit de technologies si complexes que leur compréhension n’est pas forcément à la portée de tout utilisateur ?

En outre, un consentement peut-il être libre quand il est fait sous la menace qu’une fonctionnalité pourrait être dégradée en l’absence de collecte de données ou si l’historique des données de l’utilisateur était supprimé ? De telles formulation laissent ainsi imaginer que l’accès à la meilleure version d’un assistant vocal ne peut se faire qu’au prix de l’envoi de ses données personnelles sur le cloud, alors que c’est erroné d’un point de vue technique.

La définition des standards qui s’appliquent en matière de transparence de l’information et de consentement libre et éclairé est en cours, mais il paraît évident, dans de telles circonstances, que l’utilisation du consentement comme base légale du traitement des données personnelles d’utilisateurs soit susceptible d’être remise en cause.
 

La reconnaissance vocale en fonctionnement local permet une approche « sans compromis »

 
L’accès à l’état de l’art en matière de performance des technologies de reconnaissance vocale ne devrait pas porter atteinte à la vie privée de leurs utilisateurs, en particulier lorsqu’elles sont utilisées au sein de leur domicile ou dans un contexte professionnel. Au lieu de cela, les enjeux relatifs à la vie privée doivent être pris en compte dès la conception d’innovations respectueuses de la vie privée, développées dans l’intérêt des consommateurs et des utilisateurs.

C’est le cas des solutions d’assistants vocaux locales, qui ont le mérite d’être transparentes et compréhensibles par tous, et de permettre à l’utilisateur de garder le contrôle sur ses choix et sur ses données personnelles. Il est en effet techniquement possible de faire fonctionner l’ensemble des étapes de la reconnaissance vocale en local, du mot déclencheur à la reconnaissance vocale automatique en passant par la compréhension de langage naturel, tout en s’assurant d’une performance optimale et d’une expérience jamais dégradée pour l’utilisateur.

En d’autres mots, il est techniquement possible qu’un utilisateur ait chez lui un assistant vocal déconnecté n’envoyant pas ses données vocales sur des serveurs cloud. Il est finalement aussi possible que souhaitable que de telles solutions remplacent les assistants vocaux cloud, afin que les utilisateurs aient accès à l’état de l’art de la technologie sans avoir à accepter de compromis injustifiés en termes de protection des données personnelles.

L’œil de la revue Third

 
Comment concilier le progrès technique et la protection de la vie privée ? C’est une partie de la réponse à cette passionnante question que nous livrent ici Marion Bergeret et Joseph Dureau au nom de la société Snips, laquelle développe un logiciel d’assistance vocale dont la conception même a été placée sous le signe du respect de la vie privée. En somme, ne croyez pas ceux qui vous disent qu’un seul monde est possible !
 
www.third.digital

partager cet article
Partager sur

Ce site utilise des cookies d'audience afin d'améliorer la navigation et les fonctionnalités.