Donner ses données

L’été technologique a notamment été marqué par la sortie du jeu mobile Pokémon Go. Alors que son succès est planétaire (130 millions de téléchargements le premier mois), d’autres s’inquiètent et/ou s’indignent de l’engouement qu’il suscite [1]. La vidéo virale filmant un mouvement de foule de joueurs chinois illustre autant l’enthousiasme autour du jeu, que son côté délirant, voire aliénant.

Une enquête menée par The Intercept met en lumière une autre interrogation soulevée par Pokémon Go : le traitement des données privées [2]. C’est que le jeu exige de ses utilisateurs qu’ils acceptent la récolte et le stockage de leurs données géolocalisées lorsqu’ils jouent.

De manière plus globale, la multiplication de services en ligne et d’applications mobiles «gratuites» repose en partie sur l’exploitation de nos données privées. Trois raisons expliquent cette intrusion numérique rampante : une gourmandise en données privées des acteurs du numérique, une notion de vie privée diluée et des mécanismes juridiques dépassés.

Pokémon Go, Google et les données privées

Le but du jeu Pokémon Go est somme toute assez simple : le joueur doit capturer un maximum de «Pokémon», des personnages issus du jeu vidéo éponyme de Nintendo et adaptés ensuite à des mangas. Ces derniers se trouvent un peu partout sur la planète.

Une des spécificités de Pokémon Go est de se baser sur la réalité augmentée, notamment sur la possibilité de superposer des images synthétiques sur les images du réel prises en continu par la caméra d’un smartphone (ou d’une tablette).

Concrètement, pour capturer un Pokémon, l’utilisateur utilise son smartphone. En fonction de sa position géographique, le jeu lui indique les Pokémon se trouvant à une certaine distance. Lorsqu’il est proche d’un Pokémon, le joueur peut le visualiser via la caméra de son smartphone. Puis, toujours avec son smartphone, tenter de le capturer.

Pour jouer à Pokémon Go, l’utilisateur accepte que le jeu collecte différentes informations personnelles, telles sa date de naissance ou la liste de ses contacts, mais aussi ses itinéraires géolocalisés effectués lorsque le jeu est activé.

Certes, d’autres applications demandent également l’accès à ce type de données. Mais généralement l’utilisateur peut désactiver certaines collectes particulièrement intrusives. En particulier, il peut protéger ses données de géolocalisation. Mais avec Pokémon Go, ce n’est pas possible : le principe du jeu même implique l’accès permanent aux données.

L’enquête citée plus haut révèle plusieurs éléments qui devraient freiner notre enthousiasme [2]. On y apprend ainsi que l’éditeur du jeu, Niantic, compte parmi ses investisseurs Nintendo, le créateur des personnages au cœur du jeu, mais aussi Google. Or, ce dernier effraye déjà par l’étendue de sa collecte de nos données personnelles.

Plus inquiétant encore est le fondateur de Niantic, John Hanke. Ce spécialiste de l’exploitation des données géolocalisées est un ancien collaborateur de… Google [2] ! Il y dirigeait notamment l’un des projets phares de Google, Google Street View. Il en assume la direction lorsque éclate le scandale né de son élaboration.

Pour construire Google Street View, Google a en effet envoyé des voitures munies d’une caméra aux quatre coins de la planète pour y filmer tous les endroits possibles et imaginables. Ne voilà-t-il pas qu’on découvre que ces voitures ne se sont pas contentées de photographier, elles ont également collecté toutes les données circulant sur tous les réseaux Wi-Fi non sécurisés qu’elles rencontraient [A] [A] Un réseau Wi-Fi, par exemple à son domicile privé, peut être sécurisé ou non. Lorsque le réseau est sécurisé, il faut disposer d’un mot de passe pour se connecter et toutes les données qui circulent sont cryptées. Par contre, si le réseau ne l’est pas, les données circulent «en clair» sur le réseau et sont donc accessibles à tout appareil situé à proximité du réseau Wi-Fi. Si la tendance actuelle est d’utiliser des réseaux sécurisés aux domiciles privés (même si ce n’est toujours pas encore systématique aujourd’hui), c’était moins le cas en 2010. [2].

Google dispose donc d’une masse de données privées (mots de passe, sites fréquentés, etc.) sur les usagers habitant les rues visitées par ses voitures et n’ayant pas de réseau Wi-Fi sécurisé. Une enquête de l’agence de régulation américaine des télécommunications indique que Google détient notamment des informations sur des sites de rencontres visités et sur des préférences sexuelles [3]!

Tout c’est passé sous la direction de John Hanke. De plus, l’ingénieur de Google qui a servi de bouc émissaire, mais qui travaille toujours pour le géant du numérique, est coauteur d’un brevet avec John Hanke. Ce brevet concerne l’accumulation de données personnelles à travers les jeux vidéo et est exploité aujourd’hui par… Niantic [2]. On vous aura prévenus !

La valeur marchande des données privées

Les Américains ont une célèbre expression : «There ain't no such thing as a free lunch». Elle rappelle que le monde capitaliste n’offre rien de gratuit. Or, depuis 1995, les infrastructures d’internet et les services en ligne sont quasi exclusivement proposés par des entreprises commerciales [4].

Ces dernières se doivent d’être rentables, ou du moins proposer à terme des perspectives de rentabilité [B] [B] De nombreuses entreprises numériques ne génèrent aucun bénéfice pendant de longues années. Mais le pari des investisseurs est que, lorsque les marchés arrivent à maturité, les entreprises leaders dans leur domaine verront leur chiffre d’affaires exploser, et seront donc rentables à terme. Amazon est le meilleur exemple de cette dynamique qui, par ailleurs, alimente aussi des bulles économiques.. Mais comment dégager des marges à partir de services gratuits (pensons simplement à Google Search, Facebook ou encore Twitter) ?

Chris Anderson identifie quatre modèles économiques de services gratuits [5]. Deux me semblent pertinents pour mon analyse : le «marché tripartite» et les «subventions croisées directes». Les deux autres sont plus anecdotiques [C] [C] Chris Anderson distingue également le modèle «freemium». Ici, une toute partie des utilisateurs payent pour un niveau de qualité supérieur, ces recettes permettant le financement d’un service de base gratuit pour la majorité des internautes. Dropbox illustre cette approche : on dispose tous de quelques Gb gratuits, mais on paye pour obtenir une plus grande quantité de stockage. Enfin, il existe aussi des «marchés non monétaires», par exemple les logiciels libres et open source..

Le marché tripartite est bien connu : une tierce partie finance un échange gratuit entre deux acteurs. C’est bien entendu le cas de la publicité en ligne. Actuellement, Google se rémunère principalement ainsi. En 2006, par exemple, la société rapportait dans son bilan un montant d’environ $10,5 milliards comme revenus publicitaires.

Tout le monde sait que la valeur d’une publicité se mesure à sa capacité à toucher le public visé. L’idéal est donc la publicité personnalisée : l’information distillée est ainsi adaptée précisément à chaque individu. Mais pour cela, il faut tout connaître de celui-ci.

Les entreprises numériques cherchent dès lors à centraliser un maximum de données nous concernant. Elles le font via leurs services (comme en analysant les requêtes effectuées ou les messages postés), mais aussi par le biais de rachats (tels YouTube par Google ou WhatsApp par Facebook).

Le marché tripartite peut prendre d’autres formes, dont la revente d’informations personnelles à des tiers. Imaginons le cas d’un assureur. On voit aisément tout l’intérêt qu’il aurait à connaître les recherches d’un affilié sur une maladie orpheline ou les sports extrêmes. En réalité, de très nombreuses entreprises trouveraient leur bonheur dans les données récoltées sur internet.

Quant aux subventions croisées directes, il s’agit pour l’essentiel d’inciter l’utilisateur à payer pour autre chose. Certains jeux gratuits, tels Pokémon Go, proposent à leurs utilisateurs d’acquérir certaines artefacts synthétiques. Ces derniers, souvent accessoires, se révèlent néanmoins très utiles pour progresser dans le jeu.

Sortons quelques instants notre tête des services en ligne, et essayons d’esquisser la stratégie de ces grands groupes numériques. Il apparaît clairement, autant à travers leurs acquisitions que par leurs programmes de recherche et développement, qu’ils cherchent à se diversifier.

Cette diversification industrielle n’est pas cantonnée au seul Web. Les géants du numérique investissent également l’internet des objets et les nombreuses applications de l’intelligence artificielle (voitures autonomes, médecine personnalisée, etc.). Or les techniques d’intelligence artificielle à la mode aujourd’hui (dites de «deep learning») sont très gourmandes en données.

Elles reposent principalement en effet sur leur capacité à extrapoler des caractéristiques représentatives d’ensembles importants d’échantillons. Par exemple, en croisant des données sur des lieux et des maladies chroniques identifiées chez des résidents, des logiciels pourraient «prédire» la dangerosité de certaines zones d’habitation par rapport à d’autres.

Grâce à la collecte massive de données, en particulier personnelles, les géants du numérique peuvent donc dégager des «informations consolidées». Les chercheurs de Google affirmaient ainsi en 2009 détecter des pandémies de grippe sur base des requêtes effectuées par les internautes [6]. Même si ses prédictions ont considérablement surestimé les pics de grippe [7], on voit clairement vers où se dirigent les acteurs du numérique.

Revenons maintenant à nos subventions croisées directes. Vous me voyez sans doute venir : pourquoi ne pas vendre aux internautes ces informations consolidées à haute valeur ajoutée tirées de l’exploitation de leurs données privées ? De fait, les entreprises numériques disposeront à l’avenir d’innombrables informations d’intérêt général, et elles essayeront certainement de les monnayer.

Un dernier modèle non traité par Chris Anderson existe : «l’exploitation du surtravail». Je me réapproprie ici un concept marxiste [8] : j’appelle surtravail toute quantité de travail effectuée gratuitement et accaparée par une entité qui en fera une exploitation commerciale [D] [D] Le bénévolat n’est donc a priori pas du surtravail puisque le travail ne fait pas l’objet d’une exploitation commerciale.. En effet, en utilisant certains services en ligne, nous travaillons parfois gratuitement pour leurs fournisseurs.

Pour être plus précis, nos données personnelles servent souvent aussi à améliorer la qualité de ces services. Google Search incorpore ainsi dans son classement le nombre de fois que les résultats sont cliqués [E] [E] Concrètement, lorsque l’internaute effectue une recherche, le moteur lui proposera plusieurs résultats sous la forme d’hyperliens. Chaque fois que l’internaute clique sur un lien, le moteur de recherche le retient. Ainsi, il connaît quelles sont les pages Web qui ont été le plus souvent visitées par ses utilisateurs pour différentes requêtes.. De même, Facebook utilise les «Like» pour choisir quels messages mettre en avant.

Quels que soient les modèles économiques mis en œuvre par les entreprises numériques, elles cherchent à rentabiliser leurs investissements, parfois colossaux. Par conséquent, chaque utilisation que nous faisons d’un service en ligne gratuit implique de facto une transaction commerciale (parfois décalée dans le temps et/ou impliquant des tiers).

Les utilisations cachées de nos données

Certains se demandent peut-être quel mal il y a à ce que des entreprises numériques exploitent commercialement nos données personnelles en échange d’une utilisation gratuite de leurs services. N’est-ce pas un gagnant-gagnant ? En fait, peut-être pas.

Tout d’abord, les entreprises numériques se distinguent généralement par leur total manque de transparence quant aux utilisations faites de nos données. Loin de se cantonner à une segmentation publicitaire, elles nous profilent toujours plus précisément, parfois aussi en influençant considérablement notre vision du monde.

Quels utilisateurs savent, par exemple, que des applications intégrées dans Facebook peuvent vendre des données récoltées au sein du réseau social à des tiers [9] ? Lesquelles ? À qui ? Mystère !

De même, qui a conscience du degré de personnalisation des résultats de Google Search ? Ainsi, les informations obtenues à partir d’une une recherche sur «BP» varient d’un profil à l’autre : les uns apprendront les opportunités d’investissement dans British Petroleum, les autres accéderont aux détails de la catastrophe «Deepwater Horizon» [10].

Or sans informations claires sur les utilisations faites de nos données, comment juger de l’équilibre entre intérêt des services accessibles et vie privée ? En démocratie, toute transaction est censée être basée sur le consentement mutuel. Mais comment consentir lorsque l’une des parties fait de la rétention massive d’informations ?

Je l’ai déjà maintes fois expliqué : de nombreux acteurs du numérique baignent dans un technodéterminisme enchanté que j’appelle l’habitus de la Silicon Valley. Celui-ci les désinhibent complètement quant aux risques liés à la perte de vie privée de leurs usagers.

Ces acteurs sont convaincus que l’accumulation des données privées permet de développer et d’alimenter des algorithmes informatiques toujours plus performants, ce qu’ils assimilent à l’intérêt général. Dès lors, il ne faut attendre aucune autorégulation en matière de protection de vie privée de la part des géants du numérique.

Enfin, rappelons aussi que les révélations d’Edward Snowden montrent que les informations collectées par les principaux services en ligne sont parfois transmises aux autorités américaines sans réel contrôle démocratique.

La perte de vie privée

Nous aurions donc tout intérêt à nous montrer des plus prudents lorsque nous utilisons des services en ligne. Pourtant, en principe, c’est rarement le cas. Divers éléments expliquent cela.

Il y a tout d’abord une évanescence de la notion de vie privée. Il y a quelques années, le fait que Google décortique les courriels envoyés par Gmail suscitait de nombreuses craintes. Plus personne ne semble s’en offusquer aujourd’hui.

L’omniprésence des applications numériques, en particulier les réseaux sociaux en ligne, contribuent à cette perte de vie privée. Il devient de facto de plus en plus compliqué dans nos sociétés occidentales de ne pas les utiliser : absent de Facebook, je me sens parfois exclu de mes cercles d’amis parce que je ne suis pas au courant d’une information qui y a été publiée.

On sait que Google exploite nos données personnelles au-delà de l’amélioration de la pertinence des résultats qu’il nous propose. Pourtant, Google Search continue de représenter plus de 90% de nos recherches. L’habitude des résultats ultra-rapides et sur-personnalisés nous aveugle sans doute partiellement.

De nombreux internautes ont également l’impression «qu’ils n’ont rien à cacher». C’est très certainement vrai par rapport à leurs propres «normes morales». Mais est-on sûr que ce qu’ils pensent être un comportement «normal» est considéré comme tel par tout le monde ?

En réalité, ce n’est pas le cas : la NSA considère, par exemple, les lecteurs du Linux Journal comme des terroristes en puissance justifiant une surveillance accrue [11]! Il est donc primordial de ne pas laisser des acteurs privés ou agissant hors de tout cadre démocratique décider quelles données collecter et pour quels usages.

Les «jeunes», plus particulièrement, semblent totalement se désintéresser des conséquences possibles de l’étalage de leur quotidien. Il en a sans doute été ainsi de tous temps. Mais la différence est qu’une information publiée en ligne de nos jours reste potentiellement disponible ad vitam æternam. Une simple recherche sur Google Search et on connaît (quasi) tout de quelqu’un.

D’ailleurs quand bien même on resterait déconnecté en permanence, rien de garantit notre vie privée. En effet, n’importe qui peut poster des vidéos de quelqu’un sur le Web sans son consentement. Le droit à l’oubli sur internet n’existe donc pas ! Le suicide d’une italienne il y a quelques semaines nous le rappelle brutalement [12] [F] [F] Une vidéo coquine de cette jeune femme s’est retrouvée diffusée partout sur le Web, y compris sur des sites pornographiques. Non seulement celle-ci était reconnaissable, mais son nom étant souvent associé aux vidéos. Harcelée et moquée dans la rue, la jeune femme a préféré se suicider que continuer à endurer cela..

Mais que fait la police ?

Certains lecteurs pourraient penser que j’exagère. Ils rappelleront, à juste titre, que l’Europe dispose d’une législation plutôt protectrice en matière de données privées. Il est a priori interdit, par exemple, de transférer ces dernières à un tiers.

Malheureusement, plusieurs réalités rendent nos lois moins providentielles, à commencer par la difficulté de les faire respecter.

Les principaux services en ligne utilisés par les Européens sont fournis par des entreprises américaines. Concrètement, chaque donnée que nous y injectons (recherche, commentaire posté, etc.) est automatiquement copiée sur des serveurs hébergés outre atlantique. Or les États-Unis ne disposent d’aucune approche cohérente en matière de protection de la vie privée [13].

Un protocole existe pourtant avec les États-Unis (le EU-US Pricacy Shield). Il prévoit que les entreprises américaines respectent les règles en vigueur en Europe lorsqu’elles manipulent des données privées d’usagers européens. Mais, en pratique, cela reste bien théorique !

De plus, les moyens efficaces manquent pour appliquer une décision de justice. Supposons qu’un site soit condamné à retirer une information violant la vie privée (telle une vidéo). Il est possible que cette dernière ait été recopiée avant et se retrouve sur plusieurs autres sites. Bonne chance pour tenter de la retirer du Web…

Surtout, la justice devient parfaitement inefficace dès lors que l’utilisateur accepte les conditions d’utilisation d’un service qui explicitent les différents usages. Or, trop souvent, les utilisateurs ne lisent même pas ces conditions.

Ainsi, lorsqu’on achète une poupée Barbie disposant d’un microphone, on «accepte» que toute parole captée sera «analysée» par Mattel [14]. Les conditions d’utilisation de Pokémon Go précisent d’ailleurs bien que les données récoltées seront exploitées au-delà des usages propres au jeu [2].

Une expérience menée par l’entreprise de cybersécurité F-Secure fait froid dans le dos [15] : en échange d’une connexion Wi-Fi gratuite dans un café, six personnes étaient prêtes à donner leur bébé ! Pour être plus précis, l’utilisation de la connexion demandait l’acceptation de conditions générales acceptées par ces six utilisateurs. Celles-ci précisaient notamment :

« En utilisant ce service, vous acceptez de céder votre premier né à l’entreprise F-Secure, lorsque celle-ci le demandera et selon les conditions fixées par elle. Si vous ne produisez aucun enfant, l’entreprise saisira en lieu et place votre animal de compagnie préféré. Les termes de cet accord sont valables pour l’éternité. » [15]

Cette expérience pourrait bien être l’équivalent de celle de Milgram pour notre XXIe siècle ultra-connecté !

Informer, éduquer et protéger

La multiplication des moyens de collecte (notamment avec l’internet des objets) et la possibilité de leur traitement tous azimuts posent des questions essentielles. Et elles ne peuvent que devenir plus pressantes au fur et à mesure des développements technologiques.

Si on peut parfaitement accepter que des entreprises commerciales qui proposent des services en ligne («gratuits» ou pas) y trouvent leur compte, cela ne peut se faire contre l’intérêt général. Plusieurs pistes existent pour remédier à cet état de choses.

Il est urgent d’obliger les fournisseurs de service en ligne à plus de transparence quant à l’usage qu’ils font des données transitant par eux. Quelles données sont stockées ? Dans quelles conditions ? Pour quels usages ?

Il convient également de mieux former les citoyens à l’utilisation des outils informatiques. Qui connaît, par exemple, les alternatives à Google Search qui ne profilent pas les utilisateurs (telles DuckDuckGo) ? De même, nous devons inciter les internautes (notamment les «jeunes») à se montrer plus parcimonieux en données publiées en ligne.

Je pense également qu’un débat autour de la notion de «services publics en ligne» mériterait d’être engagé. En particulier, ne serait-il pas pertinent d’envisager que certains services jugés d’intérêt général, par exemple un moteur de recherche, soient financés par des mécanismes publics qui en assurent la transparence et l’indépendance face à des logiques commerciales ?

Il faudrait surtout faire respecter les législations établies démocratiquement. Et peut-être se décider enfin à réellement sévir contre ceux qui les bafouent sans cesse. Et ce, même s’ils apparaissent «cool», portent des baskets et suscitent une certaine admiration. Mais ceci est une autre histoire…

Pascal Francq

Références

[1] William Audureau, «Pokémon Go ou l’inquiétant spectacle des gens qui s’amusent», Le Monde, 2016.

[2] Sam Biddle, «Privacy Scandal Haunts Pokemon Go’s CEO», The Intercept, 2016.

[3] P. Michele Ellison, Notice of Apparent Liability for Forfeiture, rapport DA 12-592, Federal Communications Commission, 2012.

[4] Pascal Francq, Internet: Tome 1, La construction d’un mythe, Editions Modulaires Européennes, 2011.

[5] Chris Anderson, Free ! Entrez dans l’économie du gratuit, Hyperion Books, 2009.

[6] Jeremy Ginsberg et al., « Detecting Influenza Epidemics Using Search Engine Query Data », Nature, 457(7232), pp. 1012–1014, 2009.

[7] Declan Butler, « When Google got flu wrong », Nature, 494(7436), pp. 155–156, 2013.

[8] Karl Marx, Capital Livre 1, Œuvres - Économie I, Gallimard, Pléiade, 1867.

[9] Andrew Griffin, «Facebook ‘Most Used Words’ game is collecting huge amounts of user data, can sell to whoever it wants», The Independent, 2015.

[10] Frédéric Joignot, «Sur Internet, l’invisible propagande des algorithmes», Le Monde, 2016.

[11] Kyle Rankin, «NSA: Linux Journal is an \», Linux Journal, 2014.

[12] Jérôme Gautheret, «Tiziana Cantone, martyre italienne du respect de la vie privée», Le Monde, 2016.

[13] Chris Hoofnagle, « Comparative Study on Different Approaches to New Privacy Challenges, in particular in the Light of Technological Developments - United States of America», Commission européenne, 2010.

[14] Jason Schultz, « The Internet of Things We Don’t Own? », Communications of the ACM, 59(5), pp. 36–38, 2016.

[15] Etienne Wery, «Du Wifi gratuit contre un bébé», Droit & Technologies, 2014.