Opinions : Croquis mensuel de Pascal Francq – Mars 2016
Pascal Francq

Ces algorithmes qui nous façonnent

Alors que je finalisais mon billet, les Bruxellois ont été frappés, à leur tour, et après tant d’autres, par des attentats aveugles et meurtriers. J’ai été tenté de remplacer le billet prévu par une analyse des multiples racines de ces actes barbares. Mais les réactions à chaud sont rarement bonnes conseillères, et une analyse fine et équilibrée demande du temps (dans ce domaine comme dans d’autres).
J’ai dès lors préféré reporter la publication d’une telle analyse, et consacrer le billet de ce mois, comme initialement planifié, aux algorithmes utilisés par les outils en ligne (tels le classement de documents ou la suggestion de produits). Dans mon précédent billet, abordant les modes de financement de la culture à l’ère numérique, j’avais en effet pointé leur importance croissante dans nos vies.
Ces algorithmes s’inscrivent en fait dans une approche plus globale que j’appellerai l’informathématisation du monde. Celle-ci se caractérise, d’une part, par de grandes masses de données numériques disponibles – on parle d’ailleurs de «big data» (ou mégadonnées) – et, d’autre part, par le développement de modèles mathématiques et informatiques capables de les traiter (notamment ce que l’on nomme le «deep learning»).
Or cette approche n’est pas née de nulle part et découle, en partie, de besoins commerciaux. Elle tend surtout à nous enfermer dans un profilage excessif et à gommer nos différences. À terme, le risque est une forme de standardisation de l’être humain en un internaute-consommateur type.

Une triple évolution à l’origine de l’informathématisation du monde

Présentée essentiellement comme un progrès informatique avant tout, l’informathématisation du monde découle en fait de trois évolutions : une évolution épistémologique avec la mathématisation des sciences humaines, une évolution informatique qui culmine dans l’informatique dans les nuages, et une évolution économique avec la constitution d’une économie capitaliste du numérique.
Au-delà de la fascination qu’elles ont toujours exercée, les mathématiques envahissent les sciences humaines à partir de la seconde moitié du XXème siècle. Les sciences économiques et la sociologie en sont sans doute les meilleures illustrations [1, 2]. Progressivement, des ingénieurs, des mathématiciens et des informaticiens appliquent leurs outils à des problèmes de sciences humaines qu’ils ne saisissent pas toujours, tandis que les chercheurs en sciences humaines utilisent des outils qu’ils maîtrisent rarement.
Les progrès informatiques ont permis la mise en œuvre tous azimuts de cette mathématisation. Grâce d’abord à l’explosion de la puissance de calcul et des capacités de stockage. Mais aussi avec une nouvelle génération d’algorithmes d’apprentissages automatiques. La récente victoire d’un ordinateur sur un maître du jeu de go symbolise cette intelligence artificielle conquérante [3]. Désormais, on dispose d’infrastructures regroupant des millions d’ordinateurs et fournissant des outils pour récolter, stocker et exploiter de vastes quantités de données.
Ce sont principalement les entreprises privées du numérique qui financent ces infrastructures. D’une part, elles ont été les premières confrontées à de grandes quantités de données : Google Search répond quotidiennement, par exemple, à plus de 3 milliards de requêtes [4]. Ensuite, elles tirent leurs revenus en ligne (publicités, ventes, etc.) de leur capacité à cibler les internautes en exploitant ces mêmes données.
Alors que pendant longtemps l’imagination des chercheurs et des ingénieurs était bridée par des infrastructures informatiques limitées, les développements actuels offrent des possibilités quasi infinies. En pratique, les bénéfices attendus sont tels que ceux-ci sont encouragés à imaginer et à développer sans cesse de nouvelles applications.

Un optimisme technologique exagéré

Pour de nombreux enthousiastes, l’informathématisation du monde permet de considérer les phénomènes comme des boîtes noires réductibles à leurs entrées et leurs sorties. Il ne serait plus nécessaire de chercher des causalités, mais seulement des corrélations entre des choses : «l’important n’est plus le pourquoi mais le quoi» [4].
Ils citent, pour illustrer leur propos, une étude menée en 2009 par des chercheurs de Google, présentant un modèle capable de détecter des pandémies de grippe sur base des requêtes effectuées par les internautes [5]. Les chercheurs testent 450 millions de modèles mathématiques différents pour conclure qu’ils détectent de telles pandémies en scrutant 45 requêtes. Certains avancent qu’ils n’auraient postulé aucune hypothèse a priori, mais qu’ils auraient testé des millions de modèles pour identifier a posteriori celui collant le mieux aux données.
Mais ces travaux se basent bien sur une hypothèse : la propagation de la grippe dans une région donnée influence sensiblement les requêtes formulées par les internautes qui y vivent, et cela aussi bien dans une région rurale et vieillissante que dans une région urbaine et plus jeune. C’est oublier un peu vite la fracture numérique. D’ailleurs, une comparaison entre les prédictions du modèle des chercheurs de Google et la diffusion réelle de la grippe début 2013 révèle que ce dernier avait considérablement surestimé les pics de grippe [6].
Car ces algorithmes caractérisant l’informathématisation du monde ne sont pas infaillibles. Ils sont par exemple aussi au cœur des transactions à haute fréquence qui exécutent automatiquement toutes les quelques microsecondes un grand nombre d’opérations financières. Or, en août 2012, suite à une erreur de prédiction, un total de $ 440 millions seront perdus en 45 minutes [7] !
Mon objectif n’est pas de discréditer a priori ces algorithmes qui apportent indiscutablement des bénéfices (pensons simplement aux avancées en médecine rendues possibles grâce au séquençage). Je veux simplement souligner leurs limites lorsqu’ils sont appliqués à tout va. Or c’est justement ce qui se passe sur internet.

Quelques exemples d’algorithmes utilisés en ligne

Cette informathématisation du monde est en effet à l’œuvre dans la plupart des services en ligne. Les algorithmes de classement de documents et ceux de suggestions en ligne (achats, écoutes, etc.) ne sont finalement que deux exemples parmi tant d’autres. Ils impliquent aussi des hypothèses parfois discutables et se trompent régulièrement.
Google Search mobilise plus d’une centaine de critères pour classer les documents, l’algorithme PageRank restant probablement l’élément principal [A]  [A] En réalité, on ne connaît pas du tout le nombre réel de critères utilisés par Google Search, ni leur importance relative.. Ce dernier suppose qu’un document en ligne «de qualité» se caractérise par un grand nombre d’hyperliens le pointant [8]. Ce principe s’inspire des méthodes de bibliométrie [9]. Mais celles-ci sont souvent critiquées pour être manipulables et incapables de réellement mesurer la qualité d’un article [B]  [B] Notons que, malgré leurs imprécisions connues et reconnues, ces indicateurs issus de la bibliométrie sont aujourd’hui le principal (voire le seul) outil de prise de décision des universités. Le pire étant sans doute que peu de personnes remettent cet aveuglément en cause…. Faut-il dès lors s’étonner que pour la requête «truth about Holocaust» («la vérité sur l’Holocauste»), Google Search classe plusieurs sites négationnistes dans les premières positions [C]  [C] J’ai refait l’expérience au cours du mois de mars, et les résultats sont assez identiques. Google ne cautionne bien évidemment pas ces pages Web. Mais il prétend agir comme un agent neutre en ne (dé)favorisant aucune page Web en particulier, quel que soit son contenu. ?
Les algorithmes de suggestions posent également question, en particulier ceux dits de filtrage collaboratif. Ces derniers utilisent des similitudes de comportements en ligne (telles l’achat d’un livre) pour prédire les intérêts des internautes [D]  [D] L’exemple classique est «ceux qui ont acheté ce livre comme vous, ont également acheté ceux-ci». Les algorithmes actuels tiennent compte de nombreux critères supplémentaires (évaluations antérieures, sévérité des votants, etc.).. En pratique, ces algorithmes tendent à proposer prioritairement les produits les plus populaires. De plus, ils ne sont pas exempts d’erreurs : en 2006, le système de recommandations de Walmart propose à ceux qui ont acheté le DVD de La Planète des singes un documentaire sur Martin Luther King !
Certains ne se limitent pas à recommander, ils créent des contenus sur mesure. C’est notamment le cas de Netflix avec sa série «House of Cards» [10]. Les données de consommation de ses dizaines de millions de clients [E]  [E] Netflix ne se contente pas de savoir qui regarde quoi, il exploite toutes les informations sur les contenus visualisés (genre, longueur, interprètes, metteur en scène, musique, etc.) ainsi que les moindres faits et gestes de ses clients (pauses, avance rapide, etc.). ont décidé Netflix à racheter les droits de la série originale britannique et à choisir Kevin Spacey comme interprète principal. Certes, Netflix assure que ce sont des êtres humains qui gardent encore le contrôle créatif. Mais pour combien de temps encore ?

Quelle place pour la créativité et l’originalité ?

En effet, pourquoi prendre des risques si on peut prévoir ce qui plaira au public ? Une entreprise prétend ainsi prédire les revenus d’un film avant même que la première scène soit tournée [4]. Son algorithme croise des données sur le film prévu — comme son genre, sa durée, les acteurs qui l’interpréteront, etc. — avec des données passées sur tous les autres films déjà sortis. Si de tels algorithmes s’étendaient à l’ensemble du champ culturel, ne risque-t-on pas un appauvrissement généralisé ?
De fait, le principe même de l’informathématisation du monde consiste à utiliser les données du passé pour produire des données qui prédisent le futur. Tous ces algorithmes se basent dès lors sur une hypothèse plutôt réductrice : ce qu’on a aimé dans le passé décrit parfaitement ce qu’on va toujours apprécier. Comment alors prédire ce qui n’a pas déjà existé ?
On prête souvent à Henry Ford la phrase qui résume bien cette question : «Si j’avais demandé aux gens ce qu’ils voulaient, ils m’auraient répondu des chevaux plus rapides». Thomas Kuhn a montré comment la science évolue par une série de ruptures caractérisées par un changement de paradigme [11]. N’en est-il pas de même pour la musique, la littérature ou le cinéma ?
Si on se base exclusivement sur des succès artistiques antérieurs pour déterminer quelles œuvres financer à l’avenir, quelle place reste-t-il pour des œuvres intéressant peu de monde a priori ? On sait pourtant que de nombreux pionniers qui connurent les pires difficultés à leurs débuts, ont ensuite ouvert la voie à des générations d’artistes (par exemple Klaus Schulze pour la musique électronique).

Vers une uniformisation généralisée ?

En 1964, dans L'homme unidimensionnel, Herbert Marcuse dénonçait déjà les sociétés industrielles avancées qui, en créant sans cesse de nouveaux besoins de consommation, enferment progressivement les êtres humains dans une uniformisation généralisée [12]. En nous emprisonnant chaque jour un peu plus dans des algorithmes, l’informathématisation du monde ne contribue-t-elle pas à amplifier cette dérive ?
Si la masse de contenus accessibles en ligne (informations, produits, etc.) apparaît d’abord comme une formidable opportunité de découvertes, elle nous rend surtout dépendants des algorithmes. Ouvrez votre application de lecture en continu ou votre site d’achats préféré, et essayez de naviguer pour y trouver des choses qui vous intéressent : au bout de quelques minutes vous vous sentirez inexorablement attirés par les boutons «chercher» ou «découvrir».
Derrière ces boutons si pratiques se cachent des algorithmes. Or ceux-ci nous considèrent trop souvent comme de simples consommateurs-automates. S’ils prétendent tenir compte de nos spécificités, en réalité, en comparant en permanence le comportement des internautes, ils tendent à gommer toute individualité au profit d’un «individu moyen».
Prenons les moteurs de recherche et les sites de vente en ligne. Lors de nos premières utilisations, ils nous proposeront les pages et les produits les plus populaires. Sur base de nos choix, probablement parmi les premières suggestions, notre profil aura tendance à correspondre aux pages et produits les plus populaires. Par la suite, les pages et les produits qui nous seront suggérés risquent d’être fort similaires aux pages et produits les plus populaires. Nous nous retrouvons ainsi enfermés dans un cercle vicieux.
Une étude menée par des chercheurs de Facebook atteste même d’un réel risque de manipulation [13]. Ceux-ci ont effet réussi à influencer les émotions d’utilisateurs de Facebook en filtrant les commentaires positifs ou négatifs postés sur leur «mur». Outre les critiques formulées parce que les utilisateurs n’avaient pas été avertis qu’ils participaient à une expérimentation, cette étude démontre surtout la capacité des algorithmes à amener les internautes là où leurs développeurs le souhaitent.
Car ces algorithmes sont conçus par des entreprises commerciales dont l’objectif principal est, in fine, de réaliser des bénéfices. Elles ne cherchent donc pas a priori à nous faire découvrir des choses nouvelles, ni à encourager la création de contenus de qualité, mais souhaitent avant tout augmenter leur volume de ventes. Ces deux objectifs ne sont certes pas forcément toujours antinomiques. Il n’en demeure pas moins qu’ils sont fondamentalement différents.

Comment échapper à la dictature de l’informathématisation du monde ?

Avec l’incroyable abondance de contenus en ligne, il est impossible de se passer d’algorithmes. J’en suis un utilisateur suffisamment régulier pour en apprécier l’utilité, et j’ai un énorme respect, voire une certaine admiration, pour les ingénieurs et les informaticiens qui les conçoivent. Des outils comme Google Search sont indiscutablement des tours de force technologiques fantastiques.
Pour autant, je suis inquiet de leurs impacts. Je ne parle même pas des dangers de l’agrégation massive de données personnelles pour la vie privée, qui mériteraient à eux seuls qu’on s’interroge sur cette informathématisation du monde généralisée, mais simplement de leurs effets sur nos comportements et nos choix.
Ce qui m’alarme le plus est le manque d’esprit critique de nombreux chercheurs, ingénieurs et informaticiens qui conçoivent ces algorithmes. Ils sont en effet souvent prisonniers de ce que je nomme «l’habitus de la Silicon Valley» : la certitude absolue que toute innovation technologique constitue toujours une avancée pour l’humanité. Il me paraît dès lors crucial d’améliorer leur formation éthique.
Les lecteurs réguliers de mon blog ne s’étonneront pas que je plaide aussi pour une meilleure éducation numérique. Généralement, les internautes se contentent en effet d’un usage simpliste des outils (comme, par exemple, formuler une requête de quelques mots-clés seulement et consulter uniquement la première page de résultats). Il faut donc mieux leur expliquer l’utilisation des principaux outils, notamment en dévoilant quelque peu le principe de leurs algorithmes.
Mais mieux éduquer est difficile avec le manque de transparence actuel quant au fonctionnement de ces algorithmes. Impossible en pratique d’utiliser intelligemment les outils en ligne sans comprendre un minimum leurs algorithmes. Je défends dès lors une obligation d’information de la part des principaux fournisseurs de services en ligne [14] [F]  [F] Les sociétés pharmaceutiques et les entreprises agroalimentaires sont, elles, bien obligées de fournir des informations sur les substances actives et ingrédients de leurs produits !. Les moteurs de recherche pourraient ainsi être contraints de documenter les principaux critères qu’ils utilisent pour indexer et classer les documents [15].
Mais une telle transparence va à l’encontre des intérêts des entreprises du numérique qui considèrent leurs algorithmes comme un avantage compétitif à ne pas divulguer. Elles combattent du reste, à grand renfort de lobbying, toute forme de régulation. Préserver l’intérêt général m’apparaît d’ailleurs comme l’un des principaux enjeux d’internet aujourd’hui. Mais ceci est une autre histoire…

Références

[1] Michel de Vroey, « La mathématisation de la théorie économique. Le point de vue de l’histoire des théories économiques », Reflets et perspectives de la vie économique, XLI (4), pp. 9–20, 2002.

[2] Pierre-Michel Menger, « La sociologie face à la mathématisation », Enquête, 8, pp. 51–78, 1993.

[3] David Silver & al., «Mastering the Game of Go with Deep Neural Networks and Tree Search», Nature, 529(7587), pp. 484–489, 2016.

[4] Viktor Mayer-Schönberger & Kenneth Cukier, Big Data: A Revolution That Will Transform How We Live, Work, and Think, John Murray, 2013.

[5] Jeremy Ginsberg & al., « Detecting Influenza Epidemics Using Search Engine Query Data », Nature, 457(7232), pp. 1012–1014, 2009.

[6] Declan Butler, « When Google Got Flu Wrong », Nature, 494(7436), pp. 155‑–156, 2013.

[7] Scott Patterson, « High-Speed Stock Traders Turn to Laser Beams », The Wall Street Journal, 2014.

[8] Sergey Brin & Lawrence Page, « The Anatomy of a Large-Scale Hypertextual Web Search Engine », Computer Networks and ISDN Systems, 30(1), pp. 107–135, 1998.

[9] Massimo Franceschet, « PageRank: Standing on the Shoulders of Giants ». Communications of the ACM, 54(6), pp. 92–101, 2011.

[10] David Carr, «Giving Viewers What They Want», The New York Times, 2013.

[11] Thomas Kuhn, La structure des révolutions scientifiques, Flammarion, 1962.

[12] Herbert Marcuse, L’homme unidimensionnel, Les éditions de Minuit, 1964.

[13] Adam D. I. Kramer, Jamie E. Guillory & Jeffrey T. Hancock, « Experimental Evidence of Massive-Scale Emotional Contagion through Social Networks », Proceedings of the National Academy of Sciences, 111(24), pp. 8788–8790, 2014.

[14] Pascal Francq, Neutrality in internet regulation: three regulatory principles, essai technique, Paul Otlet Institute, 2015.

[15] Patrick Vogl & Michael Barrett, « Regulating the Information Gatekeepers », Communications of the ACM, 53(11), pp. 67–72, 2010.