Skip to main content
Lancer la vidéo

Algorithmes et données

Numéro 5 – 2020 - gouvernance algorithmique réseaux sociaux par Pierre de Buyl

juillet 2020

Du matin au soir, de la maison au travail, nous sommes entourés d’algorithmes. Certains que nous avons invoqués : le décompte du réveille-matin ou la retouche photo avant l’envoi sur Instagram. D’autres qui agissent à notre insu, voire contre notre gré : l’identification de votre plaque de voiture par des caméras ou le traçage de vos visites sur le web. La grande diversité dans la nature et la fonction des algorithmes reflète leur caractère omniprésent et leur utilisation croissante dans notre société. En remettant en avant le rôle d’outil joué par les algorithmes, je propose de démythifier leur usage et de découvrir les enjeux sociétaux trop souvent obscurcis par les aspects techniques. Je rappelle notamment le rôle que jouent les données et les méthodes utilisées pour les collecter.

Articles

Les algorithmes au quotidien : clés de lecture

Au travers de trois actions courantes au supermarché — l’addition à la caisse, le paiement par carte de banque et la collecte des données des consommateurs —, je fais la lumière sur les éléments qui entourent l’utilisation des algorithmes et la collecte des données.

Commençons par l’addition : combien allez-vous payer pour votre caddie ? Facile ! Le montant est calculé par la caisse enregistreuse après le scan de tous les articles. Vous pourriez aussi bien noter le montant de chaque étiquette et en faire l’addition, en soustrayant éventuellement le montant de réductions promotionnelles. L’algorithme de la caisse correspond à un contrat moral clair (vous payez la somme des prix des articles), est utilisé à un moment précis (quand vous passez à la caisse) et vous disposez des données nécessaires pour refaire le calcul : elles sont en rayon et vous pouvez les voir. L’affichage des prix et le paiement correspondant font par ailleurs partie des lois de protection des consommateurs.

Une fois le montant total calculé par la caisse, vous pouvez payer de façon électronique. Cette action est délibérée, mais elle implique une communication sécurisée. Le terminal de paiement (votre carte de banque et votre code PIN jouent aussi un rôle dans le cryptage), d’un côté, et les serveurs de la banque, de l’autre côté, utilisent des algorithmes cryptographiques pour authentifier la demande de transaction avec votre accord. Le contrat moral est clair, mais les détails échappent à votre contrôle direct et les données sont gérées directement par la banque. Vous pourrez cependant vérifier le résultat sur vos extraits de compte.

Lorsque vous quittez le supermarché, la relation informatique entre vous et l’entreprise n’est pas terminée ! Les achats des clients sont collectés dans une base de données à plusieurs finalités : gérer l’approvisionnement des magasins, mais aussi étudier les comportements d’achat des clients. Les supermarchés peuvent aussi adapter leur stratégie commerciale en fonction de l’analyse de ces données. Ce travail se déroule hors du regard des clients. Vous pouvez y prêter assistance, si vous le souhaitez, en utilisant la carte de fidélité du magasin. Cette dernière permettra la mise au point d’un profil client et un ciblage via les coupons de réduction envoyés par courrier.

Les algorithmes et leurs « contrats » sont représentés dans le tableau. Le contrat moral illustré ci-dessous reste une simplification de la réalité. À l’objectif annoncé d’un outil informatique se superposent d’autres considérations commerciales comme l’ajout de contenus publicitaires ou la proposition de produits ou services non sollicités.

Algorithme Contrat moral Origine et stockage des données Contrôle du résultat final
Total à la caisse Le consommateur paie ses achats Les prix sont disponibles sur les étiquettes, vous pouvez les copier manuellement Possible directement
Paiement électronique Le compte en banque est débité du montant affiché sur le terminal La banque gère le fonctionnement du système et stocke les transactions Possible à postériori
Analyse des achats Aucun Le magasin collecte les données. Il est en principe possible de les consulter sur demande écrite grâce au RGPD Non, le processus est opaque

Chercher sur internet avec PageRank

Google s’est imposé comme le moteur de recherche le plus populaire pour le web grâce à l’algorithme PageRank. En 1998, les fondateurs de Google publient un article qui explique les bases de Pagerank, alors que les développements ultérieurs se font de façon confidentielle au sein de l’entreprise. L’élément qui différenciait alors Google de la concurrence était la prise en compte non seulement du contenu des pages, mais aussi de la relation de dépendance des pages entre elles : une page qui est pointée par de nombreuses autres via des liens hypertextes gagnera en importance dans le classement. L’analyse de cette interdépendance se fait par le biais de matrices qui encodent les liens entre les pages. PageRank résout le problème d’algèbre linéaire de « valeur propre » pour identifier les pages qui sont le mieux placées dans le réseau de liens. Google collecte alors les données en parcourant un maximum de pages web, en suivant les liens dans chacune d’elles, de façon automatisée.

Google a apporté un grand nombre d’améliorations à son moteur de recherche en reconnaissant des requêtes typiques. Les calculs simples sont reconnus (essayez donc « 7 * 19 » ou « racine carrée de 2 »), les lieux, les personnalités ou les éléments chimiques donnent chacun lieu à une fiche informative sur la page de résultats sans visiter de site hors de Google donc. Une des améliorations récentes utilise la reconnaissance de sens dans le texte de l’utilisateur, en exploitant une technologie de « Natural Language Processing ». Google a développé un programme (BERT) à la pointe du domaine pour identifier encore mieux les éléments de langage. Le moteur de recherche stocke aussi vos requêtes passées pour personnaliser, en combinaison avec votre localisation géographique, les résultats de vos recherches.

Google génère des revenus publicitaires de ses services web, dont la recherche sur le web n’est que la plus connue. Le contrat moral de base est de fournir des résultats de qualité, mais il se trouve modifié : un effet de la publicité est l’apparition de résultats sponsorisés — et affiché comme tels — au sommet ou au bas de la page de résultats. Google inclut également pour certaines recherches des résultats qui font une concurrence à d’autres services web comme les comparateurs de prix pour les billets d’avion, au grand dam de ces plateformes qui luttent par voie légale contre Google. Les résultats dans Google Maps, le service de cartographie et de recherche sur une base géographique de Google, ouvrent une nouvelle source de rentrées d’argent. En effet, quel commerce peut se passer d’avoir un ballon d’information correct avec ses coordonnées, ses horaires et un lien vers sa page web sur les cartes de Google ?

Pour finir cette analyse de Google, il est aussi intéressant de savoir que certains internautes réussissent à manipuler les résultats en utilisant la principale de base de PageRank : ils·elles ajoutent des liens vers un site web, en y associant éventuellement des mots-clés bien choisis, sur de nombreux autres sites web. Il est possible de cette façon de faire monter en tête des résultats une page choisie. L’exemple qui a fait le plus de bruit était l’affichage de la page officielle de George W. Bush, sur le site de la Maison Blanche, pour la requête « miserable failure ».

À moindre échelle, des techniques similaires sont utilisées par les experts en SEO (Search Engine Optimization / optimisation des moteurs de recherche) dont l’objectif est d’améliorer la visibilité des sites internet de leurs clients.

Le cas de Google est emblématique car c’est l’acteur dominant sur le marché de la recherche et de ce fait la porte d’entrée vers le web pour environ 90% des internautes. Google est bien conscient qu’il est nécessaire de cultiver son image par rapport à la vie privée et à l’impact sociétal de son activité et a adopté dès 2000 la devise « don’t be evil » (« ne sois pas mauvais »).

Pour un algorithme, on ne dit pas erreur, mais biais

Les enthousiastes de technologie et de bonne gestion n’hésitent pas à mettre en avant le caractère objectif des algorithmes car, après tout, ils sont formulés sous forme de processus mathématique. Partant de là, il semble logique d’appliquer ces outils dans la gestion du gouvernement et des entreprises. Cependant, les mathématiques ne font pas tout et il faut prêter attention à la façon dont on conçoit, « règle » et analyse les algorithmes.

Il y a plusieurs sources de biais dans les algorithmes, c’est-à-dire que le programme qui implémente un algorithme fournit des résultats qui ne correspondent pas au contrat moral. Un exemple étonnant : un distributeur automatique de savon pour laver les mains ne s’activait pas pour les peaux foncées ! L’algorithme était-il raciste ? Dans ce cas, la cause du biais se trouve dans les données utilisées pour son entrainement, lesquelles ne présentaient pas de diversité de couleur. Pour une gamme d’algorithmes dans ce qu’on appelle le « machine learning », il est, en effet, nécessaire de fournir une série de données d’essai grâce auxquelles l’algorithme peut se régler. (Dans ces algorithmes, il y a une série de paramètres inconnus avant cet apprentissage. Cela les différencie des opérations arithmétiques telles que l’addition.) Le résultat est que le biais dans le choix des données d’entrainement se reflète dans la qualité de l’algorithme après apprentissage.

Petit à petit, les algorithmes se mettent au service du gouvernement. Le ministère de l’Enseignement francophone en Belgique a adopté le décret inscription qui définit les critères de priorité pour les listes d’inscription dans la première année du secondaire. Le décret adopte une vision technologique du problème et définit précisément comment les points de priorité sont obtenus et la nature de l’algorithme utilisé. On peut trouver sur le site web officiel une explication de l’algorithme qui calcule le score des candidats. Cette démarche de clarté technique reste à mettre en balance avec l’organisation du processus d’inscription.

Dans le futur, il est probable que la mise en place de solutions informatiques s’étende à d’autres domaines, comme c’est déjà le cas dans le système judiciaire aux États-Unis. C’est à mon avis un domaine où la plus grande prudence doit être exercée et dans lequel le progrès « pour le progrès » ne peut écraser nos libertés et droits fondamentaux.

En Belgique, le gouvernement Michel a souhaité préparer le futur en investissant dans une infrastructure informatique pour la police, dénommée ambitieusement e‑police. Les premières déclarations du ministre Jambon portaient sur la possibilité pour la police d’utiliser l’intelligence artificielle à des fins de réduction de la criminalité, sans plus de détail sur la méthode qui permettrait d’obtenir un tel résultat. Lors d’une intervention ultérieure au Parlement, il est apparu que les premières décisions concernaient, plus modestement, un système modernisé de collecte et de traitement de données. Quoi que les gouvernements successifs décident, la problématique des données précède l’utilisation des algorithmes de police.

Vos données fuitent, aujourd’hui et demain

Les mathématiciens, informaticiens et autres experts conçoivent des algorithmes qui contrôlent de plus en plus d’aspects de nos vies professionnelles, publiques et privées. La complexité des algorithmes ne peut obscurcir ni les questions légitimes des acteurs de la société ni le rôle de premier plan que jouent la collecte et le stockage des données. En guise de perspective, je présente quelques exemples récents ou en cours de développement.

Sous couvert du manque de contrôle des processus informatiques, certaines dérives sont déjà observées. En Belgique, le quotidien De Morgen a récemment découvert que certains médecins de compagnies d’assurances accédaient aux données de patients, ces pratiques allant à l’encontre de la législation et du contrat moral qui régit l’accès à ces données. Loin d’être technologique, une solution pourrait être d’interdire aux médecins liés à une entreprise d’assurance tout accès aux données des patients. Dans ce cas, c’est la presse qui a mis le problème en évidence, mais le contrôle parlementaire pourrait aussi jouer ce rôle. Les institutions démocratiques sont donc amenées à jouer un rôle essentiel dans le monde des algorithmes et des données.

Google travaille de façon délibérée à briser les barrières entre vos différentes activités numériques : les informations liées aux plateformes de Google (recherche web, gmail, YouTube) et celles collectées via son réseau de publicité en ligne peuvent être combinées depuis 2016. Depuis quelques années, Google développe également la combinaison de son réseau publicitaire avec les publicités télévisées. Votre historique de navigation et de recherche en ligne peut dans ce cas être utilisé pour profiler les publicités sur votre télévision. Cette pratique s’ajoute à la collecte de données par les télévisions intelligentes (smart TV).

La prochaine « révolution » de l’industrie numérique est l’internet des choses (IoT, Internet of Things). L’objectif est de connecter un maximum d’appareils à internet : frigo, compteur électrique, machine à laver, voiture, commande du chauffage central, sonnette de porte d’entrée, etc. Une des conséquences est le déversement d’une nouvelle gamme de données concernant votre vie privée dans les mains des entreprises qui vendent ces fonctionnalités.

Pierre de Buyl


Auteur

docteur en sciences physiques de l’université libre de Bruxelles. Il est assistant scientifique à l'Institut royal météorologique, http://pdebuyl.be/
La Revue Nouvelle
Résumé de la politique de confidentialité

Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.