Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.
Démocratiser les outils statistiques
Les débats médiatiques et politiques actuels sur nombre de sujets font appel à des statistiques. La Covid-19, les flux migratoires, les évaluations scolaires, les inégalités… autant d’exemples où l’on voit un usage abondant de chiffres tirés d’échantillons, où l’on discute du lien entre des variables, où l’on s’interroge sur la portée d’une proportion ou d’une différence, […]
Les débats médiatiques et politiques actuels sur nombre de sujets font appel à des statistiques. La Covid-19, les flux migratoires, les évaluations scolaires, les inégalités… autant d’exemples où l’on voit un usage abondant de chiffres tirés d’échantillons, où l’on discute du lien entre des variables, où l’on s’interroge sur la portée d’une proportion ou d’une différence, voire d’une causalité.
Ces statistiques sont au cœur de nombre de commentaires, d’interprétations ou encore de justifications. Et, force est de constater que, dans la presse, sur les réseaux sociaux, dans les débats politiques, il y a un véritable déficit de maitrise de concepts statistiques de base.
Prenons un exemple simple : l’inférence d’une proportion à une population, par exemple une part de votes pour une élection à suivre. L’inférence implique de se reposer sur la théorie des probabilités, donc d’estimer la chance qu’il y a que ce qu’on observe dans un échantillon soit effectivement généralisable à toute une population et le risque d’erreur associé à cette généralisation. Par exemple, on tente d’estimer à quel point le score d’un parti observé dans un échantillon de futur·es votant·es est effectivement le score que le parti ferait si tou·tes les électrice·teurs devaient voter. Or cette estimation repose nécessairement sur deux paramètres indissociables : la marge d’erreur et le niveau de confiance.
Il est dès lors fascinant de constater que parmi les commentateurs·trices qui tiennent compte de la marge d’erreur, très rares sont ceux qui rappellent que celle-ci ne tient que pour un niveau de confiance donné. Par défaut, on choisit un niveau de confiance de 95 %: c’est une sorte de standard. Mais celui-ci signifie qu’il y a une erreur intrinsèque liée au fait de regarder un échantillon et pas une population, que cette erreur est impossible à éviter, et qu’elle est de l’ordre de 5 %. Autrement dit, il y a environ 5 % de chances que les valeurs que j’obtiens dans mon sondage, même en tenant compte de la marge d’erreur, soient à côté des valeurs réelles.
Mieux encore, ce calcul n’est valable que si mon échantillon de sondés est probabiliste c’est-à-dire tiré aléatoirement dans la population qui m’intéresse. Sachant que l’aléatoire ici se réfère au hasard mathématique qui postule que chaque personne appartenant à la population ait des chances non nulles et calculables de faire partie de cet échantillon. Or c’est rarement le cas : on a souvent des panels qui sont recrutés via le web ; ce qui amène des « biais de sélection » (par exemple, les panelistes diffusent entre elleux le lien du sondage : souvent, iels se connaissent et appartiennent au même milieu social). Il existe ce qu’on appelle des techniques de « redressement des scores » qui permettent de corriger, dans une certaine mesure, les résultats du sondage en tenant compte du fait que l’échantillon n’est pas complètement aléatoire. Mais ces techniques peuvent aussi être source d’autres erreurs. Or la méthode d’administration du sondage (en ligne, via un panel préconstruit, en tirant au sort, …), comme le fait que l’on a utilisé une technique de redressement n’est presque jamais indiquée même dans les notes de bas de page des articles qui les commentent. Il faut chercher — parfois longtemps — les notices techniques des instituts de sondage pour réussir à obtenir ces informations qui permettent pourtant d’évaluer la qualité des données que l’on regarde.
Nombre de commentaires ignorent aussi des « effets » bien connus des scientifiques. Prenons là encore un exemple : le « paradoxe de Simpson ». Il apparait lorsqu’on regarde deux groupes qui ont des propriétés très différentes comme s’ils ne faisaient qu’un seul grand groupe homogène. Comme illustration, on peut prendre l’exemple des mort·es de la Covid-19. Si l’on ne tient pas compte de la structure d’âge, il apparait que le taux de mortalité des vacciné·es est près de 30 % supérieur au taux de mortalité des non-vacciné·es. On pourrait en conclure que le vaccin est inefficace (voire même dangereux pour la santé!), mais ce serait faire une erreur statistique. En fait, on doit absolument tenir compte de la structure d’âge si l’on veut poser une interprétation de cette statistique. Notons qu’il y a beaucoup plus de personnes âgées dans la population de vacciné·es (puisqu’elles ont été prioritaires pour la vaccination) et que celles-ci sont, dans tous les cas, beaucoup plus menacées par la maladie (l’âge est un facteur très important dans le risque de développer une forme sévère). On a donc dans les groupes des vacciné·es et des non-vacciné·es des distributions d’âge totalement différentes, sachant que, comme exposé, le risque de développer une forme sévère de maladie est corrélé à l’âge. Sachant cela, si l’on sépare la population en deux groupes d’âge, les plus de 50 ans et les moins de 50 ans, on arrive au résultat suivant : le taux de mortalité est 600 % plus grand chez les non-vacciné·es de plus de 50 ans et le taux de mortalité est de 80 % plus élevé chez les non-vacciné·es de moins de 50 ans. Et la conclusion sur l’efficacité du vaccin devient tout autre : son efficacité apparait, juste par cette petite opération (rigoureusement indispensable) de « séparation » des deux groupes.
Une absence de culture statistique
Comme le montrerait sans équivoque une étude auprès d’un échantillon aléatoire de lectrices et lecteurs, le type de raisonnement que l’on vient de faire ne constitue en rien un réflexe fréquent. On doit donc faire le constat d’une absence de « culture statistique » commune. Les outils statistiques restent utilisés par une part (très) limitée de la population, en dépit de ce que les statistiques sont pourtant un passage obligé de l’enseignement secondaire. Qu’en comprendre, qu’en déduire ?
Il y a une évidence : l’enseignement des statistiques constitue une épreuve formelle absolument insupportable pour des générations d’élèves et d’étudiant·es. Considérées comme « la discipline à pète », les statistiques sont toujours vues comme compliquées, abstraites, ultramathématiques. Pourtant, les statistiques reposent largement sur des concepts qui ne sont pas à proprement parler mathématiques, mais tirés de l’observation de phénomènes naturels ou sociaux.
Les mathématiques sont souvent dispensables pour comprendre les méthodes statistiques, pour appréhender ce qu’elles « font » — pas forcément dans les moindres détails, mais au moins dans les principes fondamentaux. La « haine des maths », qui se couple à une peur des statistiques, est d’autant plus forte que le vieux clivage « littéraire » et « scientifique » continue à faire des ravages. Cette spécialisation, qui trouve son origine dans le positivisme du XIXe siècle et dans des travaux (dont une large partie est désormais récusée) du milieu du XXe siècle opposant « création » et « logique », est complètement artificielle. Prenons l’exemple de Pierre Bourdieu : plus littéraire comme profil, c’est impossible ! Formé à l’École normale supérieure, il est agrégé en philosophie. Il s’intéresse à la sociologie sur le tard, en commençant par des études ethnographiques. Et pourtant, plusieurs de ses plus célèbres ouvrages reposent sur des techniques de statistiques (notamment La Reproduction et La Distinction). Quand on lit Bourdieu, on se rend compte qu’il ne maitrise pas le vocabulaire mathématique en détail, mais qu’il comprend parfaitement ce que produisent les outils qu’il utilise. Issus en grande partie des travaux de Jean-Paul Benzécri, ces outils ne sont pas simples à construire, et parfois leur écriture en langage mathématique est absolument décoiffante ! Pourtant, Bourdieu arrive à en appréhender les principes fondateurs, à la suite des échanges entre les deux chercheurs, qui se connaissent depuis l’École normale. Leur optique était claire dès les années 1950, comme le notait Jean-Paul Benzécri en 2005 : « le savoir ne se sectionne pas ! ». Par leur amitié, ils ont fait fi de ce clivage absurde entre « littéraires » et « scientifiques », aboutissant à une collaboration intellectuelle extrêmement productive. Et surtout à ce que Bourdieu, le littéraire, arrive à développer une culture statistique essentielle à l’utilisation adéquate des outils d’analyse de données.
Il n’y a en réalité aucune fatalité, aucun découpage « naturel » du monde entre « ceux qui sont capables » de « faire des stats » et les autres. Il y a une construction sociale extrêmement questionnable qui provoque la mise à distance d’une part gigantesque de la population d’un savoir pourtant de plus en plus utile.
Un enjeu démocratique
Comme le souligne très joliment Myriam Rasch, notre société est marquée par le développement d’une obsession de la prévision. La promesse des géants du web, les « Gafam » est ainsi de produire une prévisibilité parfaite des comportements des utilisateurs et utilisatrices de leurs produits (en termes de consommation, mais pas uniquement). Or la question de la « prévision » est intimement liée à l’usage des statistiques et des probabilités.
La manière dont les gouvernements s’emparent de questions comme les conséquences du réchauffement climatique global est souvent exemplaire de la recherche d’un même modèle parfaitement prédictif. Mais en l’espèce, nous sommes confrontés à des phénomènes hautement « non linéaires », c’est-à-dire qui peuvent s’accélérer soudainement, à la suite d’un « basculement », ce qui rend la prédiction parfaite impossible : au mieux peut-on dégager des tendances « probables ».
Au-delà de ces considérations, il est important de considérer l’instrumentalisation des chiffres par les « faiseurs d’action ». Les statistiques et les probabilités sont sans cesse amenées à appuyer des propositions de réformes de l’organisation collective. Comprendre la qualité des chiffres recueillis et des projections qu’ils permettent, la manière dont ils justifient ou non ces propositions est, dans un tel cadre, un enjeu démocratique majeur. Insistons : sans un minimum de culture statistique, il est impossible d’évaluer dans quelle mesure des indicateurs construits sont fiables et surtout comment ils peuvent éventuellement être interprétés. Cela signifie, en d’autres termes, que la diffusion d’une culture statistique est de plus en plus indispensable pour pouvoir appréhender les réformes en cours, comprendre leurs points forts et leurs limites.
On notera toutefois que si elle est nécessaire à cet exercice d’analyse, la culture statistique n’est pas suffisante : il faut encore réfléchir à la qualité des données initiales, à leur mode de collecte et de production, ou encore pouvoir disposer des données sources ! Et en la matière, la Belgique reste dramatiquement arriérée. Un exemple : les données de trajectoires des étudiant.es du supérieur, où l’on a plus de trente ans de retard sur nos voisins européens en matière de mise à disposition des données et d’études systématiques (ce qui n’empêche pas de réaliser des réformes)1.
Mais l’analyse des politiques n’est pas le seul endroit où la diffusion d’une culture statistique est un véritable enjeu. La montée en puissance des faits alternatifs montre bien qu’une série de forces idéologiques n’hésitent pas à nier le réel pour appuyer leur discours. Et l’un des outils qui vise, originellement, à tenter de toucher le réel est justement la statistique. Elle est donc particulièrement menacée par ces groupes, qui vont tantôt brandir les chiffres qui leur plaisent sans aucune mise en contexte ou tantôt hurler « oui mais les chiffres on leur fait dire ce qu’on veut, ils sont donc faux ! ». Cependant ceci est faux : on ne fait pas « dire ce qu’on veut » aux chiffres si on les examine avec un petit peu de rigueur… Et ce, d’autant moins que l’on maitrise la culture statistique. On aboutira peut-être d’ailleurs à la conclusion qu’un chiffre ne peut effectivement rien dire (ce qui est bien différent de lui faire dire ce que l’on veut), parce qu’en considérant la manière dont il a été établi, on se rend compte d’une série d’erreurs logiques. Le souci, c’est que le rejet des stats, souvent lié aux traumatismes scolaires, s’accompagne fréquemment en réalité du rejet de toute démarche cherchant à atteindre une réalité autre que le récit que se construit chaque individu au sujet de ses propres expériences.
Démocratiser les outils statistiques est donc un enjeu démocratique crucial. Pourtant force est de constater qu’en la matière, les initiatives sont rares et timides. Pire encore, elles se fondent sur l’hypothèse que « les statistiques, c’est compliqué ». Alors qu’en fait, souvent… non ! Les méthodes sont souvent assez simples ; c’est ce qu’elles tentent de décrire qui est complexe. Mieux, la statistique est amusante, parce qu’on peut appliquer ses outils aux domaines qui nous passionnent (de la boulangerie au levain aux rencontres en ligne, de l’étude des habitudes d’écoute du hard rock au jeu de Michael Jordan, des tics de langage de personnalités politiques à la diffusion d’une information sur Twitter) et en tirer des résultats très surprenants. Ce sont des outils démultiplicateurs de la curiosité intellectuelle qui permettent de nourrir des réflexions et de poser sans cesse plus de questions. Et si tous les enseignant.es pouvaient les proposer comme tels, il n’y a aucun doute que la matière serait déjà nettement plus agréable à enseigner et à suivre.
Démocratiser les outils statistiques, c’est enfin ouvrir la boite noire de la production scientifique. C’est permettre de faire renouer « science » et « opinion » sous forme d’une invitation au dialogue. Plutôt que de continuer sans fin (et sans effet) à se lamenter sur la perte de toute rationalité, ouvrir un véritable chantier de démocratisation des outils statistiques participerait d’un programme concret de remobilisation. Cela implique que les chercheurs et chercheuses renoncent à un monopole, autrement dit que les stats ne soient plus un outil de distinction des universitaires. Que la démocratisation des savoirs redevienne de toute urgence une priorité à l’agenda de toutes et tous… contre les logiques d’excellence et d’efficacité qui reviennent à accepter la mise à l’écart de certaines ressources intellectuelles de parts larges de la population, à commencer par les classes populaires.
Merci à tout le comité de rédaction de La Revue nouvelle, et particulièrement à Sophie André, Charlotte Maisin et Geneviève Warland, pour leurs relectures minutieuses de ce texte.
- Il sort du cadre de cet édito de détailler l’ensemble des enjeux que regroupe l’idée d’une « démocratisation des statistiques », au-delà des outils, mais nous ne manquerons pas d’y revenir dans le futur au travers d’une réflexion collective.