Skip to main content
logo
Lancer la vidéo

Démocratiser les outils statistiques

Numéro 1 – 2022 par Renaud Maes

février 2022

Les débats média­tiques et poli­tiques actuels sur nombre de sujets font appel à des sta­tis­tiques. La Covid-19, les flux migra­toires, les éva­lua­tions sco­laires, les inéga­li­tés… autant d’exemples où l’on voit un usage abon­dant de chiffres tirés d’échantillons, où l’on dis­cute du lien entre des variables, où l’on s’interroge sur la por­tée d’une pro­por­tion ou d’une différence, […]

Éditorial

Les débats média­tiques et poli­tiques actuels sur nombre de sujets font appel à des sta­tis­tiques. La Covid-19, les flux migra­toires, les éva­lua­tions sco­laires, les inéga­li­tés… autant d’exemples où l’on voit un usage abon­dant de chiffres tirés d’échantillons, où l’on dis­cute du lien entre des variables, où l’on s’interroge sur la por­tée d’une pro­por­tion ou d’une dif­fé­rence, voire d’une causalité.

Ces sta­tis­tiques sont au cœur de nombre de com­men­taires, d’interprétations ou encore de jus­ti­fi­ca­tions. Et, force est de consta­ter que, dans la presse, sur les réseaux sociaux, dans les débats poli­tiques, il y a un véri­table défi­cit de mai­trise de concepts sta­tis­tiques de base.

Pre­nons un exemple simple : l’inférence d’une pro­por­tion à une popu­la­tion, par exemple une part de votes pour une élec­tion à suivre. L’inférence implique de se repo­ser sur la théo­rie des pro­ba­bi­li­tés, donc d’estimer la chance qu’il y a que ce qu’on observe dans un échan­tillon soit effec­ti­ve­ment géné­ra­li­sable à toute une popu­la­tion et le risque d’erreur asso­cié à cette géné­ra­li­sa­tion. Par exemple, on tente d’estimer à quel point le score d’un par­ti obser­vé dans un échan­tillon de futur·es votant·es est effec­ti­ve­ment le score que le par­ti ferait si tou·tes les électrice·teurs devaient voter. Or cette esti­ma­tion repose néces­sai­re­ment sur deux para­mètres indis­so­ciables : la marge d’erreur et le niveau de confiance.

Il est dès lors fas­ci­nant de consta­ter que par­mi les commentateurs·trices qui tiennent compte de la marge d’erreur, très rares sont ceux qui rap­pellent que celle-ci ne tient que pour un niveau de confiance don­né. Par défaut, on choi­sit un niveau de confiance de 95 %: c’est une sorte de stan­dard. Mais celui-ci signi­fie qu’il y a une erreur intrin­sèque liée au fait de regar­der un échan­tillon et pas une popu­la­tion, que cette erreur est impos­sible à évi­ter, et qu’elle est de l’ordre de 5 %. Autre­ment dit, il y a envi­ron 5 % de chances que les valeurs que j’obtiens dans mon son­dage, même en tenant compte de la marge d’erreur, soient à côté des valeurs réelles.

Mieux encore, ce cal­cul n’est valable que si mon échan­tillon de son­dés est pro­ba­bi­liste c’est-à-dire tiré aléa­toi­re­ment dans la popu­la­tion qui m’intéresse. Sachant que l’aléatoire ici se réfère au hasard mathé­ma­tique qui pos­tule que chaque per­sonne appar­te­nant à la popu­la­tion ait des chances non nulles et cal­cu­lables de faire par­tie de cet échan­tillon. Or c’est rare­ment le cas : on a sou­vent des panels qui sont recru­tés via le web ; ce qui amène des « biais de sélec­tion » (par exemple, les pane­listes dif­fusent entre elleux le lien du son­dage : sou­vent, iels se connaissent et appar­tiennent au même milieu social). Il existe ce qu’on appelle des tech­niques de « redres­se­ment des scores » qui per­mettent de cor­ri­ger, dans une cer­taine mesure, les résul­tats du son­dage en tenant compte du fait que l’échantillon n’est pas com­plè­te­ment aléa­toire. Mais ces tech­niques peuvent aus­si être source d’autres erreurs. Or la méthode d’administration du son­dage (en ligne, via un panel pré­cons­truit, en tirant au sort, …), comme le fait que l’on a uti­li­sé une tech­nique de redres­se­ment n’est presque jamais indi­quée même dans les notes de bas de page des articles qui les com­mentent. Il faut cher­cher — par­fois long­temps — les notices tech­niques des ins­ti­tuts de son­dage pour réus­sir à obte­nir ces infor­ma­tions qui per­mettent pour­tant d’évaluer la qua­li­té des don­nées que l’on regarde.

Nombre de com­men­taires ignorent aus­si des « effets » bien connus des scien­ti­fiques. Pre­nons là encore un exemple : le « para­doxe de Simp­son ». Il appa­rait lorsqu’on regarde deux groupes qui ont des pro­prié­tés très dif­fé­rentes comme s’ils ne fai­saient qu’un seul grand groupe homo­gène. Comme illus­tra­tion, on peut prendre l’exemple des mort·es de la Covid-19. Si l’on ne tient pas compte de la struc­ture d’âge, il appa­rait que le taux de mor­ta­li­té des vacciné·es est près de 30 % supé­rieur au taux de mor­ta­li­té des non-vacciné·es. On pour­rait en conclure que le vac­cin est inef­fi­cace (voire même dan­ge­reux pour la san­té!), mais ce serait faire une erreur sta­tis­tique. En fait, on doit abso­lu­ment tenir compte de la struc­ture d’âge si l’on veut poser une inter­pré­ta­tion de cette sta­tis­tique. Notons qu’il y a beau­coup plus de per­sonnes âgées dans la popu­la­tion de vacciné·es (puisqu’elles ont été prio­ri­taires pour la vac­ci­na­tion) et que celles-ci sont, dans tous les cas, beau­coup plus mena­cées par la mala­die (l’âge est un fac­teur très impor­tant dans le risque de déve­lop­per une forme sévère). On a donc dans les groupes des vacciné·es et des non-vacciné·es des dis­tri­bu­tions d’âge tota­le­ment dif­fé­rentes, sachant que, comme expo­sé, le risque de déve­lop­per une forme sévère de mala­die est cor­ré­lé à l’âge. Sachant cela, si l’on sépare la popu­la­tion en deux groupes d’âge, les plus de 50 ans et les moins de 50 ans, on arrive au résul­tat sui­vant : le taux de mor­ta­li­té est 600 % plus grand chez les non-vacciné·es de plus de 50 ans et le taux de mor­ta­li­té est de 80 % plus éle­vé chez les non-vacciné·es de moins de 50 ans. Et la conclu­sion sur l’efficacité du vac­cin devient tout autre : son effi­ca­ci­té appa­rait, juste par cette petite opé­ra­tion (rigou­reu­se­ment indis­pen­sable) de « sépa­ra­tion » des deux groupes.

Une absence de culture statistique

Comme le mon­tre­rait sans équi­voque une étude auprès d’un échan­tillon aléa­toire de lec­trices et lec­teurs, le type de rai­son­ne­ment que l’on vient de faire ne consti­tue en rien un réflexe fré­quent. On doit donc faire le constat d’une absence de « culture sta­tis­tique » com­mune. Les outils sta­tis­tiques res­tent uti­li­sés par une part (très) limi­tée de la popu­la­tion, en dépit de ce que les sta­tis­tiques sont pour­tant un pas­sage obli­gé de l’enseignement secon­daire. Qu’en com­prendre, qu’en déduire ?

Il y a une évi­dence : l’enseignement des sta­tis­tiques consti­tue une épreuve for­melle abso­lu­ment insup­por­table pour des géné­ra­tions d’élèves et d’étudiant·es. Consi­dé­rées comme « la dis­ci­pline à pète », les sta­tis­tiques sont tou­jours vues comme com­pli­quées, abs­traites, ultra­ma­thé­ma­tiques. Pour­tant, les sta­tis­tiques reposent lar­ge­ment sur des concepts qui ne sont pas à pro­pre­ment par­ler mathé­ma­tiques, mais tirés de l’observation de phé­no­mènes natu­rels ou sociaux.

Les mathé­ma­tiques sont sou­vent dis­pen­sables pour com­prendre les méthodes sta­tis­tiques, pour appré­hen­der ce qu’elles « font » — pas for­cé­ment dans les moindres détails, mais au moins dans les prin­cipes fon­da­men­taux. La « haine des maths », qui se couple à une peur des sta­tis­tiques, est d’autant plus forte que le vieux cli­vage « lit­té­raire » et « scien­ti­fique » conti­nue à faire des ravages. Cette spé­cia­li­sa­tion, qui trouve son ori­gine dans le posi­ti­visme du XIXe siècle et dans des tra­vaux (dont une large par­tie est désor­mais récu­sée) du milieu du XXe siècle oppo­sant « créa­tion » et « logique », est com­plè­te­ment arti­fi­cielle. Pre­nons l’exemple de Pierre Bour­dieu : plus lit­té­raire comme pro­fil, c’est impos­sible ! For­mé à l’École nor­male supé­rieure, il est agré­gé en phi­lo­so­phie. Il s’intéresse à la socio­lo­gie sur le tard, en com­men­çant par des études eth­no­gra­phiques. Et pour­tant, plu­sieurs de ses plus célèbres ouvrages reposent sur des tech­niques de sta­tis­tiques (notam­ment La Repro­duc­tion et La Dis­tinc­tion). Quand on lit Bour­dieu, on se rend compte qu’il ne mai­trise pas le voca­bu­laire mathé­ma­tique en détail, mais qu’il com­prend par­fai­te­ment ce que pro­duisent les outils qu’il uti­lise. Issus en grande par­tie des tra­vaux de Jean-Paul Ben­zé­cri, ces outils ne sont pas simples à construire, et par­fois leur écri­ture en lan­gage mathé­ma­tique est abso­lu­ment décoif­fante ! Pour­tant, Bour­dieu arrive à en appré­hen­der les prin­cipes fon­da­teurs, à la suite des échanges entre les deux cher­cheurs, qui se connaissent depuis l’École nor­male. Leur optique était claire dès les années 1950, comme le notait Jean-Paul Ben­zé­cri en 2005 : « le savoir ne se sec­tionne pas ! ». Par leur ami­tié, ils ont fait fi de ce cli­vage absurde entre « lit­té­raires » et « scien­ti­fiques », abou­tis­sant à une col­la­bo­ra­tion intel­lec­tuelle extrê­me­ment pro­duc­tive. Et sur­tout à ce que Bour­dieu, le lit­té­raire, arrive à déve­lop­per une culture sta­tis­tique essen­tielle à l’utilisation adé­quate des outils d’analyse de données.

Il n’y a en réa­li­té aucune fata­li­té, aucun décou­page « natu­rel » du monde entre « ceux qui sont capables » de « faire des stats » et les autres. Il y a une construc­tion sociale extrê­me­ment ques­tion­nable qui pro­voque la mise à dis­tance d’une part gigan­tesque de la popu­la­tion d’un savoir pour­tant de plus en plus utile.

Un enjeu démocratique

Comme le sou­ligne très joli­ment Myriam Rasch, notre socié­té est mar­quée par le déve­lop­pe­ment d’une obses­sion de la pré­vi­sion. La pro­messe des géants du web, les « Gafam » est ain­si de pro­duire une pré­vi­si­bi­li­té par­faite des com­por­te­ments des uti­li­sa­teurs et uti­li­sa­trices de leurs pro­duits (en termes de consom­ma­tion, mais pas uni­que­ment). Or la ques­tion de la « pré­vi­sion » est inti­me­ment liée à l’usage des sta­tis­tiques et des probabilités.

La manière dont les gou­ver­ne­ments s’emparent de ques­tions comme les consé­quences du réchauf­fe­ment cli­ma­tique glo­bal est sou­vent exem­plaire de la recherche d’un même modèle par­fai­te­ment pré­dic­tif. Mais en l’espèce, nous sommes confron­tés à des phé­no­mènes hau­te­ment « non linéaires », c’est-à-dire qui peuvent s’accélérer sou­dai­ne­ment, à la suite d’un « bas­cu­le­ment », ce qui rend la pré­dic­tion par­faite impos­sible : au mieux peut-on déga­ger des ten­dances « probables ».

Au-delà de ces consi­dé­ra­tions, il est impor­tant de consi­dé­rer l’instrumentalisation des chiffres par les « fai­seurs d’action ». Les sta­tis­tiques et les pro­ba­bi­li­tés sont sans cesse ame­nées à appuyer des pro­po­si­tions de réformes de l’organisation col­lec­tive. Com­prendre la qua­li­té des chiffres recueillis et des pro­jec­tions qu’ils per­mettent, la manière dont ils jus­ti­fient ou non ces pro­po­si­tions est, dans un tel cadre, un enjeu démo­cra­tique majeur. Insis­tons : sans un mini­mum de culture sta­tis­tique, il est impos­sible d’évaluer dans quelle mesure des indi­ca­teurs construits sont fiables et sur­tout com­ment ils peuvent éven­tuel­le­ment être inter­pré­tés. Cela signi­fie, en d’autres termes, que la dif­fu­sion d’une culture sta­tis­tique est de plus en plus indis­pen­sable pour pou­voir appré­hen­der les réformes en cours, com­prendre leurs points forts et leurs limites.

On note­ra tou­te­fois que si elle est néces­saire à cet exer­cice d’analyse, la culture sta­tis­tique n’est pas suf­fi­sante : il faut encore réflé­chir à la qua­li­té des don­nées ini­tiales, à leur mode de col­lecte et de pro­duc­tion, ou encore pou­voir dis­po­ser des don­nées sources ! Et en la matière, la Bel­gique reste dra­ma­ti­que­ment arrié­rée. Un exemple : les don­nées de tra­jec­toires des étudiant.es du supé­rieur, où l’on a plus de trente ans de retard sur nos voi­sins euro­péens en matière de mise à dis­po­si­tion des don­nées et d’études sys­té­ma­tiques (ce qui n’empêche pas de réa­li­ser des réformes)1.

Mais l’analyse des poli­tiques n’est pas le seul endroit où la dif­fu­sion d’une culture sta­tis­tique est un véri­table enjeu. La mon­tée en puis­sance des faits alter­na­tifs montre bien qu’une série de forces idéo­lo­giques n’hésitent pas à nier le réel pour appuyer leur dis­cours. Et l’un des outils qui vise, ori­gi­nel­le­ment, à ten­ter de tou­cher le réel est jus­te­ment la sta­tis­tique. Elle est donc par­ti­cu­liè­re­ment mena­cée par ces groupes, qui vont tan­tôt bran­dir les chiffres qui leur plaisent sans aucune mise en contexte ou tan­tôt hur­ler « oui mais les chiffres on leur fait dire ce qu’on veut, ils sont donc faux ! ». Cepen­dant ceci est faux : on ne fait pas « dire ce qu’on veut » aux chiffres si on les exa­mine avec un petit peu de rigueur… Et ce, d’autant moins que l’on mai­trise la culture sta­tis­tique. On abou­ti­ra peut-être d’ailleurs à la conclu­sion qu’un chiffre ne peut effec­ti­ve­ment rien dire (ce qui est bien dif­fé­rent de lui faire dire ce que l’on veut), parce qu’en consi­dé­rant la manière dont il a été éta­bli, on se rend compte d’une série d’erreurs logiques. Le sou­ci, c’est que le rejet des stats, sou­vent lié aux trau­ma­tismes sco­laires, s’accompagne fré­quem­ment en réa­li­té du rejet de toute démarche cher­chant à atteindre une réa­li­té autre que le récit que se construit chaque indi­vi­du au sujet de ses propres expériences.

Démo­cra­ti­ser les outils sta­tis­tiques est donc un enjeu démo­cra­tique cru­cial. Pour­tant force est de consta­ter qu’en la matière, les ini­tia­tives sont rares et timides. Pire encore, elles se fondent sur l’hypothèse que « les sta­tis­tiques, c’est com­pli­qué ». Alors qu’en fait, sou­vent… non ! Les méthodes sont sou­vent assez simples ; c’est ce qu’elles tentent de décrire qui est com­plexe. Mieux, la sta­tis­tique est amu­sante, parce qu’on peut appli­quer ses outils aux domaines qui nous pas­sionnent (de la bou­lan­ge­rie au levain aux ren­contres en ligne, de l’étude des habi­tudes d’écoute du hard rock au jeu de Michael Jor­dan, des tics de lan­gage de per­son­na­li­tés poli­tiques à la dif­fu­sion d’une infor­ma­tion sur Twit­ter) et en tirer des résul­tats très sur­pre­nants. Ce sont des outils démul­ti­pli­ca­teurs de la curio­si­té intel­lec­tuelle qui per­mettent de nour­rir des réflexions et de poser sans cesse plus de ques­tions. Et si tous les enseignant.es pou­vaient les pro­po­ser comme tels, il n’y a aucun doute que la matière serait déjà net­te­ment plus agréable à ensei­gner et à suivre.

Démo­cra­ti­ser les outils sta­tis­tiques, c’est enfin ouvrir la boite noire de la pro­duc­tion scien­ti­fique. C’est per­mettre de faire renouer « science » et « opi­nion » sous forme d’une invi­ta­tion au dia­logue. Plu­tôt que de conti­nuer sans fin (et sans effet) à se lamen­ter sur la perte de toute ratio­na­li­té, ouvrir un véri­table chan­tier de démo­cra­ti­sa­tion des outils sta­tis­tiques par­ti­ci­pe­rait d’un pro­gramme concret de remo­bi­li­sa­tion. Cela implique que les cher­cheurs et cher­cheuses renoncent à un mono­pole, autre­ment dit que les stats ne soient plus un outil de dis­tinc­tion des uni­ver­si­taires. Que la démo­cra­ti­sa­tion des savoirs rede­vienne de toute urgence une prio­ri­té à l’agenda de toutes et tous… contre les logiques d’excellence et d’efficacité qui reviennent à accep­ter la mise à l’écart de cer­taines res­sources intel­lec­tuelles de parts larges de la popu­la­tion, à com­men­cer par les classes populaires.

Mer­ci à tout le comi­té de rédac­tion de La Revue nou­velle, et par­ti­cu­liè­re­ment à Sophie André, Char­lotte Mai­sin et Gene­viève War­land, pour leurs relec­tures minu­tieuses de ce texte.

  1. Il sort du cadre de cet édi­to de détailler l’ensemble des enjeux que regroupe l’idée d’une « démo­cra­ti­sa­tion des sta­tis­tiques », au-delà des outils, mais nous ne man­que­rons pas d’y reve­nir dans le futur au tra­vers d’une réflexion collective.

Renaud Maes


Auteur

Renaud Maes est docteur en Sciences (Physique, 2010) et docteur en Sciences sociales et politiques (Sciences du Travail, 2014) de l’université libre de Bruxelles (ULB). Il a rejoint le comité de rédaction en 2014 et, après avoir coordonné la rubrique « Le Mois » à partir de 2015, il est devenu rédacteur en chef de {La Revue nouvelle} en novembre 2016. Il est également professeur invité à l’université Saint-Louis (Bruxelles) et à l’ULB, et mène des travaux de recherche portant notamment sur l’action sociale de l’enseignement supérieur, la prostitution, le porno et les comportements sexuels, ainsi que sur le travail du corps. Depuis juillet 2019, il est président du comité belge de la Société civile des auteurs multimédia (Scam.be).