Skip to main content
logo
Lancer la vidéo

Big data : une mine d’or, mais à quel prix pour notre vie privée ?

Numéro 4 - 2017 par Antoine Delforge

mai 2017

Le big data est un phé­no­mène qui se carac­té­rise par le volume de don­nées, la vitesse d’analyse néces­saire, la ges­tion de varié­té de don­nées, la véra­ci­té des don­nées qu’il s’agit d’établir et la mai­trise des modes de visua­li­sa­tion. Deve­nu un outil indis­pen­sable des cam­pagnes élec­to­rales et des socié­tés d’assurance, il pose cepen­dant un grand nombre de ques­tions éthiques. Un cadre juri­dique a donc été défi­ni au niveau euro­péen. Il reste cepen­dant à four­nir un lourd tra­vail de sensibilisation.

Dossier

Depuis main­te­nant une petite dizaine d’années, une quan­ti­té inima­gi­nable de don­nées sont créées chaque jour, chaque heure, chaque seconde, et ce sans que la plu­part des gens le sachent. Ain­si, à chaque fois que vous uti­li­sez votre ordi­na­teur, votre navi­ga­teur Inter­net, votre smart­phone, vos objets connec­tés (montre, voi­ture…), vous géné­rez inévi­ta­ble­ment des don­nées. Quand on sait qu’il y a aujourd’hui 3,9 mil­liards de per­sonnes connec­tées à Inter­net1 et qu’on estime à plus de 50 mil­liards le nombre d’objets connec­tés en 2020 (contre 12 mil­liards actuel­le­ment)2, vous ima­gi­nez vite la quan­ti­té d’informations qui cir­culent constamment.

Avec la géné­ra­li­sa­tion d’un inter­net à haut débit, 90% des don­nées numé­riques ont été pro­duites durant les deux der­nières années.

Cette masse de don­nées est appe­lée « big data », ce qui peut être tra­duit par « don­nées mas­sives » ou encore « méga­don­nées ». Cette expres­sion fait réfé­rence à des ensembles de don­nées que les outils clas­siques d’analyse ne sont plus à même de gérer effi­ca­ce­ment soit parce que le volume est trop impor­tant, soit parce que ces don­nées sont trop brutes (non struc­tu­rées3).

Ces don­nées consti­tuent une mine d’or pour qui les détient et sait les étu­dier pour leur don­ner toute leur valeur. Et c’est là que les pro­blèmes sur­viennent. En effet, pour tirer des infor­ma­tions de ces don­nées brutes, des algo­rithmes capables de don­ner du sens à ce flux qua­si infi­ni de 0 et de 1 sont néces­saires et le déve­lop­pe­ment de pareil algo­rithme reste fort onéreux.

Actuel­le­ment, la plu­part de ces don­nées ne sont pas exploi­tées, faute de connais­sances, de moyens… Cer­tains pré­tendent que seule­ment 1 % de celles-ci serait réel­le­ment uti­li­sé à sa juste valeur. Les entre­prises du numé­rique ana­lysent pour la plu­part les don­nées que chaque inter­naute pro­duit en uti­li­sant leurs ser­vices, mais les entre­prises « clas­siques » aus­si ont des stocks de don­nées insoup­çon­nés qui, une fois exploi­tés, amé­lio­re­raient leur pro­duc­ti­vi­té. Sur la base de ces moni­to­rings, une étude d’efficacité per­met de repen­ser les pro­ces­sus de fabri­ca­tion pour opti­mi­ser l’ensemble de la pro­duc­tion. C’est ce qu’on appelle notam­ment les « smart fac­to­ries » ou l’industrie 4.0.

Pour bien com­prendre ce phé­no­mène du big data, il faut se pen­cher sur les « 5 V » qui le carac­té­risent : volume, vélo­ci­té, varié­té, véra­ci­té, visibilité.

Volume : comme son nom l’indique, le big data se carac­té­rise par une énorme quan­ti­té de don­nées. À titre d’illustration, 10 mil­lions de DVD Blu-ray pour­raient être rem­plis par les don­nées géné­rées chaque jour.

Vélo­ci­té : pour prendre des déci­sions en consé­quence des résul­tats obte­nus grâce aux ana­lyses big data, les don­nées doivent être ana­ly­sées très rapi­de­ment, voire en temps réel. Pen­sez notam­ment au mar­ché finan­cier4 où chaque seconde compte.

Varié­té : si avant l’analyse de don­nées ne pou­vait se faire que sur des jeux de don­nées pré­for­ma­tés, des­quels il était facile de tirer des sta­tis­tiques, main­te­nant des algo­rithmes avan­cés peuvent eux-mêmes for­ma­ter des don­nées de sources très variées : des tweets, des pho­tos, des likes, des vidéos…

Véra­ci­té : avec une pareille quan­ti­té de don­nées, venant de sources très dif­fé­rentes et dif­fi­ci­le­ment véri­fiables, connaitre la véra­ci­té de ces don­nées pour en tirer des résul­tats pro­bants est deve­nu un enjeu éco­no­mique majeur.

Visi­bi­li­té : ce der­nier V est appa­ru plus récem­ment. Si obte­nir des infor­ma­tions de cette masse de don­nées informes reste une chose déjà peu aisée, réus­sir à les rendre com­pré­hen­sibles par un chef d’entreprise, par exemple, en est encore une autre. Le big data se déve­lop­pant dans des sec­teurs non spé­cia­li­sés dans l’étude de don­nées, il est deve­nu néces­saire de créer des logi­ciels per­met­tant d’élaborer des gra­phiques en 2 ou 3D illus­trant les résul­tats obte­nus via une ana­lyse big data pour ain­si pou­voir être direc­te­ment uti­li­sé, par la direc­tion d’une entre­prise notamment.

Ces quelques expli­ca­tions devraient suf­fire à vous convaincre du poten­tiel qu’offre le big data : déve­lop­pe­ment éco­no­mique, appa­ri­tion de nou­veaux ser­vices, évo­lu­tion en matière de recherche (médi­cale et autres)… et tant d’autres choses insoup­çon­nées tant on est encore au début d’une révo­lu­tion indus­trielle qui vien­dra tou­cher tous les sec­teurs d’activités, sans exception.

Quelques exemples parlants

« Très bien », me direz-vous, « si c’est bon pour l’économie ! ». « Mais ces don­nées peuvent être des infor­ma­tions per­son­nelles qui en révèlent beau­coup sur vous », vous répon­drai-je. Cer­tains pré­ten­dront qu’ils n’ont rien à cacher et que dès lors, ils ne sont pas oppo­sés à l’exploitation par une entre­prise de leurs don­nées à carac­tère per­son­nel5.

Le big data est aus­si uti­li­sé par de nom­breux États, et là para­doxa­le­ment les gens sont sou­vent plus rétifs à par­ta­ger des infor­ma­tions les concer­nant. Aujourd’hui, on divulgue plus faci­le­ment des infor­ma­tions très per­son­nelles sur Face­book qu’à l’État, alors que l’utilisation qui en est faite par Face­book, pour ne citer que lui, demeure beau­coup plus obscure.

L’analyse de ces don­nées per­son­nelles a des influences qua­si quo­ti­diennes sur votre vie sans même que vous le sachiez. En voi­ci quelques exemples très concrets.

Le big data dans les cam­pagnes élec­to­rales : un outil deve­nu indispensable

De tout temps, la publi­ci­té poli­tique a exis­té. Quand elle est ciblée, elle devient beau­coup plus effi­cace que la publi­ci­té clas­sique. Le monde poli­tique s’est donc vite inté­res­sé au big data comme outil de cam­pagne. Le big data per­met en effet de très bien connaitre les opi­nions de cha­cun. Pour cela, les « data ana­lysts » se fondent sur les don­nées récol­tées par des entre­prises de mar­ke­ting, les don­nées publi­que­ment acces­sibles sur Inter­net… pour pré­dire l’opinion des futurs élec­teurs et même l’influence d’une nou­velle mesure sur la répar­ti­tion des votes.

Ain­si dès 2002, Mitt Rom­ney, can­di­dat au poste de gou­ver­neur du Mas­sa­chu­setts, a été dans les pre­miers à uti­li­ser le big data afin de cibler davan­tage les poten­tiels dona­teurs pour sa campagne.

Barack Oba­ma a éga­le­ment sui­vi cette nou­velle ten­dance, allant même jusqu’à dépen­ser près de 30 mil­lions de dol­lars dans l’achat de fichiers auprès notam­ment de Data Bro­kers (cour­tier de don­nées6). En 2005, Nico­las Sar­ko­zy a éga­le­ment employé ce genre de tech­nique pour obte­nir des lis­tings afin d’envoyer de manière mas­sive des cour­riels à ses élec­teurs poten­tiels qu’il avait réus­si à cibler en fonc­tion de leurs « traces numé­riques ». Ces envois ont été si mas­sifs qu’à l’époque l’expression « Sar­kos­pam » était apparue.

Durant les der­nières élec­tions pré­si­den­tielles amé­ri­caines tant les Répu­bli­cains que les Démo­crates firent usage d’un ser­vice tel que Nation buil­der, ser­vice tout-en-un pour les cam­pagnes élec­to­rales. Ce type de ser­vice regroupe divers outils d’analyse et de ges­tion afin de maxi­mi­ser une cam­pagne élec­to­rale sur la base de don­nées per­son­nelles acces­sibles sur les réseaux sociaux ou acquises d’autres manières (achat, récolte d’informations par les militants…).

L’élection pré­si­den­tielle fran­çaise de 2017 n’échappe pas à la règle puisque presque tous les can­di­dats à la pri­maire de la droite basent leur cam­pagne sur Nation Buil­der. Mais ce ne sont pas les seuls, Jean-Luc Mélen­chon ou encore Emma­nuel Macron sont éga­le­ment deve­nus adeptes de ce type de service.

Tous accros au big data ? Pour­quoi ? À cause de son effi­ca­ci­té. Ces logi­ciels per­mettent d’identifier les sen­si­bi­li­tés de chaque per­sonne en fonc­tion des infor­ma­tions la concer­nant qui cir­culent sur Inter­net. Grâce à cela, ces can­di­dats peuvent orga­ni­ser des cam­pagnes publi­ci­taires en ligne très ciblées (et sou­vent moins chères que les cam­pagnes non numé­riques), peuvent cap­ter l’opinion des gens sur cer­taines thé­ma­tiques à tra­vers des mes­sages pos­tés sur Face­book ou Twit­ter. Ain­si, ils adaptent leur dis­cours en fonc­tion du public qu’ils ont en face d’eux. L’application Kno­ckIn, uti­li­sée par les équipes de Nico­las Sar­ko­zy, en est le par­fait exemple. En ana­ly­sant les infor­ma­tions dis­po­nibles sur Inter­net (Face­book et Twit­ter prin­ci­pa­le­ment), cette appli­ca­tion caté­go­rise les futurs élec­teurs en fonc­tion de leur ten­dance poli­tique et des sujets qui leur sont chers… et tout cela uni­que­ment en regar­dant leurs acti­vi­tés sur les réseaux sociaux. Ain­si il suf­fit aux mili­tants qui font du porte à porte de consul­ter le pro­fil des per­sonnes qu’ils vont démar­cher et ain­si for­ma­ter leur dis­cours pour l’adapter le mieux pos­sible aux aspi­ra­tions de leurs interlocuteurs.

Avec cet exemple, on constate que la récolte de don­nées per­son­nelles par des orga­ni­sa­tions poli­tiques peut être vue comme une bonne chose pour prendre le pouls de la popu­la­tion, mais cela incite aus­si et sur­tout les can­di­dats à pro­po­ser ce que les gens veulent entendre et pas à sou­mettre un véri­table pro­jet poli­tique qu’ils ont eux-mêmes construit. On passe ain­si d’une poli­tique de l’offre à une poli­tique de la demande.

À une époque où les son­dages se trompent de plus en plus sou­vent, les par­ti­sans du big data pré­tendent que l’analyse des traces numé­riques (like, par­tage, nombre de vues…) pour­rait rem­pla­cer les son­dages clas­siques qui seraient par nature biai­sés par les ques­tions sou­mises, les réponses pro­po­sées, le manque de sin­cé­ri­té… Il est vrai que seule une ana­lyse big data avait vu la vic­toire de Fran­çois Fillon à la pri­maire de la droite7. Une autre étude, basée quant à elle sur le nombre de fois où le nom des can­di­dats a été recher­ché sur Google et cité sur Twit­ter, aurait éga­le­ment anti­ci­pé le résul­tat de la pri­maire de la gauche8. L’avenir nous dira si ces nou­velles méthodes sont plus cré­dibles que les son­dages d’opinion9.

Le big data et les assu­rances : deux mondes faits pour s’entendre

Le sec­teur des assu­rances a été l’un des pre­miers à s’intéresser au big data et c’est logique. En effet, les assu­reurs cherchent à connaitre le mieux pos­sible leurs assu­rés pour pou­voir pro­po­ser une prime qui cor­res­pond à leurs dif­fé­rents pro­fils et donc aux dif­fé­rents niveaux de risque qu’ils font peser sur la com­pa­gnie d’assurance.

À défaut, un phé­no­mène d’anti-sélection va se créer. De fait, les bons clients (à faibles risques) se ver­ront pro­po­ser des primes trop éle­vées et se tour­ne­ront vers un concur­rent dont le mon­tant de la prime cor­res­pon­dra mieux à leur pro­fil. Il ne res­te­ra alors que les mau­vais clients dont le trop faible niveau des primes ne cor­res­pond plus au niveau des risques. L’équilibre entre bons et mau­vais clients est rom­pu, ce qui pose alors de gros pro­blèmes aux com­pa­gnies d’assurance.

On com­prend donc très bien pour­quoi les assu­reurs font leur maxi­mum pour tout savoir de leurs clients. His­to­ri­que­ment, les assu­reurs réus­sis­saient à dres­ser un pro­fil sur la base de for­mu­laires que le can­di­dat à l’assurance se devait de rem­plir loyalement.

L’augmentation du nombre d’objets connec­tés (phé­no­mène que l’on appelle « Inter­net des objets » ou IoT, « inter­net of things ») devient une nou­velle chance pour eux de cer­ner encore plus pré­ci­sé­ment leurs assu­rés. En effet, si ces com­pa­gnies réus­sis­saient à avoir accès aux infor­ma­tions de san­té géné­rées par les montres ou bra­ce­lets connec­tés, elles pour­raient pro­po­ser une assu­rance vie dont la prime n’est plus cal­cu­lée à par­tir d’un pro­fil éta­bli sur la base de sta­tis­tiques, mais propre à chaque per­sonne. Cette prime serait alors fixée en fonc­tion du rythme car­diaque de l’assuré, de son acti­vi­té phy­sique, de son stress, des lieux qu’il fré­quente (tout cela étant des don­nées que peut récol­ter un bra­ce­let connec­té) et de toute autre infor­ma­tion qui aurait une influence sur son espé­rance de vie (fac­teur qui déter­mine le mon­tant des primes d’assurance vie).

Un autre exemple, les assu­rances RC auto. Dans les voi­tures connec­tées, il y a des dizaines de cap­teurs qui enre­gistrent dif­fé­rents para­mètres (nombre de kilo­mètres par­cou­rus, vitesse moyenne, manière de frei­ner…) per­met­tant fina­le­ment de connaitre le type de com­por­te­ment du conduc­teur. Cette infor­ma­tion, si elle était connue des assu­reurs, per­met­trait de fixer une prime au cas par cas en fonc­tion de la manière de conduire du deman­deur d’assurance. Le conduc­teur qui a un style de conduite très spor­tif, qui roule vite et freine tard ver­ra sa prime aug­men­ter, là où une per­sonne au style plus cou­lé ver­ra la sienne dimi­nuer, car son style est jugé moins accidentogène.

Où est le dan­ger dans ce genre de pra­tique ? La per­sonne en bonne san­té et qui conduit bien serait sans doute d’accord que son assu­reur ait accès à ses don­nées si cela peut faire dimi­nuer ses primes d’assurance. Certes, les primes peuvent dimi­nuer, mais cela veut dire que si la per­sonne arrête, par exemple, subi­te­ment de faire du sport, l’assureur va remar­quer un chan­ge­ment dans son style de vie grâce au bra­ce­let connec­té qu’elle s’est enga­gée à por­ter, et ce chan­ge­ment pour­rait avoir comme consé­quence de faire réaug­men­ter les primes d’une assu­rance vie. De même, si elle décide du jour au len­de­main de se mettre à conduire comme un pilote de For­mule 1, sa voi­ture trans­met­tra ce brusque chan­ge­ment à l’assureur qui le réper­cu­te­ra alors sur le mon­tant de sa prime.

D’autres pro­blèmes peuvent appa­raitre dans l’hypothèse où ce phé­no­mène venait à se développer.

L’ultra-personnalisation tend à faire dis­pa­raitre l’aléa qui demeure l’un des prin­cipes clés en matière d’assurance. Quand le big data per­met de pro­nos­ti­quer avec une qua­si-cer­ti­tude l’avenir d’un assu­ré, où est encore le risque pour l’assureur ?

Un autre pro­blème pour­rait venir du fait que les assu­rances vont plus que pro­ba­ble­ment inci­ter les gens à par­ta­ger leurs infor­ma­tions per­son­nelles, quitte à ce que la montre connec­tée soit offerte à la conclu­sion de chaque assu­rance com­plé­men­taire san­té, comme l’a tes­té pen­dant un moment AXA France. Si ce genre d’offre réus­sis­sait à convaincre une grande par­tie des assu­rés, la par­tie réfrac­taire à ces tra­queurs d’activités relayant des don­nées aux assu­reurs ver­rait pro­ba­ble­ment à terme sa prime aug­men­ter. En effet, les assu­reurs auront face à eux un groupe plus ris­qué, puisque moins trans­pa­rent que les autres. De plus, les per­sonnes n’ayant pas vou­lu contrac­ter une assu­rance liée à un objet connec­té devien­dront à prio­ri des gens qui ont quelque chose à cacher à leur assureur.

De plus, cette ultra-seg­men­ta­tion aura pour consé­quence que les primes vont être de plus en plus variables10 et que les per­sonnes avec un pro­fil consi­dé­ré à haut risque se trou­ve­ront devant un dan­ger de non-assu­ra­bi­li­té à la suite de l’augmentation impor­tante de leur prime qu’il leur sera deve­nu impos­sible de payer.

En cas de déve­lop­pe­ment de pareilles offres, seule une inter­ven­tion légis­la­tive peut pré­ve­nir ces dif­fé­rents problèmes.

Avec le big data, cha­cun sa vie, cha­cun son web

Inter­net est un monde ouvert où toute per­sonne connec­tée peut aller consul­ter presque tout ce qu’elle veut sans aucun contrôle. En tout cas, c’est ce que l’utilisateur non aver­ti pense.

En réa­li­té, il n’en est rien. Mal­gré cette illu­sion de liber­té, chaque site inter­net peut déci­der ce qu’il veut que chaque visi­teur voit, deux visi­teurs d’un même site n’ont donc pro­ba­ble­ment pas exac­te­ment le même conte­nu devant les yeux ; et tout cela grâce aux « cookies ». En infor­ma­tique, les cookies sont de petits fichiers sem­blables à des fichiers textes dépo­sés par un site inter­net sur l’ordinateur (ou le smart­phone, la tablette…) de la per­sonne qui consulte cette page. Ce fichier contient plu­sieurs infor­ma­tions, dont notam­ment un numé­ro per­met­tant de recon­naitre cet appa­reil la pro­chaine fois qu’il retourne sur le site. Voi­là com­ment expli­quer que, par exemple, on ne choi­sit géné­ra­le­ment que la pre­mière fois la langue d’une page web. La fois sui­vante, grâce au cookie, le site inter­net sait qu’il doit envoyer la page en fran­çais pour cette personne-là.

Ces cookies per­mettent donc de suivre une per­sonne sur Inter­net, les dif­fé­rents sites s’échangeant mas­si­ve­ment les cookies qu’ils ont déjà dis­sé­mi­nés afin de savoir ce qu’a consul­té telle per­sonne sur tel autre site.

Ce méca­nisme simple per­met ain­si à Ama­zon, pour ne par­ler que de lui, de faire réap­pa­raitre sur son site, contre rému­né­ra­tion, des annonces consul­tées plu­sieurs jours aupa­ra­vant sur des sites de presse, sur Facebook…

Ama­zon est loin d’être le seul à uti­li­ser ce genre de tech­niques pour pro­po­ser du conte­nu per­son­na­li­sé. Tous les sites pro­po­sant des sys­tèmes de recom­man­da­tion fonc­tionnent de la même manière, sur la base de l’historique de navi­ga­tion de chaque uti­li­sa­teur recréé à par­tir de ces cookies. Cer­tains sites couplent ces don­nées avec d’autres élé­ments qui peuvent influen­cer les choix et les envies des consom­ma­teurs potentiels.

Dans ce domaine, Net­flix a un des algo­rithmes de recom­man­da­tion les plus évo­lués ; de sorte qu’en fonc­tion de la météo, de l’heure, de votre his­to­rique, du type de conte­nu que vous regar­dez (thème, durée, avis), il vous est sug­gé­ré un conte­nu qui cor­res­pond à votre envie du moment. Net­flix va plus loin encore en se basant sur ces infor­ma­tions pour pro­duire des séries ou des films qui cor­res­pondent à ce que sou­haite voir son public, ce qui n’est pas sans poser ques­tion sur le risque de manque de diver­si­té que cela pour­rait créer.

Sur Face­book, les publi­ca­tions sug­gé­rées sont choi­sies par un algo­rithme qui défi­nit ce qui est sus­cep­tible de vous inté­res­ser en fonc­tion de vos likes, des pages consul­tées à par­tir de Face­book…, en fonc­tion de vos gouts. Il tient éga­le­ment compte du com­por­te­ment de vos amis sur le réseau social. Ce qui à pre­mière vue peut sem­bler pra­tique pro­voque une cer­taine iso­la­tion où l’on ne voit en réa­li­té qu’une par­tie de ce qui cir­cule sur Inter­net. C’est l’effet « bulle de filtres », car chaque inter­naute reste limi­té mal­gré lui à un uni­vers pen­sé et créé sur mesure. Cette bulle a en plus ten­dance à s’autoalimenter à tel point que chaque per­sonne dans cette bulle ne per­çoit le monde que par le prisme propre à cette bulle11.

Google, grâce à l’historique des recherches, fait de même, de sorte que les résul­tats d’une recherche peuvent varier très for­te­ment d’un indi­vi­du à l’autre, d’un ordi­na­teur à l’autre pour être plus pré­cis. Ain­si, en tapant Égypte dans la célèbre barre de Google cer­tains ver­ront appa­raitre des sites de voyage, là où d’autres seront redi­ri­gés vers des articles par­lant des mani­fes­ta­tions dans le pays12.

Per­cer cette bulle demeure com­pli­qué, mais effa­cer régu­liè­re­ment ses cookies reste une des solu­tions les plus faciles à mettre en place13.

Big data : la chasse à la fraude

Le sec­teur public a éga­le­ment vu dans le big data une belle oppor­tu­ni­té, notam­ment dans la chasse à la fraude sociale et fiscale.

L’administration fis­cale belge uti­lise depuis plu­sieurs années déjà des méthodes d’analyse big data (plan data­mi­nig lan­cé par le SPF Finances) croi­sant de mul­tiples infor­ma­tions dis­po­nibles au sein des dif­fé­rentes admi­nis­tra­tions afin de créer des pro­fils de frau­deur. Sur la base de ces pro­fils, les contrôles sont orien­tés vers des per­sonnes consi­dé­rées comme plus pro­ba­ble­ment fraudeuses.

Le croi­se­ment de don­nées se fait aus­si avec des infor­ma­tions venant des four­nis­seurs et ges­tion­naires d’eau, de gaz et d’électricité. S’il existe une dif­fé­rence signi­fi­ca­tive entre la consom­ma­tion réelle et la consom­ma­tion moyenne d’un même type de ménage que celui habi­tant offi­ciel­le­ment à cette adresse, l’inspection sociale est aler­tée et sera alors char­gée de véri­fier qu’il n’y a pas de fraude sociale, une domi­ci­lia­tion fic­tive par exemple, afin de tou­cher des allo­ca­tions en tant que per­sonne iso­lée alors que, dans les faits, le béné­fi­ciaire est en cohabitation.

Le big data per­met éga­le­ment de détec­ter plus faci­le­ment les mon­tages fis­caux (car­rou­sel TVA…) où la détec­tion de sché­ma orga­ni­sa­tion­nel se fait beau­coup plus rapi­de­ment et efficacement.

Ces appli­ca­tions big data ont cepen­dant ten­dance à cibler tou­jours les mêmes des pro­fils et cela a déjà pro­vo­qué des contrôles fis­caux à répétition.

Protection des données personnelles : un cadre juridique mis à jour

À tra­vers ces dif­fé­rents exemples, on com­prend rapi­de­ment que l’exploitation à grande échelle de don­nées per­son­nelles peut avoir de graves consé­quences si cette exploi­ta­tion se pra­tique sans aucune règle­men­ta­tion. Ima­gi­nez que n’importe quelle entre­prise puisse récol­ter ces don­nées, à votre insu et sur­tout sans votre consen­te­ment, et les vendre à qui les veut ! Plus aucune vie pri­vée sur Inter­net. C’est pour­quoi dès 1995, l’Union euro­péenne a enca­dré les trai­te­ments de don­nées personnelles.

Le monde a beau­coup évo­lué depuis ce moment-là. L’informatique, et plus spé­ci­fi­que­ment Inter­net, n’a ces­sé de prendre de plus en plus de place dans notre vie. On est pas­sé de pages web pure­ment pas­sives à des pages web inter­ac­tives où des don­nées sont échan­gées en per­ma­nence. Google, Ama­zon, Face­book, Apple, Micro­soft (regrou­pé sous l’acronyme Gafam) sont deve­nus en vingt ans non pas uni­que­ment des socié­tés d’informatique dont les ser­vices sont main­te­nant inévi­tables, mais des socié­tés qui col­lectent un maxi­mum de don­nées sur les­quelles reposent une impor­tante par­tie de leur modèle économique.

Tous ces chan­ge­ments ont donc pous­sé l’Union euro­péenne à adap­ter sa légis­la­tion à ce qu’on appelle le web 2.0.

Ce pro­ces­sus, com­men­cé en 2012, prit près de quatre ans pour abou­tir à l’adoption du nou­veau Règle­ment géné­ral sur la pro­tec­tion des don­nées qui n’entrera en vigueur qu’en mai 2018 pour lais­ser le temps à tout le monde de s’adapter.

Quelles don­nées sont protégées ?

La légis­la­tion rela­tive à la pro­tec­tion des don­nées à carac­tère per­son­nel vise à règle­men­ter la récolte et l’usage de ces données.

On parle de don­nées à carac­tère per­son­nel face à une infor­ma­tion qui peut être rat­ta­chée à une per­sonne iden­ti­fiée ou iden­ti­fiable. Ain­si, un numé­ro de compte, un cookie… sont des moyens qui per­mettent de dis­cri­mi­ner une per­sonne par rap­port à une autre et dès lors toutes les infor­ma­tions liées à cet iden­ti­fiant sont consi­dé­rées comme des don­nées à carac­tère per­son­nel. Ces infor­ma­tions peuvent être de toutes natures (texte, vidéo, image…). Cela peut aller de votre nom, votre adresse ou votre âge, à vos his­to­riques web en pas­sant par vos habi­tudes ali­men­taires, spor­tives… tout ce qui se rap­porte à une per­sonne pou­vant être iden­ti­fiée sans trop de difficultés.

Ce nou­veau Règle­ment s’applique à tous les ser­vices des­ti­nés à un public euro­péen, de sorte que toutes les entre­prises étran­gères (le Gafam et autres) sont tenues de res­pec­ter cette légis­la­tion quand elles traitent des don­nées rela­tives à des Euro­péens. À défaut, elles risquent des amendes très éle­vées pou­vant grim­per jusqu’à 4% de leur chiffre d’affaires annuel mondial.

Com­ment sont-elles protégées ?

La règle­men­ta­tion en la matière se com­pose de cinq grands prin­cipes, des­quels découle une série de droits pour les per­sonnes dont les don­nées sont trai­tées (appe­lées « per­sonnes concer­nées » par la suite).

Cinq grands principes

Prin­cipe de fina­li­té : les don­nées doivent être récol­tées dans un but spé­ci­fique et ne peuvent être uti­li­sées qu’à cette fin. Cette fina­li­té est annon­cée dès l’obtention de ces infor­ma­tions. Ain­si, la fina­li­té d’une col­lecte d’adresses cour­riels pour­rait être d’envoyer ulté­rieu­re­ment des publicités.

Prin­cipe de licéi­té : des don­nées per­son­nelles ne peuvent pas être récol­tées et/ou uti­li­sées sans le consen­te­ment de la per­sonne concer­née14. Ce consen­te­ment ne por­te­ra que sur la fina­li­té annon­cée. Dans cer­tains cas, un consen­te­ment n’est pas néces­saire. Tel est le cas quand ces don­nées sont trai­tées par l’administration, par exemple, dans le cadre d’une mis­sion d’intérêt public ou quand ces don­nées doivent être récol­tées pour pou­voir four­nir un ser­vice deman­dé par la personne.

Prin­cipe de mini­ma­li­sa­tion : seules les don­nées néces­saires à la fina­li­té décla­rée peuvent être trai­tées. Ce prin­cipe s’applique tant à la quan­ti­té de don­nées qu’à leur durée de conser­va­tion. Dès lors, régu­liè­re­ment, cer­taines don­nées deve­nues inutiles doivent être effa­cées, de sorte que logi­que­ment les four­nis­seurs de ser­vice n’ont pas à conser­ver les don­nées de clients dont le contrat s’est ter­mi­né il y a plu­sieurs années. En prin­cipe, ces infor­ma­tions doivent être sup­pri­mées de leur listing.

Prin­cipe de trans­pa­rence : l’entreprise ou le ser­vice public qui traite des don­nées per­son­nelles doit être trans­pa­rent sur ce qu’il fait des don­nées et com­ment il le fait. Il existe une obli­ga­tion d’information. Cette infor­ma­tion com­porte notam­ment la liste des enti­tés à qui les don­nées vont être com­mu­ni­quées, la durée de conser­va­tion, l’explication des droits qu’a la per­sonne concer­née15.

Prin­cipe de sécu­ri­té : le res­pon­sable du trai­te­ment de don­nées per­son­nelles est obli­gé d’assurer un niveau de sécu­ri­té adap­té aux risques que pour­raient occa­sion­ner une fuite, une sup­pres­sion ou une alté­ra­tion des don­nées qu’il gère. Tous ces prin­cipes ne ser­vi­raient, en effet, à rien si le pre­mier pirate infor­ma­tique venu se ser­vait comme il l’entend. Ce niveau de sécu­ri­té varie­ra donc en fonc­tion du volume de don­nées et de leur nature. Une socié­té comme Face­book doit dès lors avoir un niveau de sécu­ri­té très éle­vé. Elle détient de fait énor­mé­ment de don­nées, par­fois très sen­sibles, pou­vant être dom­ma­geables si elles tombent entre de mau­vaises mains.

Vos droits en cas de trai­te­ment de vos données

En cas de trai­te­ment de don­nées per­son­nelles, les per­sonnes concer­nées ont dif­fé­rents droits qu’elles peuvent faire valoir face au res­pon­sable de ce trai­te­ment16. Mais, face à cer­tains pou­voirs publics, ces droits ne peuvent être invoqués.

Vous avez d’abord le droit de savoir si des don­nées vous concer­nant sont en pos­ses­sion de l’organisation que vous inter­ro­gez et, dans l’affirmative, les­quelles. Le nou­veau Règle­ment auto­ri­se­ra éga­le­ment d’en exi­ger une copie.

Ensuite, vous pou­vez récla­mer qu’une infor­ma­tion erro­née soit cor­ri­gée ou mise à jour, voire sup­pri­mée. Cela per­met d’éviter que cette erreur entraine un pro­fi­lage inap­pro­prié par exemple, ce qui peut avoir de lourdes consé­quences puisque de ce pro­fi­lage va dépendre une série de choses17.

De plus, vous êtes en droit de deman­der, dans cer­tains cas, à ce que vos don­nées per­son­nelles soient effa­cées (droit à l’oubli). Ain­si pour prendre un cas fré­quent, si une page peu flat­teuse vous concer­nant est réfé­ren­cée sur Google et que vous sou­hai­tez évi­ter que l’on y accède en tapant votre nom dans ce célèbre moteur de recherche, vous pou­vez exi­ger de Google qu’il vous déré­fé­rence, si cette demande est légitime.

Enfin, le nou­veau Règle­ment a intro­duit le droit à la por­ta­bi­li­té. En 2018, vous pour­rez récla­mer que vos don­nées per­son­nelles vous soient envoyées de manière à ce que vous puis­siez les réin­sé­rer dans un autre ser­vice du même genre. Pour évi­ter de res­ter empri­son­né dans un ser­vice par­ti­cu­lier, vous pour­rez plus faci­le­ment chan­ger de réseau social, de ser­vice de Cloud ou mes­sa­ge­rie web, sans voir toutes vos don­nées perdues.

Flux de don­nées hors Union européenne

Si l’usage qui peut être fait de don­nées per­son­nelles est bien règle­men­té en Europe, que se passe-t-il quand ces don­nées sont trans­fé­rées hors de l’Union euro­péenne (ce qui est très sou­vent le cas)? Com­ment contrô­ler ce qui est fait des don­nées rapa­triées par Face­book sur ses ser­veurs situés dans la Sili­con Valley ?

La réponse est simple. En prin­cipe, les don­nées per­son­nelles de citoyens euro­péens ne peuvent quit­ter l’Europe. Seuls les trans­ferts vers des pays où un niveau de pro­tec­tion des don­nées adé­quat existe sont auto­ri­sés18. Tel est, par exemple, le cas pour le Cana­da pour le sec­teur pri­vé. Dès lors, des trans­ferts de don­nées per­son­nelles venant d’Europe peuvent être effec­tués vers des ser­veurs d’entreprises pri­vées cana­diennes. La règle­men­ta­tion sur la pro­tec­tion des don­nées ne frei­ne­ra pas les rap­pro­che­ments éco­no­miques entre l’Union euro­péenne et le Canada.

Cepen­dant quand on parle de pays nord-amé­ri­cains et de don­nées, tout le monde pense à la NSA et à l’affaire Snow­den. Pour être bref, avant cette affaire, l’Union euro­péenne avait négo­cié avec les États-Unis (pour Face­book…) le « Safe Har­bor », un cadre juri­dique dans lequel les États-Unis s’engageaient à res­pec­ter les prin­cipes de la légis­la­tion euro­péenne en matière de pro­tec­tion des don­nées. Avec la révé­la­tion du pro­gramme « Prism » de la NSA par Edward Snow­den, la cour de Jus­tice de l’Union euro­péenne a consi­dé­ré que le « Safe Har­bor » n’apportait plus les garan­ties suf­fi­santes pour les citoyens euro­péens. Cette déci­sion pous­sa l’UE à rené­go­cier avec les États-Unis un nou­vel accord cen­sé être plus pro­tec­teur, nom­mé « Pri­va­cy shield ». Cet accord n’est tou­jours pas suf­fi­sant pour de nom­breux observateurs.

En conclusion

En écri­vant ce papier, nous com­pre­nons bien que le mariage big data et don­nées per­son­nelles peut en effrayer plus d’un, qui pour­rait deve­nir para­noïaque à chaque fois qu’il surfe sur Inter­net. Tel n’est pas le but de notre propos.

Le big data com­bi­né avec des don­nées per­son­nelles reste avant tout une oppor­tu­ni­té de pro­grès pour le moment sous-esti­mée. Cela peut faire avan­cer rapi­de­ment la recherche médi­cale, amé­lio­rer gran­de­ment l’efficacité des entre­prises et des ser­vices publics…

Il est vrai que les socié­tés telles que Google ou Face­book génèrent énor­mé­ment d’argent sur la base de nos don­nées per­son­nelles, il est éga­le­ment vrai que nos vies dépendent par­fois de la manière dont elles vont uti­li­ser ces données.

Mais, par ailleurs, ces ser­vices sont pro­po­sés sans contre­par­tie, si ce n’est le prix que valent nos don­nées évi­dem­ment, que nous cédons plus ou moins consciem­ment. Le rap­port de force entre ces socié­tés et leurs uti­li­sa­teurs reste for­te­ment à l’avantage des premières.

Et là entre en jeu la règle­men­ta­tion sur la pro­tec­tion des don­nées per­son­nelles. Elle per­met de rééqui­li­brer les choses, du moins en par­tie. Cela rend les pro­ces­sus de trai­te­ment de don­nées per­son­nelles plus trans­pa­rents ce qui amé­liore la prise de conscience col­lec­tive. Si tout le monde était sen­si­bi­li­sé à ces ques­tions, cha­cun serait à même de choi­sir en connais­sance de cause ce qu’il veut divul­guer (auto­dé­ter­mi­na­tion infor­ma­tion­nelle) et quelles consé­quences cela peut avoir pour lui.

  1. Plus de 80 % des gens en Europe et Amé­rique du Nord, chiffres venant du rap­port « ICT facts and figures 2016 » réa­li­sé par l’Union inter­na­tio­nale des télécommunications.
  2. Erics­son White Paper, « More than 50 Bil­lion Connec­ted Devices », 2011.
  3. C’est-à-dire que les don­nées ne sont pas orga­ni­sées sur la base de for­mats pré­dé­fi­nis (exemple une page web, une image…). À l’inverse, des don­nées struc­tu­rées sont pré­for­ma­tées afin d’être ana­ly­sées faci­le­ment à l’aide d’un pro­gramme infor­ma­tique, comme un tableur Excel.
  4. Les ana­lyses big data sont très uti­li­sées par le sec­teur finan­cier. Voir LesEchos.fr (S. Rol­land), « Com­ment le big data s’impose dans la ges­tion d’actifs ».
  5. Les exemples d’utilisation de ces don­nées qui vont suivre pour­raient faire chan­ger d’avis ces personnes.
  6. Cette acti­vi­té de data bro­kers consiste à ache­ter diverses bases de don­nées sur des per­sonnes. On croise alors ces dif­fé­rentes bases afin d’obtenir une infor­ma­tion plus com­plète sur chaque per­sonne concer­née. Enfin, le tout est reven­du à dif­fé­rentes socié­tés qui sou­haitent avoir accès à ces profils.
  7. V. Quef­fe­lec (CEO d’Euromediations), « Seul le big data a annon­cé Fillon gagnant ».
  8. LePoint.fr (S. Edel­son), « Pri­maire de la gauche : quand Twit­ter et Google per­mettent de pré­dire les résul­tats ».
  9. Pour véri­fier cela par vous-même, la socié­té ayant vu la vic­toire de Fillon pro­nos­ti­quait le 15 jan­vier Fr. Fillon et E. Macron en tête au pre­mier tour de la pré­si­den­tielle fran­çaise, tout en rap­pe­lant que plu­sieurs élé­ments majeurs pou­vaient encore modi­fier ces résul­tats. Voir V. Quef­fe­lec (CEO d’Euromediations), « Fillon, Macron, Le Pen ? ».
  10. Le mon­tant varie­ra, mais la période entre deux rééva­lua­tions du niveau de risque pour­rait aus­si for­te­ment dimi­nuer. Tech­ni­que­ment, on peut ima­gi­ner aller jusqu’à une rééva­lua­tion quo­ti­dienne, voire même en temps réel.
  11. Pour s’en convaincre, voir notam­ment un mon­tage réa­li­sé par le Wall Street Jour­nal qui met en pers­pec­tive deux fils d’actualités Face­book : un orien­té répu­bli­cain et un orien­té démocrate.
  12. Exemple tiré d’une confé­rence sur le sujet don­née par Eli Pari­ser.
  13. Les blo­quer n’est pas pos­sible parce qu’ils sont deve­nus indis­pen­sables à de nom­breux sites. Les blo­quer revient alors à rendre ces pages inaccessibles.
  14. Exemple : les ban­deaux cookies qui appa­raissent sur de nom­breuses pages web pour deman­der l’autorisation de trai­ter vos don­nées via un cookie.
  15. Les prin­ci­paux sont expli­qués juste après.
  16. Ne sont repris ici que les droits les plus importants.
  17. Voir les exemples cités précédemment
  18. Il est éga­le­ment pos­sible pour les entre­prises inté­res­sées de recréer contrac­tuel­le­ment le même cadre juri­dique qu’en Europe et ain­si d’assurer que des don­nées quit­tant l’Europe soient tout aus­si bien pro­té­gées que si elles res­taient sur le vieux continent.

Antoine Delforge


Auteur

chercheur au Centre de recherche information, droit et société (CRIDS) de la Faculté de droit de Namur