Prieteni, gânduri, schimburi, călătorii: majoritatea activităților umane dau de acum loc unei producții masive de date digitale. Colectarea și analiza acestora deschid perspective care ascut apetitul întreprinderilor. Dar transpunerea în date a lumii riscă și să pună în pericol libertățile, după cum o arată tentacularul program de supraveghere implementat în Statele Unite.
În secolul al III-lea d. Hr., se spunea că biblioteca Alexandriei conținea totalitatea cunoașterii umane. În zilele noastre, masa de informații disponibile este de atât de mare încât, dacă am împărți-o între toți pământenii, fiecare ar primi o cantitate de 320 de ori mai mare decât colecția din Alexandria: în total, 1200 exaocteți (miliarde de miliarde de octeți). Dacă am înregistra ansamblul pe CD-uri, aceștia ar forma 5 stive capabile fiecare să ajungă de la Pământ la Lună.
Hiperinflația de date este un fenomen relativ recent. În 2000, un sfert numai din informațiile consemnate în lume existau sub formă digitală. Hârtia, filmul și suportul analogic își împărțeau restul. Din pricina exploziei de fișiere – volumul lor dublează la fiecare trei ani -, situația s-a inversat în proporții incredibile. În 2013, digitalul reprezintă mai mult de 98% din total. Anglo-saxonii au inventat un termen pentru a desemna această masă devenită atât de colosală încât amenință să scape de sub controlul guvernanților și al cetățenilor: big data sau date în masă.
În fața gigantismului lor, este tentant să le considerăm numai în termeni numerici. Dar aceasta ar însemna să ignorăm centrul problemei: imensa sursă de date digitale provine din capacitatea de a « parametra » aspecte ale lumii și ale vieții umane care nu fuseseră încă niciodată cuantificate. Putem numi acest proces « transpunere în date » (datafication). De exemplu, localizarea unui loc sau a unei persoane a fost la început transpusă în date, inițial, prin intersecția longitudinii și latitudinii, iar apoi prin procedeul satelitar și digital al Global Positioning System (GPS). Prin Facebook, chiar și preferințele personale, relațiile amicale si «like -urile se schimbă în date gravate în memoria virtuală. Până și cuvintele sunt tratate ca elemente de informație, de când calculatoarele explorează secole de literatură mondială digitalizată.
Bazele astfel constituite se potrivesc cu tot felul de utilizări surprinzătoare, făcute posibile de o memorie informatică din ce în ce mai puțin costisitoare, de procesoare mereu mai puternice, de algoritmi tot mai sofisticați, și de folosirea principiilor de bază ale calculului statistic. În loc să învețe un calculator să execute o acțiune, cum ar fi conducerea unui autovehicul sau traducerea unei cărți – obiectiv în privința căruia cohorte de experți în inteligență artificială au eșuat timp de decenii -, noua abordare consistă în a-l îmbuiba cu o cantitate de informații suficientă ca să deducă probabilitatea ca un semafor să fie, în fiecare moment, verde mai degrabă decât roșu, sau în ce context ar traduce cuvântul englezesc light prin « lumină » mai degrabă decât prin « ușor ».
O astfel de utilizare presupune trei schimbări majore în abordarea nostră. Prima consistă în a culege și a utiliza un număr cât mai mare posibil de informații, în loc de a face o selectie așa cum fac statisticienii de mai bine de un secol. A doua implică o anumită toleranță față de dezordine: a învârti nenumărate date, dar de calitate inegală, se arată adesea a fi mai eficace decât a exploata un mic eșantion perfect pertinent. În sfârșit, a treia schimbare implică faptul că, în multe cazuri, va trebui să se renunțe la identificarea cauzelor pentru a se mulțumi cu corelații. În loc să caute să înțeleagă exact de ce o mașină nu mai funcționează, cercetătorii pot colecta și analiza cantități masive de informații legate de acest eveniment si de tot ceea ce-i este asociat cu scopul de a repera regularități și de a stabili în ce circumstanțe mașina riscă să cadă din nou în pană. Pot găsi un răspuns la «cum», nu la «de ce»; și, de multe ori, este suficient.
Google și algoritmul gripeiîntregistrate de către CDC pe una și aceeași arie geografică.Acestea [CDC] înregistrează mai ales consultațiile spitalicești ale bolnavilor de gripă peste tot în țară, dar aceste cifre trasează un tablou de multe ori în decalaj cu o săptămână sau două: o eternitate în contextul unei pandemii. Google, în schimb, poate furniza aceste statistici în timp real.
Prevenirea incendiilor la New York
Afacerea Snowden subliniază puterea statelor în domeniul datelor. Colectorii-exploatatori ai datelor digitale amenință într-adevăr să genereze o nouă formă de totalitarism, nu atât de îndepărtată de sumbrele fantezii ale literaturii științifico-fantastice. Lansat în 2002, filmul Minority Report, adaptarea unei nuvele de Philip K. Dick, imaginează distopia unei lumi viitoare guvernată de religia predicției. Eroul, interpretat de Tom Cruise, conduce o unitate de poliție capabilă să aresteze autorul unei crime înainta ca aceasta să fie comisă. Pentru a ști unde, când, cum trebuie să intervină, polițiștii recurg la creaturi stranii dotate cu o clarviziune presupusă infailibilă. Intriga pune în lumină erorile unui astfel de sistem, și mai rău, negarea principiului însuși de liber arbitru.
Redescoperirea virtuțiilor imprevizibilității
La fel cum Internetul a bulversat modurile de comunicare între persoane, maniera în care societatea tratează informația este transformată radical. Pe măsură ce exploatăm aceste surse pentru a elucida întâmplări sau a lua decizii, descoperim că sub multe aspecte, existențele noastre țin de probabilități mai mult decât de certitudini.
Această schimbare de metodă în privința datelor digitale – exhaustive și nu eșantionate, dezordonate și nu metodice – explică alunecarea de la cauzalitate spre corelație. Ne interesează mai puțin cauzele profunde care determină mersul lumii decât asocierile în stare să lege între ele fenomene disparate. Obiectivul nu mai este de a înțelege lucrurile, ci de a obține o eficacitate maximală.
Să luăm exemplul lui United Parcel Service (UPS), cea mai mare companie mondială de livrări. Aceasta a instalat captoare pe anumite piese ale vehiculelor sale pentru a identifica problemele de supraîncălzire sau de vibrație corelate cu defecțiunile pe care aceste piese le-au suferit în trecut. Procedând astfel, ea poate anticipa pana pentru a înlocui piesele defectuoase la garajist mai degrabă decât pe marginea șoselei. Datele nu identifică raportul de cauzalitate între creșterea temperaturii și defecțiunea piesei; ele nu diagnostichează sursa problemei. În schimb, ele indică UPC metoda de a preveni incidente costisitoare.
Aceeași metodă poate fi aplicată defecțiunilor persoanei umane. În Canada, cercetătorii au găsit astfel un mod de a localiza infecțiile la bebelușii prematuri înainte ca simptomele vizibile să apară. Creând un flux de mai bine de o mie de date pe secundă, combinând șaisprezece indicatori, printre care pulsul, tensiunea, respirația și nivelul de oxigen din sânge, au reușit să stabilească corelații între dereglări minore și boli mai serioase.Această tehnică ar trebui să permită medicilor să intervină preventiv ca să salveze vieți. Cu timpul, înregistrarea acestor observații ar putea și să-i ajute să înțeleagă mai bine ce anume provoacă astfel de infecții. Totuși, când viața unui bebeluș este în joc, e mai util să anticipezi ce ar putea să se producă decât să știi de ce.
Aplicația medicală ilustrează bine această posibilitate de a identifica corelații, chiar dacă cauzele lor subiacente rămân obscure. În 2009, analiștii de la Google au publicat în revista Nature un articol care a făcut senzație în mediile medicale (1). Autorii săi afirmau că este posibil să reperezi focarele de gripă sezonieră plecând de la arhivele gigantului Internetului. Acesta administrează nu mai puțin de un miliard de cereri pe zi numai pe teritoriul american, și păstrează conștiincios urma fiecărei operații de acest gen. El a selecționat cincizeci de milioane de termeni, cei mai frecvent introduși pe motorul de căutare între 2003 și 2008, apoi i-a confruntat cu fișierul gripei de la centrele pentru controlul și prevenirea bolilor (Centers for Disease Control and Prevention, CDC). Obiectiv: a descoperi dacă recurența unor cuvinte cheie coincidea cu apariția virusului; în alte cuvinte, a evalua corelația posibilă între frecvența anumitor căutări pe Google și vârfurile statistice
Compania nu dispunea de nici un element pentru a ghici care cuvinte cheie puteau oferi o indicație probantă. Ea s-a mulțumit cu introducerea tuturor eșantioanelor sale într-un algoritm conceput pentru a calcula corelația acestora cu atacurile virusului. Sistemul său a combinat apoi termenii reținuți pentru a încerca să obțină modelul cel mai fiabil. După cinci sute de milioane de operații de calcul, Google a reușit să identifice patruzeci și cinci de cuvinte cheie – cum ar fi «durere de cap» sau «nas care curge» – a căror reiterare coincidea cu statisticile de la CDC. Cu cât frecvența lor era mai mare pe o anumită zonă, cu atât virusul făcea ravagii în acea zonă. Concluzia poate părea evidentă dar, cu un miliard de căutări pe zi, ar fi fost imposibil să ajungi la ea prin alte mijloace.
Informațiile folosite de Google erau totuși imperfecte. În măsura în care erau dactilografiate și stocate în mult mai multe scopuri decât altruismul sanitar, greșelile de dactilografiere și frazele incomplete erau o puzderie. Dar dimensiunea colosală a băncii de date a compensat în mare măsură natura sa dezordonată. Ceea ce reiese din aceasta nu este decât o simplă corelație. Ea nu furnizează nici un indiciu în privința cauzelor care au împins internautul să facă acea căutare. Era pentru că avea febră el însuși, pentru că i se strănutase în față în metrou, sau pentru că jurnalul televizat îl îngrijorase? Google nu știe nimic și puțin îi pasă. Se pare de altfel că în decembrie trecut sistemul său a supraestimat numărul de cazuri de gripă în Statele Unite. Previziunile ne sunt decât probabilități, niciodată certitudini, mai ales când materia care le alimentează – căutările pe Internet – este de o natură atât de instabilă și vulnerabilă în fața influențelor, în special mediatice. Rămâne că datele în masă pot identifica fenomene în curs de desfășurare.
Un mare număr de specialiști asigură că utilizarea lor a început cu revoluția digitală a anilor 1980, când creșterea puterii procesoarelor și a memoriei informatice a făcut posibile stocarea și analiza de date din ce în ce mai pletorice. Este adevărat numai în parte. Progresele tehnologice si erupția Interneului au contribuit desigur la reducerea costurilor de colectă, de stocaj, de prelucrare și de schimb de informații. Dar datele în masă constituie mai ales ultima manifestare a irepresibilei dorințe a omului de a înțelege și de a cuantifica lumea. Pentru a sonda semnificația acestei noi etape, trebuie aruncată o privire pe alături – sau mai bine zis, în jos.
Koshimizu Shigeomi este profesor la Institutul avansat de tehnologie industrială din Tokyo. Specializarea sa consistă în a studia maniera în care contemporanii săi stau în poziția așezată. Este un câmp de studii puțin frecventat, și totuși bogat în învățăminte. Când o persoană își așează posteriorul pe un suport oarecare, postura sa, contururile sale și distribuția masei sale corporale reprezintă tot atâtea informații cuantificabile și analizabile. Cu ajutorul unor captoare amplasate pe un fotoliu de automobil, Koshimizu și echipa sa de ingineri au măsurat presiunea exercitată de șezutul șoferului pe o rețea de trei sute și șaizeci de puncte, fiecare indexat pe o scară de la zero la două sute cincizeci și șase. Datele astfel recoltate permit compunerea unui cod digital propriu fiecărei ființe umane. Un test a demonstrat că sistemul său permitea identificarea unei persoane cu o precizie de 98%.
Aceste lucrări sunt mai puțin ciudate decât par. Obiectivul lui Koshimizu este de a găsi o aplicație industrială pentru descoperirea sa, spre exemplu un sistem antifurt pentru industria automobilă. O mașină echipată cu aceste captoare fesiere ar putea să-și recunoască proprietarul și să ceară tuturor celorlalți șoferi o parolă înainte de a porni. Transformarea unei perechi de fese într-un buchet de date digitale reprezintă un serviciu apreciabil și o afacere potențial lucrativă. Ea ar putea servi de altfel în mai multe scopuri decât protecția dreptului de proprietate asupra vehiculului: spre exemplu, evidențierea legăturii între postura automobilistului și securitatea rutieră, între gesturile de la volan și riscul de provocare al unui accident. Captoarele ar putea și declanșa o alertă sau o frenare automată în momentul în care șoferul ațipește la volan.
Koshimizu a pus mâna pe un obiect care nu a fost încă niciodată tratat ca o dată, nici măcar perceput ca având și cel mai mic interes în termeni de informație, pentru a-l converti într-un format cuantificat din punct de vedere digital. Transpunerea în date reprezintă altceva decât digitalizarea, care consistă în a traduce un conținut analogic – text, film, fotografie – într-o secvență de 1 și de 0 lizibil pe un calculator. Ea se referă la o acțiune mult mai vastă, și cu implicații încă nebănuite: digitalizarea nu a documentelor, ci a tuturor aspectelor vieții.
Ochelarii elaborați de Google – echipați de o cameră, de un microfon și conectați la Internet – schimbă privirea noastră în date; Twitter transpune în date gândurile noastre; LinkedIn face de asemenea cu relațiile noastre profesionale.
Din momentul în care un lucru suferă acest tratament, e posibil să-i schimbi întrebuințarea și să transformi informația pe care o conține într-o nouă formă de valoare. IBM spre exemplu, a obținut în 2012 un brevet pentru «securizarea birourilor printr-o tehnologie informatică de suprafață»: o formulare savant absconsă pentru a desemna o acoperitoare de sol echipată cu receptoare, ca un ecran de smartphone pe care l-am acționa cu picioarele. Transpunerea în date a solului deschide tot felul de perspective. Podeaua dumneavoastră ar putea reacționa la prezența dumneavoastră, declanșa aprinderea luminii când ajungeți acasă, identifica un invitat plecând de la greutatea sa sau de la modul său de a se mișca. Ar putea declașa alarma când cineva ar cădea și nu s-ar ridica – o aplicație care ar putea interesa persoanele în vârstă. Comercianții ar putea urmări deplasarea clienților lor prin magazin. Pe măsură ce fiecare activitate umană devine înregistrabilă și exploatabilă, învățăm mai multe despre lume. Învățăm ceea ce nu am fi putut niciodată învăța înainte, în lipsa instrumentelor comode și accesibile pentru a-l măsura.
M. Michael Bloomberg s-a îmbogățit în industria datelor digitale. Nu este de mirare deci că orașul New York, al cărui primar este, le folosește pentru a spori eficacitatea serviciilor publice și, mai ales, pentru a le reduce costul. Strategia orașului de prevenire a incendiilor constituie un bun exemplu al acestui demers.
Imobilele subdivizate ilegal în părți locative prezintă mai mult risc să fie incendiate decât celelalte. New York înregistrează în fiecare an douăzeci și cinci de mii de plângeri pentru clădiri suprapopulate, dar nu numără decât două sute de inspectori pentru a le răspunde. La primărie, o mică echipă de analiști s-a aplecat asupra problemei. Ca să atenueze dezechilibrul dintre nevoi și resurse, ea a creat o bancă de date recenzând cele nouă sute de mii de clădiri ale orașului, completată cu indicatorii celor nouăsprezece agenții municipale: lista scutirilor fiscale, folosirea neregulamentară a instalațiilor, tăieri de apă și de electricitate, chirii neplătite, rotații de ambulanțe, nivel de infracționalitate, prezenta rozătoarelor, etc. Analiștii au încercat mai apoi să determine corespondențele între această avalanșă de informații și statisticile privind incendiile produse în oraș în cursul ultimilor cinci ani. Fără nici o surpriză, ei au stabilit că tipul de clădire și data sa de construcție jucau un rol important în expunerea sa la incendii. Mai neașteptat a fost faptul de a descoperi că imobilele care au obținut un permis pentru lucrări de reparații ale fațadelor prezentau mult mai puține riscuri de incendiu.
Confruntarea acestor date a permis echipei municipale să elaboreze o schemă capabilă să determine criteriile în funcție de care o plângere pentru suprapopulare necesită o atenție specială. Niciuna dintre caracteristicile reținute de analiști nu poate fi considerată în sine drept o cauză de incendiu; puse una lângă alta, ele sunt totuși strâns corelate cu un risc mărit de izbucnire a focului. Această descoperire a bucurat inspectorii newyorkezi: atunci când în trecut, numai 13 % din vizitele lor dădeau loc unui ordin de evacuare, proporția a crescut la 70 % după adoptarea noii metode.
Datele în masă pot de asemenea să contribuie la o mai mare transparență în viața democratică. O mișcare largă s-a format în jurul revendicării de deschidere a datelor publice (open data), care merge dincolo de simpla apărare a libertății de informație. Este vorba despre a pune presiune pe guverne pentru a da acces tuturor la munții de informații pe care le-au acumulat – cel puțin cele care nu țin de secretul de Stat. Statele Unite se arată destul de avansat în acest domeniu, cu difuzarea online a arhivelor administrației federale (expurgate de elementele lor sensibile) pe site-ul Data.gov. Alte țări le urmează.
Pe măsură ce Statele promovează utilizarea datelor în masă, o necesitate apare: protecția cetățenilor împotriva dominației a câtorva actori ai pieței. Companii ca Google, Amazon sau Facebook – la care trebuie adăugat mediul mai discret dar nu mai puțin redutabil al curtierilor de date, ca Acxiom sau Experian – strâng zi după zi cantități colosale de informații despre oricine și orice. Există legi care interzic constituirea de monopoluri în industria de bunuri și de servicii, cum ar fi software-urile sau media. Această încadrare este aplicată unor sectoare destul de ușor de evaluat. Dar cum să se aplice legislația antimonopol unei piețe atât de insesizabile și de instabile? O amenințare planează deci asupra libertăților individuale. Și acesta mai ales că, cu cât datele se acumulează mai mult, cu atât utilizarea lor fără consimțământul persoanelor în cauză devine probabilă. O dificultate pe care legislatorul și tehnologia par incapabili să o rezolve.
Tentativele de a implementa o formă de reglementare a pieței ar putea conduce la o confruntare pe scena internațională unde cel mai tare câștigă. Guvernele europene au început să ceară explicații lui Google, a cărui poziție dominantă și al cărui dispreț pentru viața privată suscită o anumită îngrijorare, puțin asemănătoare cu cea a companiei Microsoft, care și-a atras tunete și fulgere din partea Comisiei europene acum zece ani. Facebook ar putea să se găsească și el în colimatorul judiciar al mai multor țări, din cauza cantității astronomice de date pe care le deține despre utilizatorii săi. Întrebarea dacă fuxurile de informații ar trebui să beneficieze de legile ce încadrează liberul schimb, prevestește câteva bătălii aprige între diplomați. Dacă China persistă în a cenzura utilizarea motoarelor de căutare pe Internet, putem să ne imaginam că într-o zi ar putea să fie inculpată de o jurisdicție internațională, nu numai pentru violarea libertății de expresie, ci și, și poate mai ales, din cauza obstacolelor pe care le impune comerțului.
Până când Statele vor învăța să considere libertățile individuale ca un bun demn de a fi protejat, industria datelor în masă reactualizează nestingherite imaginea lui Big Brother. În iunie 2013, ziarele din lumea întreagă au dezvăluit că M. Edward Snowden a făcut publice informații privind activitățile de supraveghere ale angajatorului său: National Security Agency (NSA), principala agenție de informații americană. În plus fata telecomunicații, erau în cauză interogațiile pe motoarele de căutare, mesajele publicate pe Facebook, conversațiile pe Skype, etc. Autoritățile americane au explicat că datele, colectate cu aprobarea prealabilă a justiției, nu priveau decât indivizi « suspecți ». Dar, cum toate activitățile de la NSA rămân secrete, nimeni nu este în măsură să o verifice.
Identificarea criminalilor care nu sunt încă: ideea pare ciudată. Din cauza datelor în masă, aceasta este de acum luată în serios în cele mai înalte sfere ale puterii. În 2007, departamentul securității interioare – un fel de minister al antiterorismului creat de M. George W. Bush în 2003 – a lansat un proiect de cercetare destinat să identifice« teroriștii potențiali », astăzi inocenți dar sigur vinovați mâine. Botezat« tehnologie de depistare de atribute viitoare », (Future Attribute Screening Technology, FAST), programul consistă în a analiza toate elementele legate de comportamentul subiectului, de limbajul său corporal, de particularitățile sale fiziologice, etc. Ghicitorii de astăzi nu mai citesc în zațul de cafea, ci în software de prelucrare a datelor (2). În multe dintre marile orașe, cum ar fi Los Angeles, Memphis, Richmond sau Santa Cruz, forțele de ordine au adoptat software de« securizare predictivă », capabile să prelucreze informații despre crime trecute pentru a stabili unde și când ar putea să se producă următoarele. Pentru moment, aceste sisteme nu permit identificarea suspecților. Dar nu ar fi surprinzător dacă ar reuși aceasta într-o bună zi.
Se întâmplă totuși ca demnitarii americani să-și muște mâinile pentru că au mizat totul pe infailibilitatea cifrelor. Ministrul apărării sub președinția lui John Kennedy și cea a lui Lyndon Johnson, Robert McNamara nu se jura decât pe statistici pentru măsurarea acțiunilor memorabile ale trupelor sale în Vietnam (citiți « Tout savoir sans rien connaître »). Cu echipa sa, scruta curba numărului de inamici eliminați. Transmisa comandanților pe post de reprimandă sau de încurajare, difuzata în fiecare zi în ziare, numărătoarea vietcongilor morți a devenit data cardinală a unei strategii și simbolul unei epoci. Partizanilor războiului, ea dădea asigurarea că victoria este aproape. Oponenților, ea aducea proba că războiul era o infamie. Dar cifrele erau deseori eronate și fără nici un raport cu realitatea de pe teren. Nu ne putem decât bucura atunci când interpretarea datelor ameliorează condițiile de viață ale contemporanilor noștri, dar ea nu ar trebui să conducă la a pune deoparte sensul ei comun…
Pe viitor, pe aceasta se va baza tot mai mult, la bine și la rău, managementul marilor probleme planetare. Lupta împotriva încălzirii climatice, spre exemplu, impune reunirea tuturor informațiilor disponibile legate de fenomene de poluare, cu scopul de a localiza zonele unde trebuie intervenit cu prioritate. Dispunând captoare peste tot în jurul planetei, inclusiv în smartphone-urile a milioane de utilizatori, se dă posibilitatea climatologilor de a construi modele mai fiabile și mai precise.
Dar, într-o lume în care datele în masă orientează din ce în ce mai strâns practicile și deciziile puternicilor, ce loc va mai rămâne pentru oamenii de rând, pentru refractarii la tirania digitală sau pentru oricine merge împotriva curentului? Dacă se impune fiecăruia cultul intrumentelor tehnologice, se prea poate ca, în reacție, umanitatea să descopere virtuțiile imprevizibilității: instinctul, asumarea de riscuri, accidentul sau chiar eroarea. Atunci ar putea să se ivească necesitatea de a păstra un spațiu unde intuiția, bunul simț, provocarea logicii, hazardurile vieții și tot ceea ce compune substanța umană vor ține piept calculelor calculatoarelor.
De funcția atribuită datelor în masă depinde supraviețuirea noțiunii de progres. Ele facilitează experimentarea și explorarea, dar tac atunci când apare scânteia invenției. Dacă Henry Ford ar fi întrebat algoritmii informatici pentru a evalua așteptările consumatorilor, aceștia i-ar fi răspuns probabil: «Cai mai rapizi».
Autori: Kenneth Cukier si Viktor Mayer-Schönberger (Respectiv jurnalist și profesor la Universitatea din Oxford, autori ai Big Data: A Revolution That Will Transform How We Live, Work, and Think, Houghton Mifflin Harcourt, Boston, 2013.)
NOTA: Acest articol este extras din cartea lor Big Data: A Revolution That Will Transform How We Live, Work, and Think, Houghton Mifflin Harcourt, Boston, 2013.
(1) Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski et Larry Brilliant, « Detecting influenza epidemics using search engine query data », Nature, n°457, Londres, 19 février 2009.
(2) Lire Pablo Jensen, « Simulation numérique des conflits sociaux », Le Monde diplomatique,avril 2013.
Traducerea: C. C.
Sursa: Razboi intru Cuvant
Adauga comentariu