Zona profesionoștilor în analiza datelor a atras atenția în ultima decadă. Din 2010 putem vorbi de data science ca o profesie, deși termenul a apărut în 2001, când a început militarea pentru folosirea statisticii și tehnologiei împreună.
Multe companii sunt la început cu crearea unor echipe de date. Altele se află încă la stadiul de intenție. Și totuși, profesia de analist de date se confruntă deja cu o criză existențială. E posibil ca tehnologia care a propulsat aceste joburi să fie și cea care le va înlocui?
Nu vreau să intru în detalii privind diferite titluri pe care le primesc angajații care lucrează cu date. Sunt organizații în care un data analyst are aceleași atribuții ca un data scientist în altele. În alte locuri, nu este foarte clar trasată linia între business analyst și data analyst. Sau chiar între acestea și un BI analyst sau un data engineer. Știu… găsim ușor pe Google definiții pentru toate acestea, comparații cu puncte comune și puncte diferite. Dar cu cât studiem mai mult, observăm că granițele dintre ele sunt tot mai greu vizibile. Așadar, voi numi generic această activitate profesională, analiza datelor.
Oricum se cheamă, profesia asta se află undeva între cele mai râvnite job-uri și o modă care e amenințată cu dispariția. În sprijinul ultimei afirmații stau programele software tot mai inteligente, dar și managerii care nu se bazează mult pe analiza datelor și într-o criză ca cea de acum pot face economii de la această echipă.
Tehnologia va ajunge la un moment dat să poată face în întregime o analiză a datelor așa cum o înțeleg mulți astăzi, la fel cum astăzi știe să ne recomande la ce filme să ne uităm în continuare sau unde să ne cazăm în următoarea călătorie. Numai că acest „în întregime” este discutabil în analiza datelor. Partea tehnologică o fi astăzi nucleul, dar nu este singura din procesul de analiză. Să vedem câteva lucruri pe care mașinile nu le vor face prea curând!
Identificarea problemelor
Instrumentele de automatizare se descurcă bine cu procesele bine cunoscute și bine definite. Dar acestea nu sunt toate problemele care pot apărea într-o organizație. Aici este nevoie de oameni care înțeleg situații complexe și știu să le „traducă” în una sau mai multe probleme pe care le pot gestiona calculatoarele.
O analiză începe cu definirea problemei și continuă cu folosirea de tehnici pentru a rezolva problema. Tehnici, la plural, deși de multe ori suntem tentați să folosim una singură, care credem că este cea mai bună pentru acea problemă. Folosind diferse tehnici sunt șanse mai mari să ajungem la cel mai bun rezultat, chiar și atunci când problema nu a fost definită corect la început.
Formularea întrebărilor
Am scris-o și în alte articole: cel mai bun analist nu este cel care vine cu cele mai bune răspunsuri, ci cel care adresează cele mai potrivite întrebări. Sigur că trebuie căutate și răspunsuri, ba chiar este parte din jobul său, dar este de preferat să avem întrebări corecte și răspunsuri incomplete, decât invers.
Este o treabă mult mai complexă decât pare. Sunt de acord că pentru asta trebuie să se schimbe și modul de lucru al multora dintre analiști. Ca să existe în continuare, această meserie trebuie să se adapteze.
Relațiile umane
Deși este o activitate în general tehnică, analiza datelor depinde în mare măsură de relațiile cu oamenii implicați. O persoană obișnuită să lucreze cu algoritmi se așteaptă la predictibilitate, însă relațiile cu alți oameni sunt… diferite.
Prima persoană cu care trebuie stabilită o relație bună este chiar cea care a cerut analiza. De obicei, aceasta este și cea care alocă și resursele pentru analiză, deci este important să înțeleagă diferența dintre o analiză făcută în câteva ore și una pentru care s-au alocat două săptămâni.
Urmează relațiile cu persoanele care cunosc bine domeniul. De obicei, este departamentul de specialitate. Aceștia oferă contextul necesar pentru începerea analizei, dar și o primă interpretare a rezultatelor.
Audiența care va primi rezultatele finale este, de multe ori, diferită de cei de mai sus, însă aceștia pot decide succesul sau eșecul analizei, după cum vei citi în continuare.
Sunt nenumărate conflicte care pot apărea între analist și cei de mai sus, de la cereri subiective privind rezultatele analizei sau la conflicte între unii dintre aceștia. Până la urmă, unele relații nu pot fi influențate de analist, dar rezultatele acestuia vor fi afectate dacă informațiile nu circulă cum trebuie în echipă.
Comunicarea
Mulți încheie procesul de analiză a datelor atunci când trimit mai departe un tabel, un grafic sau un dashboard. Probabil se vor mira când voi spune că asta nu este echivalent cu comunicarea rezultatelor. OK… orice regulă are excepții.
Pentru majoritatea analizelor, trimiterea sau prezentarea unui document cu toate informațiile relevante, inclusiv tabele sau grafice, ipoteze și concluzii, este un mod ideal de a finaliza proiectul.
Prezentarea rezultatelor ține și de calitățile de povestitor, pentru că de multe ori audiența este nemulțumită, dar nu atât de analiză, cât de informațiile care le-au fost prezentate și de modul în care acestea au fost legate. Creativitatea ne poate diferenția de mașini, dar numai parțial, dacă ne gândim că prin AI deja sunt scrise articole, sunt create cântece sau tablouri. În cazul unei analize de date, având aceleași date și aceleași rezultate, există diferite moduri de abordare și de prezentare.
Sunt cel puțin două moduri diferite în care poate fi gândit un proiect de analiza datelor:
- analitical – acesta începe chiar cu gândul la documentul final în minte; sunt cazuri în care în document va fi vizibilă doar o mică parte din întreaga analiză, pentru că treaba analistului este și să sintetizeze și să ofere mai departe doar informațiile relevante; totuși, din document vom putea observa cum a fost gândit proiectul
- generativ – această abordare se focusează pe procesul analizei, dezvoltând fiecare pas; la final, va fi foarte greu de știut cum a gândit analistul problema, pentru că de obicei doar el știe procesul prin care a trecut
Succesul analizei
După terminarea analizei, ar mai fi o întrebare care să ne preocupe: a avut succes? Și aici răspunsul este mult mai complex decât pare. În marketing ne-am putea gândi că dacă am demonstrat că un tip de campanii nu are niciun rezultat pe un anumit model de atribuire, ne-am făcut treaba. Dar suntem absolut siguri că această informație ajută cu adevărat?
O abordare superioară ar fi ca cel care a cerut analiza să stabilească dacă aceasta a fost sau nu de ajutor. Da, de fiecare dată pot fi alte criterii și de multe ori nu le putem controla. Însă asta poate fi cheia pentru a rezolva cele două probleme de care scriam la început: automatizarea procesului și analize de date care nu au fost luate în considerare.
Este dificil de găsit o definiție comună, motiv pentru care nu putem spune nici cum trebuie să fie un bun analist de date. Dar poate că tocmai aceste lucruri indefinibile sunt motivul pentru care specialiștii în analiza datelor sunt mai căutați ca oricând.
Analiza datelor este o activitate încă nouă, care nu și-a definit în totalitate principiile și termenele după care lucrează. Avem în continuare dezbateri, se publică lucrări ștințiifice care să susțină puncte de vedere. Nimeni nu știe în totalitate ce va urma. Este ca fotbalul în urmă cu un secol și jumătate – deși se joacă, încă mai sunt reguli majore de clarificat.
Prin acest articol am încercat să atrag atenția asupra câtorva probleme reale și să pun la un loc câteva dintre posibilele soluții, dar subiectul este departe de a fi rezolvat.