Google Data Studio este un instrument despre care se spune că trebuie folosit doar la raportare și vizualizare, dar asta numai după ce datele au fost deja prelucrate într-o altă aplicație, pentru că Data Studio nu este un instrument pentru modelarea datelor.
Lucrurile încep să se schimbe însă, mai ales după actualizările pe care le-a primit recent la acest capitol.
Tipuri de calcule
În primul rând, să vedem modurile în care putem face calcule în GDS:
- Calcule la nivel de sursă de date (conector)
- Calcule la nivel de grafic / tabel
- Alegerea a diferite modalități de a prezenta datele în grafic / tabel
Calculele la nivel de sursă de date (data source calculated fields) sunt persistente la nivelul sursei de date, adică pot fi folosite de către toți utilizatorii care au acces de editor, în acel raport, dar și în alte rapoarte care folosesc aceeași sursă de date.
Pentru a crea un astfel de calcul nou, mergem în lista de câmpuri (Fields). În partea de jos, avem posibilitatea de a adăuga unul nou (Create new field).
Interesant este că aceste calcule nu funcționează cu data blending.
Calculele la nivel de grafic / tabel (chart level calculated fields) sunt asemănătoare, dar pentru utilizare ad-hoc, adică atunci când le vrem într-un singur grafic. Un astfel de calcul nu ne va rămâne la dispoziție pentru alte grafice sau rapoarte.
Le adăugăm la grafic la fel ca orice metrică nouă (Add metric).
Acest tip de calcule funcționează și cu surse din data blending, spre deosebire de cel anterior!
Alegerea a diferite modalități de a prezenta datele în grafic / tabel nu este tocmai calcul în sensul folosit la modalitățile descrise anterior, pentru că de aici nu rezultă noi câmpuri (dimensiuni sau metrice), fiind mai mult o modalitate de a le afișa diferit pe cele existente (de exemplu procente, total, minim, maxim, medie, numărare, diferențe între cele anterioare etc.). De asemenea, aici avem câteva opțiuni de afișare, dar nu putem folosi funcțiile.
Tot aici ar trebui amintit și că Data Studio permite în tabele și în pivoți adăugarea de linii pentru total. Este bine de știut că există, dar nu pot folosi funcțiile despre care voi scrie în continuare.
Funcții pentru calcule
Calculele pot fi realizate pe baza unor operatori matematici simpli (+, -, /, *), dar și pe baza unor funcții care ne ajută să creăm câmpuri mai complexe. Aceste funcții sunt asemănătoare cu cele din alte instrumente de lucrat cu date (calcul tabelar, raportare sau baze de date).
Avem 6 categorii de funcții:
- Aritmetice – nu voi explica fiecare funcție pentru că cele mai multe pot fi înțelese datorită numelui; avem în această categorie funcții precum COS, ACOS, LOG, LOG10, SIN, ASIN, TAN, ATAN, POWER, SQRT, ABS, ROUND, CEIL, FLOOR, NARY_MAX, NARY_MIN
- Agregatoare – funcții care lucrează cu mai multe valori pentru a returna una singură, precum AVG, COUNT, COUNT_DISTINCT, MAX, MIN, MEDIAN, PERCENTILE, SUM, VARIANCE, STDDEV
- Date și timp – funcții precum SECOND, MINUTE, HOUR, DAY, WEEK, WEEKDAY, YEARWEEK, MONTH, QUARTER, YEAR, dar și unele cu care putem calcula, precum DATE_DIFF sau formata, precum TODATE
- Geografice – acestea returnează numele unor locuri și pot fi TOCITY, TOCOUNTRY, TOREGION, TOCONTINENT, TOSUBCONTINENT
- Text – pentru editarea sau curățarea câmpurilor text sau pentru a obține o valoare pe baza acestora, avem funcții precum CONCAT, CONTAINS_TEXT, STARTS_WITH, ENDS_WITH, UPPER, LEFT_TEXT, RIGHT_TEXT, REGEX_REPLACE, REGEX_MATCH, REGEX_EXTRACT, SUBSTR, TRIM, UPPER, LOWER, LENGHT
- Altele – alte operații interesante putem face cu CASE (în cazul), CAST (schimbă timpul unui câmp), HYPERLINK (returnează un link din URL), IMAGE (creează un câmp imagine în sursa de date)
Observăm că avem la dispoziție o gamă largă de funcții, lucru pe care cred că cei mai mulți utilizatori nu îl cunosc. De asemenea, putem vedea că sunt și unele care lipsesc, în special în zonele de funcții logice, funcții statistice sau funcții de calcul tabelar.
Interesant este că lipsesc și funcțiile specifice Google BigQuery, așa că ne putem aștepta ce va urma la acest capitol în Data Studio.
Noutăți la dimensiuni și metrice
Agregarea este metoda prin care datele sunt sumarizate în Google Data Studio. Câmpurile rezultate din calcule pot fi neagregate, agregate rând-cu-rând sau valori agregate.
De exemplu, dacă vom calcula Cost / Revenue, rezultatul va fi o dimensiune neagregată, pentru care sunt folosite direct valorile din câmpurile Cost și Revenue. În schimb, dacă vom face calculul SUM(Cost) / SUM (Revenue), rezultatul va fi o metrică agregată cu aggregare setată pe Auto, ceea ce înseamnă că tipul de agregare este setat și nu poate fi schimbat. Așadar, două calcule aproape la fel, însă dintr-unul rezultă o dimensiune neagregată și din celălalt o metrică agregată.
Noutatea este că modul implicit va fi de acum Auto și nu Sum, pentru a beneficia de avantajul descris mai sus. În cazul surselor de date care oferă date neagregate, acestea vor apărea ca dimensiuni, la care agregarea implicită va fi în continuare Sum. Metricele vor fi însă întotdeauna pe Auto. Cred că este foarte bine că au făcut clară distincția dintre cele două și că o acest lucru este indicat în interfață lângă fiecare câmp.
În același sens, au actualizat și definițiile:
- Dimensiunea este un set de valori neagregate după care poți grupa datele
- Metrica este o agregare specifică pe care o poți aplica unui set de valori. Cum metricele nu au un set propriu de valori, ele nu pot fi grupate fără o dimensiune
Aceste schimbări fac mai robuste câmpurile obținute în urma calculelor. În urma actualizării, unele câmpuri vechi pot apărea cu textul (deprecated) după numele lor. Dacă sunt folosite în calcule, acestea vor trebui editate și înlocuite cu noile câmpuri înainte de a fi șterse. Dacă nu sunt șterse, nu vă faceți griji, ele vor funcționa în continuare… asta dacă nu le șterge altcineva 🙂