R este cel mai popular limbaj de programare open source folosit pentru analiza datelor. Luna trecută, Stack Overflow anunța că secțiunea lor dedicată acestui limbaj a avut în ultimii 5 ani una dintre cele mai ridicate rate de creștere, comparativ cu secțiunile dedicate celorlalte limbaje. Aceeași sursă l-a numit și limbajul cu cei mai puțini oameni cărora nu le place să lucreze cu acesta. Desigur, trebuie ținut cont că are o bază mai mică de utilizatori, ceea ce este absolut normal, fiind un limbaj nișat.

Mai important, este un limbaj robust cu o comunitate solidă. A apărut în urmă cu 24 de ani pentru a fi folosit de statisticieni, iar în prezent avem aproximativ 12.000 de pachete create de comunitate, și asta doar pe site-ul „oficial”. Un pachet este o colecție de funcții care extinde capabilitățile limbajului. Pentru a observa creșterea, trebuie menționat că în iunie s-a atins cifra rotundă de 10.000 de pachete, în fiecare săptămână lansându-se câteva titluri interesante. De exemplu, în urmă cu o lună a apărut officer, un pachet care exportă din R grafice editabile pentru documentele Microsoft Office.

De ce am vrea datele noastre din Google Analytics în R? În primul rând, avem o flexibilitate mai mare pentru prelucrarea acestora. Cum spuneam mai spus, în R avem pachete pentru orice fază din analiza datelor, de la curățare și transformare, la modelare statistică, raportare și vizualizare de date și chiar generare de predicții și machine learning.

Ghid pas cu pas pentru importarea datelor din Google Analytics în R

      1. Instalează R

        Desigur, pentru a lucra în R, trebuie întâi să îl avem instalat. Versiunea de Windows poate fi descărcată de aici. Pe același site pot fi gasite versiunile și pentru alte platforme.

      2. Instalează R Studio

        Poți lucra direct în R, dar este mai comod să ai instalat un Integrated Development Environment (IDE). Există multe opțiuni, dar dacă nu ești deja obișnuit cu un IDE din lucrul cu alte limbaje de programare, R Studio este cel preferat de utilizatorii R. Versiunea gratuită de R Studio Desktop este foare bună.

      3. Instalează googleAnalyticsR

        Aproape orice lucru pe care vrem să îl facem în R va necesita întâi instalarea cel puțin a unui pachet. Există pachete speciale care știu să importe date din majoritatea tipurilor de fișiere sau surse de date. La fel este și în cazul Google Analytics, pentru care avem cel puțin 6 pachete din care să alegem. În prezent, este preferat googleAnalyticsR pentru că este singurul care suportă versiunea 4 de Google Analytics API. Pentru a instala acest pachet, este suficient să scrieți în consola R Studio și să executați următoarea comandă:

        install.packages("googleAnalyticsR")

        Da, R face diferența între litere minuscule și majuscule. De asemenea, știe să caute pachetele în sursa oficială (dacă nu este schimbată cu o altă sursă de pachete). Se poate instala, de exemplu, și din github, dar pentru asta este o altă comandă și… un alt pachet care trebuie inițial instalat 😉

        Procesul de instalare al unui pachet cuprinde și instalarea altor pachete necesare pentru ca pachetul dorit de noi să ruleze, deci o instalare poate dura.

      4. Află ID-ul profilului de GA

        Înainte de a trece la treabă, mai avem nevoie și de ID-ul profilului (vizualizării) de Google Analytics din care vrem să extragem date. Îl găsești în Admin, subsecțiunea View Settings. Vei avea nevoie de el în pasul următor.

      5. Rulează un script care să extragă primele date din GA

        Prima dată, atunci când folosim o un pachet, trebuie să îl încărcăm. Comanda pentru acest lucru este cea de mai jos:

        library(googleAnalyticsR)

        Urmează login-ul în contul Google. Rulând următoarea comandă, va apărea o pagină web unde prima dată va trebui să vă logați în cont.

        ga_auth()

        După aceasta, ajungem la funcția care va importa datele pe care le dorim. Am decis să import numărul zilnic de utilizatori și cifrele de completare pentru un obiectiv (Goal 1), pentru ultimul an (365 de zile). Altă variantă era folosirea datelor exacte pentru intervalul de timp dorit, R folosind pentru asta standarul ISO (an-lună-zi).

        ga <- google_analytics_4(viewId = "1234567", date_range = c(Sys.Date()-365, Sys.Date()-1), metrics = c("users","goal1Completions"), dimensions = "date", anti_sample = TRUE)

        Nu uita să înlocuiești View ID-ul din exemplul meu (acel 1234567) cu cel obținut de tine la pasul anterior!

        După executarea acestei comenzi, în zona din dreapta sus a R Studio, Environment, vei observa secțiunea Data, în care a apărut setul nostru de date și informații de bază despre el (lumărul de linii și coloane). Cu un click pe el, il vei putea vedea în totalitate. Așadar, cu o singură linie de cod, am obținut datele de care avem nevoie!

        De notat că primul ga este numele dat de mine pentru setul de date pe care îl vom obține și poate fi schimbat. Următorul lucru interesant, google_analytics_4, este numele funcției care importă din Google Analytics API 4 în pachetul folosit de noi.

        La finalul funcției, mai observăm un argument numit anti_sample. Da, acesta face exact ce îți imaginezi, cere datele în apelări separate, încercând să evite sampling-ul Google Analytics. Iată un alt argument pentru care ar trebui să folosim Google Analytics împreună cu R!

        Desigur, pot fi extrase și alte combinații de dimensiuni și metrice. Pe Google Developers există un ghid cu numele tuturor.

      6. Bonus: Creează o primă vizualizare cu datele extrase

        Datele au fost extrase și sunt în R, de unde putem decide cum le vom folosi. Voi încheia cu un mic exemplu de generare da unui grafic foarte simplu cu datele dintr-un indicator. O singură linie de cod este suficientă:

        dotchart(ga$goal1Completions, pch=16, col = rgb(0,0,0,0.5))

        Observăm cu ocazia aceasta și cum poate fi apelată o coloană din setul nostru de date. Rularea comenzii de mai sus va genera următorul grafic în R:

        Argumentul pch definește tipul simbolului ales (punctul). Urmează cifrele care definesc culoarea, iar acel 0.5 de la final este opacitatea de 50%. Avem un singur indicator pe axa x și niciunul pe axa y.

        Graficul nu arată prea bine și sunt 2 motive pentru asta. Primul – am folosit instalarea de bază, fără a adăuga alte pachete. În tot articolul am încercat să țin lucrurile cât mai simple. Un nou pachet înseamnă noi funcții și o nouă logică de învățat înainte de folosire. În al doilea rând, există mai multe motive pentru care creăm vizualizări de date. De obicei, motivul este prezentarea datelor, dar nu este singurul. Generarea de vizualizări de date pentru analist este și ea importantă. Un grafic ca cel de mai sus ne arată rapid unde se situează valorile, lucru util înainte de a trece la alte prelucrări și analize pe datele noastre.

Etichete: , ,