Experimentele sunt un capitol important din statistică, cu aplicații în toate zonele research-ului. A/B Testing-ul este un tip popular de experimente, fiind aplicat și în zona de marketing sau product management. În marketingul online există instrumente care se ocupă de setarea și rularea A/B testelor, inclusiv de partea statistică a acestora. Totusi, această parte este puțin înteleasă și, din aceasta cauză, deseori apar erori în interpretarea rezultatelor.
Etapele unui experiment sunt:
- Planificarea – pasul în care sunt stabilite variabilele, de la cea pe care o vrem optimizată (variabila dependentă), la cele care o pot influența (variablile independente)
- Design-ul – se referă, în primul rând, la alegerea tipului de test potrivit situației; online, majoritatea testelor sunt A/B, iar rezultatele pentru dependenta variabilă sunt de forma da / nu (de exemplu, a dat sau nu click pe buton)
- Analiza – dupa rularea testului, trebuie să vedem dacă este relevant, iar rezultatele trebuie interpretate
A/B Testing-ul reprezintă utilizarea design-ului experimentelor și statisticii pentru a compara două variante. Testul poate fi gândit astfel încât fiecare participant să vadă ambele variante sau participanții să fie împărțiți în 2 grupuri, fiecare dintre acestea având disponibilă una dintre variante. În ultimul caz, este nevoie sa nu existe diferente majore intre participantii dintre cele doua grupuri.
Primul grup este considerat grupul de control, iar al doilea este grupul căruia îi aplicăm tratamentul testat (pe web, tratamentul este de obicei pagina web modificată). Existența grupului de control ne ajută să observăm rezultatele și diferențele în grupul al doilea. Existența a doua grupuri, în aceleași condiții, ne ajută să facem o comparație între rezultatele fiecaruia. Asta nu inseamnă că diferența dintre ele nu poate fi cauzată doar de șansă, dar despre asta mai jos.
Testarea ipotezelor
Un A/B Test pornește de la o ipoteză pe care dorim să o verificăm. Folosirea unei ipoteze ne ajută să evitam prejudecata celui care va analiza rezultatele.
Avem doua notiuni care merg mână-în-mână:
- Ipoteza nulă – presupune că nu exista schimbări, nu există diferențe între grupuri și că orice diferenta în rezultate este din cauza șansei; obiectivul este de a contrazice această ipoteză.
- Ipoteza alternativă – este opusul ipotezei nule; de exemplu, dacă ipoteza nulă este că profitul adus de ambele variante este același, ipoteza alternativă este că profitul celor două variante este diferit; în acest exemplu, avem de testat o ipoteză în două variante: profitul poate fi mai mic, dar poate fi și mai mare; este important deoarece testarea statistică se face diferit atunci cand avem ipoteza într-o variantă sau în două.
Testarea ipotezelor pleacă de la asumarea că ipoteza nulă este adevărată, creând un model probabilistic „nul” si testează daca efectul observat este un rezultat datorat acelui model.
Analiza puterii statistice este folosită pentru a analiza corect rezultatele unui test. De exemplu, rezultatele pot fi influențate de diverse erori de măsurare. Cu cât erorile sunt mai mari, cu atât puterea statistică este mai mică, dar cu cât eșantionul pe care testăm este mai mare, cu atat erorile de măsurare sunt mai mici. Pe de altă parte, cu cât eșantionul este mai mare, scade efectul (de exemplu, corelația). Dar mai bine sa lămurim noțiunile folosite în analiza puterii:
- Puterea este probabilitatea de a contrazice ipoteza nula. Este si baza de la care se porneste pentru a calcula esantionul pe care trebuie să rulăm testul, pentru a ajunge la efectul dorit.
- Efectul este diferenta pe care dorim sa o avem intre cele doua grupuri testate, pentru a numi testul un succes.
- Pragul de semnificație, notat de multe ori alfa sau valoarea p, reprezinta nivelul de probabilitate de la care agreăm că ipoteza nulă este respinsă. Cel mai adesea, în testarea ipotezelor, pragul este de 5% (a se vedea în imaginea de la început zona care acoperă 95% și restul de aproximativ 5%),
- Eșantionul este numarul necesar de unități (de exemplu, persoane) pe care testăm, pentru a avea rezultate la puterea și efectul dorite.
Cunoscând o parte dintre acești indicatori, îi putem calcula și pe ceilalți. În trecut mi s-a reproșat că am scris formule statistice în articole și cititorii nu sunt interesați, motiv pentru care o să spun doar că există o mulțime de instrumente (software statistic, de programare sau instrumente de A/B Testing) cu care se pot face simplu aceste calcule.
Cele mai importante relații între indicatorii menționați anterior sunt:
- Cu cât puterea este mai mare, și eșantionul necesar va fi mai mare.
- La putere constanta și prag de semnificație crescut, eșantionul va fi mai mic.
- La putere și prag de semnificatie constante, pe masura ce efectul crește, eșantionul va scadea.
Cum în A/B Testing ne interesează să avem un eșantion cât mai mic, pentru ca testul să dureze mai puțin, putem spune că pentru asta avem nevoie de putere cât mai mică, prag de semnificație ridicat și efect mai mare. Atenție însă, aceste lucruri pot face testul irelevant statistic!
Testul t
Există numeroase teste statistice utilizate pentru a afla dacă s-a obținut relevanța statistică. Ideal, un test este validat prin re-eșantionare. Altfel spus, cele doua grupuri sunt combinate într-unul singur și apoi împărțite din nou în două, într-un mod aleator, după care se verifică dacă rezultatele A/B Testului sunt în continuare valide, lucru care se repetă de mai multe ori. Metoda este numită testul permutării și este folosită în data science și machine learning.
În urma cu aproximativ un secol, când a apărut testarea ipotezelor, puterea de calcul nu permitea folosirea testului permutării, așa că au gasit alte metode pentru a aproxima permutarea distribuțiilor. Unul dintre cele mai simple este Testul t. În acelasi timp, această metodă este potrivită pentru A/B Testing, scopul său fiind acela de a compara două eșantioane (în cazul nostru, grupurile A și B), ale caror date sunt numerice.
Pentru ca testul t să poată fi folosit indiferent de scală, ar fi nevoie în acest punct de standardizarea datelor înainte de a fi comparate cu distribuția t standard. Dar, la fel ca și în cazul calculului eșantionului sau a puterii statistice, în ziua de astazi avem software care să se ocupe de aceste lucruri și să ne ofere direct rezultatul de la testul t. În acest caz, există chiar și o formulă în Excel (pe langă celelalte variante software, de statistică sau de programare).
Rezultatul testului va fi valoarea p, de care am mai vorbit mai sus. Conditia este aceeași, ca aceasta să fie mai mica sau egala cu 5% sau 0.05 (sau valoarea aleasă la începutul testului). În acest caz, testul efectuat are relevanță statistică. Interpretarea greșită a valorii p este una dintre principalele probleme în A/B Testing.
Ce urmeaza după testarea ipotezelor
Metodele descrise mai sus reprezintă esențialul în statistica A/B Testelor. Pe lână acestea, aș mai aminti doar de factorii externi care pot influența un test și de efectele adverse care pot apărea.
În plus, există și diferite școli statistice cu păreri și metode diferite. Cele mai cunoscute sunt metodele frecventistă și bayesiană, dar acestea nu sunt singurele. Metoda frecventistă de A/B Testing este folosită în cercetarea academică, dar în marketingul online este folosită de persoane fără cunoștinte statistice, motiv pentru care testele sunt oprite de multe ori prea devreme.
Pentru a evita oprirea unui test care, pe moment, pare a avea rezultate relevante statistic, este nevoie sa calculezi eșantionul necesar înainte de a începe testul și apoi să aștepți să atingi acest număr, indiferent de recomandarile făcute în timpul testului de instrumentul de A/B Testing utilizat.
Din cauză că utilizatorii interpretează de multe ori greșit valoarea p și pragul de semnificație (care duce la eroarea pe care tocmai am descris-o), instrumente cunoscute de A/B Testing au decis să foloseasca metoda secvențială sau metoda bayesiană. Fiecare are avantaje și dezavantaje, dar se recomandă folosirea metodei bayesiene atunci când ai informații anterioare despre utilizatori. În schimb, când lipsesc aceste informații, este recomandată metoda frecventistă.
A nu se înțelege că metodele alternative nu pot induce utilizatorii în eroare. Un exemplu ar fi metoda bayesiană folosită de VWO, instrument care de multe ori semnalează în teste că s-a ajuns la o decizie inteligentă și că pot fi oprite pentru că există un câștigător. În realitate, în acel moment s-a constatat doar că nu mai există pierderi față de alegerea celeilalte variante, dar de aici până la avea un câștigător statistic mai este drum de parcurs. Discuția despre metodele folosite este departe de finalizare și probabil o să reiau subiectul în articole viitoare.