Pachetele extind funcționalitățile de bază ale limbajului R, iar tidyverse este un set de pachete folosite în lucrul cu date. Pachetele din tidyverse au în spate aceeași filosofie și un mod de lucru comun. Pentru că tidyverse are o sintaxă diferită de cea obișnuită din R, se spune și că el însuși este un limbaj pentru rezolvarea problemelor de data science cu ajutorul codului R.

În urmă cu câteva zile s-a lansat versiunea 1.3.0. Mai multe despre aceasta, despre pachetele conținute și despre ce face fiecare dintre ele, găsiți în continuarea articolului.

Tidyverse cuprinde pachete care să rezolve majoritatea sarcinilor într-un proiect de data science, precum importul datelor, transformarea, manipularea, vizualizarea și programarea.

Pentru că tidyverse este un concept care a prins foarte bine, au apărut sute de pachete care folosesc aceleași principii și aceeași sintaxă, așa că mai nou vorbim de pachete de bază din tidyverse. Acestea sunt:

readr

Orice proiect de data science începe cu importul datelor și exact asta face acest pachet, care importă date din fișiere tabulare, precum csv, tsv sau fwf.

tidyr

Al doilea pas important este pregătirea (sau aranjarea) datelor într-o formă consistentă, pentru a face mai ușoară analiza ulterioară. tidyr oferă mai multe opțiuni interesante pentru asta. În septembrie s-a lansat versiunea 1.0.0 a acestui pachet, care a venit cu mai multe funcții noi.

dplyr

Urmează transformarea datelor, care poate conține calcule, filtre sau combinări în datele pe care le avem. Aceste lucruri se fac în dplyr.

forcats

Se folosește tot în transformarea datelor, dar pentru factori. Aceștia din urmă reprezintă tipul de date categorice din R (un fel de dimensiuni, pentru cei cu mai multă experiență în analytics decât în programare).

stringr

Este al treilea pachet folosit des în transformarea datelor. Așa cum îi spune și numele, se ocupă de șiruri (tipul de date string).

ggplot2

Este un pachet foarte popular de vizualizare a datelor. Despre acesta am mai scris câteva articole, precum și despre alte pachete care îl completează.

purrr

Lucrul cu date necesită de multe ori și programare, și aici intervine purrr, pachetul de programare funcțională în R.

tibble

Este un alt utilitar interesant. Este ca un fel de versiune optimizată de data frame, cea din urmă fiind în R o structură de date în format de tabel.

Toate aceste pachete se pot instala și încărca de-odată prin includerea lor în setul tidyverse. La instalare vom observa că vor fi și alte pachete, precum unele pachete care nu sunt de bază în tidyverse. Cele mai importante dintre acestea sunt:

  • readxl – pentru importul datelor în formate .xls sau .xlsx (în general, fișierele create în Excel)
  • haven – pentru importul din fișiere statistice, precum cele din SAS, SPSS sau Stata
  • rvest – pentru importul datelor de pe web (web scrapping)
  • googledrive – pentru interacțiunea cu fișierele din Google Drive
  • xml2 – pentru lucrul cu fișiere XML
  • jsonline – lucrul cu fișiere JSON
  • httr – pentru lucrul cu date din API-uri web
  • lubridate – pentru transformarea datelor calendaristice și a orelor și diverse calcule între acestea
  • hms – pentru transforamrea orelor în diverse formate
  • modelr – modelarea datelor folosind sintaxa tidyverse; acoperă modelări de bază, pentru lucruri avansate fiind nevoie de alte pachete

Toate aceste pachete primesc constant actualizări. Câteva dintre ele au primit versiuni noi chiar în ultima lună (de exemplu haven).

O soluție simplu pentru a începe folosirea acestor pachete este instalarea lor comună, adică rularea comenzii:

install.packages("tidyverse")

Desigur, pentru asta aveți nevoie întâi să aveți instalat R, preferabil și RStudio. Am scris aici despre asta.

Etichete: ,