Tidyverse 1.3.0

Pachetele extind funcționalitățile de bază ale limbajului R, iar tidyverse este un set de pachete folosite în lucrul cu date. Pachetele din tidyverse au în spate aceeași filosofie și un mod de lucru comun. Pentru că tidyverse are o sintaxă diferită de cea obișnuită din R, se spune și că el însuși este un limbaj pentru rezolvarea problemelor de data science cu ajutorul codului R.

În urmă cu câteva zile s-a lansat versiunea 1.3.0. Mai multe despre aceasta, despre pachetele conținute și despre ce face fiecare dintre ele, găsiți în continuarea articolului.

Tidyverse cuprinde pachete care să rezolve majoritatea sarcinilor într-un proiect de data science, precum importul datelor, transformarea, manipularea, vizualizarea și programarea.

Pentru că tidyverse este un concept care a prins foarte bine, au apărut sute de pachete care folosesc aceleași principii și aceeași sintaxă, așa că mai nou vorbim de pachete de bază din tidyverse. Acestea sunt:

readr

Orice proiect de data science începe cu importul datelor și exact asta face acest pachet, care importă date din fișiere tabulare, precum csv, tsv sau fwf.

tidyr

Al doilea pas important este pregătirea (sau aranjarea) datelor într-o formă consistentă, pentru a face mai ușoară analiza ulterioară. tidyr oferă mai multe opțiuni interesante pentru asta. În septembrie s-a lansat versiunea 1.0.0 a acestui pachet, care a venit cu mai multe funcții noi.

dplyr

Urmează transformarea datelor, care poate conține calcule, filtre sau combinări în datele pe care le avem. Aceste lucruri se fac în dplyr.

forcats

Se folosește tot în transformarea datelor, dar pentru factori. Aceștia din urmă reprezintă tipul de date categorice din R (un fel de dimensiuni, pentru cei cu mai multă experiență în analytics decât în programare).

stringr

Este al treilea pachet folosit des în transformarea datelor. Așa cum îi spune și numele, se ocupă de șiruri (tipul de date string).

ggplot2

Este un pachet foarte popular de vizualizare a datelor. Despre acesta am mai scris câteva articole, precum și despre alte pachete care îl completează.

purrr

Lucrul cu date necesită de multe ori și programare, și aici intervine purrr, pachetul de programare funcțională în R.

tibble

Este un alt utilitar interesant. Este ca un fel de versiune optimizată de data frame, cea din urmă fiind în R o structură de date în format de tabel.

Toate aceste pachete se pot instala și încărca de-odată prin includerea lor în setul tidyverse. La instalare vom observa că vor fi și alte pachete, precum unele pachete care nu sunt de bază în tidyverse. Cele mai importante dintre acestea sunt:

readxl – pentru importul datelor în formate .xls sau .xlsx (în general, fișierele create în Excel)
haven – pentru importul din fișiere statistice, precum cele din SAS, SPSS sau Stata
rvest – pentru importul datelor de pe web (web scrapping)
googledrive – pentru interacțiunea cu fișierele din Google Drive
xml2 – pentru lucrul cu fișiere XML
jsonline – lucrul cu fișiere JSON
httr – pentru lucrul cu date din API-uri web
lubridate – pentru transformarea datelor calendaristice și a orelor și diverse calcule între acestea
hms – pentru transforamrea orelor în diverse formate
modelr – modelarea datelor folosind sintaxa tidyverse; acoperă modelări de bază, pentru lucruri avansate fiind nevoie de alte pachete

Toate aceste pachete primesc constant actualizări. Câteva dintre ele au primit versiuni noi chiar în ultima lună (de exemplu haven).

O soluție simplu pentru a începe folosirea acestor pachete este instalarea lor comună, adică rularea comenzii:

install.packages("tidyverse")

Desigur, pentru asta aveți nevoie întâi să aveți instalat R, preferabil și RStudio. Am scris aici despre asta.

Etichete: R, rstudio

Cookie	Durată	Descriere
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Categorii